亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

FineReader 引擎 Java SDK。如何在從 PDF 轉換為 DOCX 時忽略圖片

FineReader 引擎 Java SDK。如何在從 PDF 轉換為 DOCX 時忽略圖片

LEATH 2023-06-14 10:52:49
我需要找到一種方法來在轉換為 DOCX 文件的過程中忽略 PDF 文檔中的圖片和照片。我正在創建 FineReader Engine 的一個實例:IEngine engine = Engine.InitializeEngine(engineConfig.getDllFolder(), engineConfig.getCustomerProjectId(),engineConfig.getLicensePath(), engineConfig.getLicensePassword(), "", "", false);之后,我正在轉換文檔:IFRDocument document = engine.CreateFRDocument();document.AddImageFile(file.getAbsolutePath(), null, null);document.Process(null);String exportPath = FileUtil.prepareExportPath(file, resultFolder);document.Export(exportPath, FileExportFormatEnum.FEF_DOCX, null);因此,它會轉換初始 pdf 文檔中的所有圖像。
查看完整描述

3 回答

?
UYOU

TA貢獻1878條經驗 獲得超4個贊

當您將 pdf 導出到 docx 時,您應該使用一些導出參數。通過這種方式,您可以使用 IRTFExportParams。你可以得到這個對象:

IRTFExportParams irtfExportParams = engine.CreateRTFExportParams();

在那里你可以像這樣設置 writePicture 屬性:

irtfExportParams.setWritePictures(false);

那里:IEngine engine是主界面。我想你知道如何初始化它;)))

您還必須在方法 document.Process() 屬性中進行設置。(文件來自IFRDocument document)。在Process()方法中你必須給IDocumentProcessingParams iDocumentProcessingParams。這個對象有方法setPageProcessingParams(),你必須把IPageProcessingParams iPageProcessingParams參數放在那里(你可以通過 得到這個對象engine.CreatePageProcessingParams())。這個對象有方法:

iPageProcessingParams.setPerformAnalysis(true);
iPageProcessingParams.setPageAnalysisParams(iPageAnalysisParams);

在第一個方法中設置為真,在第二個方法中我們給出iPageAnalysisParamsIPageAnalysisParams iPageAnalysisParams = engine.CreatePageAnalysisParams())。

最后一步,您必須像這樣在setDetectPictures(false)方法中設置 false 值iPageAnalysisParams。就這樣:)

當你要導出文檔時,你應該像這樣放置這個參數:

IFRDocument document = engine.CreateFRDocument();
document.Export(filePath, FileExportFormatEnum.FEF_DOCX, irtfExportParams);

希望我的回答對大家有幫助)))


查看完整回答
反對 回復 2023-06-14
?
白板的微信

TA貢獻1883條經驗 獲得超3個贊

我不太熟悉 PDF 到 DOCX 的轉換,但我認為您可以根據需要嘗試自定義配置文件。


在您的代碼中的某個時刻,您應該創建一個Engine對象,然后再創建一個Document對象(或IFRDocument對象,具體取決于您的應用程序)。在將文檔提供給引擎進行處理之前添加此行:


engine.LoadProfile(PROFILE_FILENAME);

然后使用與您的 FRE 安裝一起打包的文檔中的“使用配置文件”部分下描述的一些處理參數創建您的文件。不要忘記在您的文件中添加:


... some params under other sections


[PageAnalysisParams]

DetectText = TRUE       --> force text detection

DetectPictures = FALSE  --> ignore pictures

... other params under PageAnalysisParams


... some params under other sections

它對條形碼等的工作方式相同......但請記住,在從該文件中添加或刪除內容時對結果進行基準測試,因為它可能會改變處理速度和結果的全局質量。


查看完整回答
反對 回復 2023-06-14
?
吃雞游戲

TA貢獻1829條經驗 獲得超7個贊

PDF 輸入頁面包含什么?MS Word 中的預期內容是什么?如果您能附上一個輸入 PDF 文件的示例和一個 MS Word 格式的所需結果示例,那就太好了。然后給出一個有用的建議會容易得多。



查看完整回答
反對 回復 2023-06-14
  • 3 回答
  • 0 關注
  • 240 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號