亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

限制在 Tika 中解析的嵌入式文件的數量

限制在 Tika 中解析的嵌入式文件的數量

慕斯王 2023-04-13 15:43:17
在創建自定義 EmbeddedDocumentExtractor 類時,我需要解析文件中的嵌入文檔并對有限數量的嵌入文檔(比如 10 個)執行一些操作。如果我處理一個包含 1000 個嵌入的文件,每個嵌入都會被處理,這絕對是浪費時間。有沒有辦法限制只解析前幾個嵌入文件?public void parseEmbedded(InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml) throws SAXException, IOException {          if(fileCount >= COUNT_LIMIT){              //skip file          }          else{             //perform op          }}通過這種方法,比較文件計數(已處理的嵌入文件的數量)和 COUNT_LIMIT 實際上需要時間,而不是使進程停止。
查看完整描述

2 回答

?
繁花不似錦

TA貢獻1851條經驗 獲得超4個贊

在 OP 提出問題后更新:

EmbeddedDocumentExtractor我知道您在開始提問時已經在制作一個實現 tika's 的自定義類:

“關于創建自定義 EmbeddedDocumentExtractor 類,”

所以看看 tika github 我看到這EmbeddedDocumentExtractor是一個由名為 的類實現的接口ParsingEmbeddedDocumentExtractor,它有一個具體的方法parseEmbedded。我假設這是您要使用的方法,但限制為n。

我建議您創建一個自定義類來實現EmbeddedDocumentExtractor并繼承自ParsingEmbeddedDocumentExtractor. 在這個類中,您定義了一個名為 COUNT_LIMIT 的變量。然后重寫 parseEmbedded 方法來執行以下操作:

  1. 分離 InputStream 中的文件

  2. 將這些分離的文件放在使用限制的for循環中

  3. 在每個文件上調用父方法。

所以它看起來像這樣:

class MyEmbeddedDocumentExtractor implements EmbeddedDocumentExtractor extends ParsingEmbeddedDocumentExtractor{


private static int COUNT_LIMIT = 10;


...


@Override parseEmbedded(

            InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml)

            throws SAXException, IOException {


 // separate the files in the InputStream


for(int i = 0; i < COUNT_LIMIT; i++){

        super.parseEmbedded(streamOfOneFile, handler, metadata, outputHtml)

    }

}


}


查看完整回答
反對 回復 2023-04-13
?
慕俠2389804

TA貢獻1719條經驗 獲得超6個贊

根據您的需要,也許可以嘗試 RecursiveParserWrapper;您可以在 RecursiveParserWrapperHandler 中設置最大嵌入深度。

查看完整回答
反對 回復 2023-04-13
  • 2 回答
  • 0 關注
  • 248 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號