首頁猿問限制在 Tika...

限制在 Tika 中解析的嵌入式文件的數量

Java

慕斯王 2023-04-13 15:43:17

在創建自定義 EmbeddedDocumentExtractor 類時，我需要解析文件中的嵌入文檔并對有限數量的嵌入文檔（比如 10 個）執行一些操作。如果我處理一個包含 1000 個嵌入的文件，每個嵌入都會被處理，這絕對是浪費時間。有沒有辦法限制只解析前幾個嵌入文件？public void parseEmbedded(InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml) throws SAXException, IOException { if(fileCount >= COUNT_LIMIT){ //skip file } else{ //perform op }}通過這種方法，比較文件計數（已處理的嵌入文件的數量）和 COUNT_LIMIT 實際上需要時間，而不是使進程停止。

查看完整描述

2 回答

繁花不似錦

TA貢獻1851條經驗獲得超4個贊

在 OP 提出問題后更新：

EmbeddedDocumentExtractor我知道您在開始提問時已經在制作一個實現 tika's 的自定義類：

“關于創建自定義 EmbeddedDocumentExtractor 類，”

所以看看 tika github 我看到這EmbeddedDocumentExtractor是一個由名為的類實現的接口ParsingEmbeddedDocumentExtractor，它有一個具體的方法parseEmbedded。我假設這是您要使用的方法，但限制為n。

我建議您創建一個自定義類來實現EmbeddedDocumentExtractor并繼承自ParsingEmbeddedDocumentExtractor. 在這個類中，您定義了一個名為 COUNT_LIMIT 的變量。然后重寫 parseEmbedded 方法來執行以下操作：

分離 InputStream 中的文件
將這些分離的文件放在使用限制的for循環中
在每個文件上調用父方法。

所以它看起來像這樣：

class MyEmbeddedDocumentExtractor implements EmbeddedDocumentExtractor extends ParsingEmbeddedDocumentExtractor{

private static int COUNT_LIMIT = 10;

...

@Override parseEmbedded(

InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml)

throws SAXException, IOException {

// separate the files in the InputStream

for(int i = 0; i < COUNT_LIMIT; i++){

super.parseEmbedded(streamOfOneFile, handler, metadata, outputHtml)

}

反對回復 2023-04-13

慕俠2389804

TA貢獻1719條經驗獲得超6個贊

根據您的需要，也許可以嘗試 RecursiveParserWrapper；您可以在 RecursiveParserWrapperHandler 中設置最大嵌入深度。

反對回復 2023-04-13

2 回答
0 關注
273 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

限制在 Tika 中解析的嵌入式文件的數量

限制在 Tika 中解析的嵌入式文件的數量

2 回答

添加回答