亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Apache Nutch 跳過 URL 和截斷

Apache Nutch 跳過 URL 和截斷

紅顏莎娜 2023-05-24 15:42:03
在我的 nutch-site.xml 中,我添加以下內容以停止截斷;但是,在獲取過程中,出現以下錯誤。我希望它停止截斷并提供我需要的結果,我假設 -1 值可以實現。我正在使用 2.2.1 版。有任何想法嗎?<property>    <name>http.content.limit</name>    <value>-1</value>    <description>The length limit for downloaded content using the http        protocol, in bytes. If this value is nonnegative (>=0), content longer        than it will be truncated; otherwise, no truncation at all. Do not        confuse this setting with the file.content.limit setting.    </description></property>線程“main”中的異常 java.lang.RuntimeException:作業失敗:name=fetch,job_local1185573074_0001 在 org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55) 在 org.apache.nutch.fetcher。 FetcherJob.run(FetcherJob.java:194) 在 org.apache.nutch.fetcher.FetcherJob.fetch(FetcherJob.java:219) 在 org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:301) 在 org .apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.fetcher.FetcherJob.main(FetcherJob.java:307)
查看完整描述

1 回答

?
FFIVE

TA貢獻1797條經驗 獲得超6個贊

我通過刪除http.content.limitnutch-site.xml 中的部分并添加parser.skip.truncated并將其設置為 false 來解決此問題。


<property>

    <name>parser.skip.truncated</name>

    <value>false</value>

    <description>Boolean value for whether we should skip parsing for truncated documents. By default this

        property is activated due to extremely high levels of CPU which parsing can sometimes take.

    </description>

</property>


查看完整回答
反對 回復 2023-05-24
  • 1 回答
  • 0 關注
  • 186 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號