亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

什么是增量式抓取 關于網絡爬蟲的?

什么是增量式抓取 關于網絡爬蟲的?

慕森王 2019-02-08 11:07:07
什么是增量式抓取 關于網絡爬蟲的
查看完整描述

1 回答

?
慕田峪9158850

TA貢獻1794條經驗 獲得超7個贊

Nutch爬蟲的工作策略一般則可以分為累積式抓?。╟umulative crawling)和增量式抓?。╥ncremental crawling)兩種。
累積式抓取是指從某一個時間點開始,通過遍歷的方式抓取系統所能允許存儲和處理的所有網頁。在理想的軟硬件環境 下,經過足夠的運行時間,累積式抓取的策略可以保證抓取到相當規模的網頁集合。但由于Web數據的動態特性,集合中網頁的被抓取時間點是不同的,頁面被更新的情況也不同,因此累積式抓取到的網頁集合事實上并無法與真實環境中的網絡數據保持一致。
增量式抓取是指在具有一定量規模的網絡頁面集合的基礎上,采用更新數據的方式選取已有集合中的過時網頁進行抓取,以保證所抓取到的數據與真實網絡數據足夠接近。進行增量式抓取的前提是,系統已經抓取了足夠數量的網絡頁面,并具有這些頁面被抓取的時間信息。
面向實際應用環境的網絡蜘蛛設計中,通常既包括累積式抓取,也包括增量式抓取的策略。累積式抓取一般用于數據集合的整體建立或大規模更新階段;而增量式抓取則主要針對數據集合的日常維護與即時更新。

查看完整回答
反對 回復 2019-03-06
  • 1 回答
  • 0 關注
  • 902 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號