什么是增量式抓取 關于網絡爬蟲的
1 回答

慕田峪9158850
TA貢獻1794條經驗 獲得超7個贊
Nutch爬蟲的工作策略一般則可以分為累積式抓?。╟umulative crawling)和增量式抓?。╥ncremental crawling)兩種。
累積式抓取是指從某一個時間點開始,通過遍歷的方式抓取系統所能允許存儲和處理的所有網頁。在理想的軟硬件環境 下,經過足夠的運行時間,累積式抓取的策略可以保證抓取到相當規模的網頁集合。但由于Web數據的動態特性,集合中網頁的被抓取時間點是不同的,頁面被更新的情況也不同,因此累積式抓取到的網頁集合事實上并無法與真實環境中的網絡數據保持一致。
增量式抓取是指在具有一定量規模的網絡頁面集合的基礎上,采用更新數據的方式選取已有集合中的過時網頁進行抓取,以保證所抓取到的數據與真實網絡數據足夠接近。進行增量式抓取的前提是,系統已經抓取了足夠數量的網絡頁面,并具有這些頁面被抓取的時間信息。
面向實際應用環境的網絡蜘蛛設計中,通常既包括累積式抓取,也包括增量式抓取的策略。累積式抓取一般用于數據集合的整體建立或大規模更新階段;而增量式抓取則主要針對數據集合的日常維護與即時更新。
添加回答
舉報
0/150
提交
取消