大家在管理爬取到數據的時候,一般對異常數據是怎么進行防御的?比如對一個網站的商品爬取下來后,每天都自動更新最新的信息,但是如果目標網站大批量返回錯誤數據,這樣一下子就把之前的正確數據洗掉了。而且這些錯誤數據比如說價格,原來是20塊,一下子返回200塊,數據類型一樣,但是值的意義不同了。嚴格來說,這不是技術問題,所以請不要簡單給個建議說用xx技術之類的。這不是技術問題,不是用干什么語言什么框架的問題 (2年前)
對爬蟲爬取到的數據管理
精慕HU
2018-07-15 11:08:22