嘗試爬了一個國外的招聘網站www.indeed.com. 當選擇了在美國的職位后,網頁返回的搜索結果大概有3百萬條。但是網頁每次顯示10條,最終有100頁。 我用的python request 和beautifulsoup 能爬下這1000條數據。但是我的目標是爬下這近3百萬條的數據。期間嘗試過先爬完顯示的100頁然后進行多次的循環,也就是反復的爬這100頁。但是重復率很高。
有沒有很好地解決辦法能爬完所有的搜索結果(近300萬的數據)?
添加回答
舉報
0/150
提交
取消