有一個項目,我要對頁面每天19點開始爬,每隔30分鐘爬取一次,直到爬取到增量內容后停止,然后明日19點再循環。配置如下@every(minutes=30)
def on_start(self):
...@config(age=24 * 60 * 60)
def index_page(self, response):
...這樣設置,every=每30分鐘,age=每24小時,可以起到定時啟動的效果嗎?如果要發起每天19點開始的定時功能,除了第一次在19點點run之外,還有沒有更合適的方法?此外,該項目的網頁,在內容相同的情況下,URL會變化。請問除了手動對比本地數據庫之外,有沒有更合適的辦法去監測從而只爬取增量?
添加回答
舉報
0/150
提交
取消
