運行結果提問
首先python的百科詞條目前貌似不是這個:http://baike.baidu.com/view/21087.htm
而是:http://baike.baidu.com/item/Python
而且,里面對應的其他url鏈接也是這種:http://baike.baidu.com/item/計算機程序設計語言
因此,我能想到的修改就是在主調程序spider_main里:root_url = "http://baike.baidu.com/item/Python"
另外,修改解析器中的正則匹配:
def _get_new_urls(self, page_url, soup):
? ?new_urls = set()
? ?# /view/123.htm
? ?links = soup.find_all('a', href=re.compile(r'/item/.'))
? ?for link in links:
? ? ? ?new_url = link['href']
? ? ? ?new_full_url = urlparse.urljoin(page_url, new_url)
? ? ? ?new_urls.add(new_full_url)
? ?return new_urls
但是運行結果顯示,,
這樣看來的話,我第一個網址都沒解析出來,請問下老師這是什么原因呢?謝謝
2022-03-24
==就是Javascript里面的等于號nbsp;=就是賦值號nbsp;nbsp;中間加空格就相當于nbsp;兩個賦值號了nbsp;吃了炫邁,停不下來
2017-05-26
如果使用的是python3的話中間一句不正確,無法組成新的url,從而讓循環一直是錯誤,但是如果是循環停止的話,去除try,except進行運行差錯,應該中間一個步驟出現了錯誤