課程
                    
                        /后端開發
                        
                            /Python
                        
                        /Python開發簡單爬蟲

python 3.5 解析器代碼問題

name 'new_urls' is not defined

這個怎么解決

00:05

厲害咯

2016-12-01

源自：Python開發簡單爬蟲 7-5

關注問題我要回答

2507

操作

收起

12 回答

豬豬的笨笨
2016-12-01

感覺你是最近才學的吧。如果是，建議你學習一下基礎，然后一個一個模塊的學習使用。最后再一次使用多個模塊。而且，這個視頻的python和模塊有點老，你要小心有很多坑，我就是被坑了很多次?。。?/p>

0 回復有任何疑惑可以回復我~

收起回答

豬豬的笨笨
2016-12-01

第20行中第一個new_urls

0 回復有任何疑惑可以回復我~

收起回答

厲害咯提問者
2016-12-01

改了，只執行了2行

0 回復有任何疑惑可以回復我~

收起回答

豬豬的笨笨

你截圖中的第20行，第一個new_url加s

2016-12-01 回復有任何疑惑可以回復我~

厲害咯提問者回復豬豬的笨笨

修改了，但是只爬了兩個頁面就停止了 craw 1 : http://baike.baidu.com/view/21087.htm craw 2 : http://baike.baidu.com/view/10812319.htm Process finished with exit code 0

2016-12-02 回復有任何疑惑可以回復我~

豬豬的笨笨回復厲害咯提問者

可是他沒有報錯。你的代碼其他地方出問題了。好好的看一下。我建議你好好學一下基礎，然后一個模塊一個模塊的編寫代碼，測試。最后再把多個模塊串聯起來寫成一個程序0.0

2016-12-04 回復有任何疑惑可以回復我~

豬豬的笨笨
2016-12-01

第一個new_url加上s就好了

0 回復有任何疑惑可以回復我~

收起回答

厲害咯提問者

哪兒的？

2016-12-01 回復有任何疑惑可以回復我~

豬豬的笨笨
2016-12-01

第20行，new_url沒有s

0 回復有任何疑惑可以回復我~

收起回答

厲害咯提問者
2016-12-01

#調度程序
import?url_manager,?html_downloader,?html_parser,?html_outputer

class?SpiderMain(object):

????def?__init__(self):
????????self.urls?=?url_manager.UrlManager()
????????self.downloader?=?html_downloader.HtmlDownloader()
????????self.parser?=?html_parser.HtmlParser()
????????self.outputer?=?html_outputer.HtmlOutputer()

????def?craw(self,root_url):
????????count?=?1
????????self.urls.add_new_url(root_url)
????????while?self.urls.has_new_url():
????????????try:
????????????????new_url?=?self.urls.get_new_url()
????????????????print('craw?%d?:?%s'?%?(count,new_url))
????????????????html_cont?=?self.downloader.download(new_url)
????????????????new_url,new_data?=?self.parser.parse(new_url,html_cont)
????????????????self.urls.add_new_urls(new_urls)
????????????????self.outputer.collect_data(new_data)

????????????????if?count?==?1000:
????????????????????break

????????????????count?=?count?+?1
????????????except?Exception?as?err:
????????????????print(err)

????????self.outputer.output_html()


if?__name__?==?"__main__":
????root_url?=?"http://baike.baidu.com/view/21087.htm"
????obj_spider?=?SpiderMain()
????obj_spider.craw(root_url)

0 回復有任何疑惑可以回復我~

收起回答