亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

<span id="em1we"><sup id="em1we"><dfn id="em1we"></dfn></sup></span>

<label id="em1we"></label>

<span id="em1we"><code id="em1we"><nobr id="em1we"></nobr></code></span>

<fieldset id="em1we"><button id="em1we"></button></fieldset>

<samp id="em1we"><tfoot id="em1we"><nobr id="em1we"></nobr></tfoot></samp>

<samp id="em1we"><tfoot id="em1we"></tfoot></samp>

<sup id="em1we"><button id="em1we"></button></sup>

<button id="em1we"><rt id="em1we"><tbody id="em1we"></tbody></rt></button>

<fieldset id="em1we"></fieldset>

<span id="em1we"><rt id="em1we"><ins id="em1we"></ins></rt></span>

<menu id="em1we"><button id="em1we"><big id="em1we"></big></button></menu>

                        課程
                    
                        /后端開發
                        
                            /Python
                        
                        /Python開發簡單爬蟲

只抓取一行第二行就輸出failed 跪求解決方法

spider_main代碼

#?-*-?coding:?utf-8?-*-
import?url_manager,html_downloader,html_parser,html_outputer
class?SpiderMain(object):
????def?__init__(self):
????????self.urls?=?url_manager.UrlManager()
????????self.downloader?=?html_downloader.HtmlDownloader()
????????self.parser?=?html_parser.HtmlParser()
????????self.outputer=html_outputer.HtmlOutputer()


????def?craw(self,root_url):
????????count?=?1;
????????self.urls.add_new_url(root_url)
????????while?self.urls.has_new_url():
????????????try:
????????????????new_url?=?self.urls.get_new_url()
????????????????print?'craw?%d?:?%s'%(count,?new_url)
????????????????html_cont?=?self.downloader.download(new_url)
????????????????new_urls,new_data?=?self.parser.parse(new_url,html_cont)
????????????????self.urls.add_new_urls(new_urls)
????????????????self.outputer.collect_data(new_data)

????????????????if?count?==?1000:
????????????????????break
????????????????count?=?count?+?1
????????????except:
????????????????print?'craw?failed'
????????self.outputer.output_html()


if?__name__=='__main__':
????root_url?=?"http://baike.baidu.com/view/21087.html"
????obj_spider?=?SpiderMain()
????obj_spider.craw(root_url)

簡單丶1

2018-07-04

源自：Python開發簡單爬蟲 7-7

關注問題我要回答

877

操作

收起

2 回答

qq_Bonnenult玖氜_0
2018-07-19

我的也是這個問題response =request.urlopen(url)爬取到的只有頭標簽的內容還不完整。。

0 回復有任何疑惑可以回復我~

慕前端3429475
2018-07-04

這個路徑訪問失敗吧？我看現在百科路徑不是這個了，所以沒有新的待爬取路徑產生。。你改成現在的試試，包括爬取目標的格式也變了

0 回復有任何疑惑可以回復我~

舉報

0/150

提交

取消

Python開發簡單爬蟲

參與學習 227596 人
解答問題 1288 個

本教程帶您解開python爬蟲這門神奇技術的面紗

只抓取一行第二行就輸出failed 跪求解決方法

我要回答關注問題

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

掃描二維碼
關注慕課網微信公眾號

<sup id="z8dw6"><rp id="z8dw6"><thead id="z8dw6"></thead></rp></sup>

<dfn id="z8dw6"><rt id="z8dw6"></rt></dfn>