課程
                    
                        /后端開發
                        
                            /Python
                        
                        /Python開發簡單爬蟲

spider_main.py中的from baike_spider import url_manager問題

baike_spider是在工程下面創建的package，里面是空的，那from baike_spider import url_manager,html_downloader,html_parser,html_outputer這句代碼，又怎么從baike_spider模塊中引入(import)? url_manager呢？
我按照視頻里面的代碼打出來，運行后紙爬取了講個網址就結束了。我懷疑是不是因為(package)baike_spider為空引起的，求大神指導

蘭陵蕭蕭笙

2017-05-15

源自：Python開發簡單爬蟲 8-1

關注問題我要回答

1643

操作

收起

2 回答

請叫我百度回答被采納 +3 積分
2017-05-18

第一：baike_spider是你創建的包，你所說的url_manager肯定是放在包中的代碼，是可以import進去了。

第二：只爬取一個網址就結束應該是html_parser中的代碼有問題，比如課程中的匹配策略與現在的百度Python詞條不匹配，需要改成href = re.compile(r"/item/.*") ? 再或者find_all ?不要丟了下劃線，我就沒注意到下劃線，所以只輸出了1條記錄就craw faild了。

0 回復有任何疑惑可以回復我~

收起回答

蘭陵蕭蕭笙提問者

晚上試試，我還以為是我代碼哪里打錯了，多謝啦

2017-05-18 回復有任何疑惑可以回復我~

Ramon_Lee 回復蘭陵蕭蕭笙提問者

我的天，難道我自己動手做的第一個爬蟲就運行不起來啊，意思就是現在應該用http://baike.baidu.com/view/21087.htm，解析器里就應該是href = re.compile(r"/item/.*")，才可以？不過我怎么運行都是 craw 1 : None craw failed 崩潰了。。。

2017-05-25 回復有任何疑惑可以回復我~

蘭陵蕭蕭笙提問者回復 Ramon_Lee

那可能是你其他地方有些小錯誤，我就是一個字母寫錯了，找了幾天才搞定。我有我手打的源碼，你要不要？

2017-05-25 回復有任何疑惑可以回復我~