課程
                    
                        /后端開發
                        
                            /Python
                        
                        /Python最火爬蟲框架Scrapy入門與實踐

簡介”introduce”在不用循環語句時信息全，但寫了循環語句，只有第二行信息

content=i_item.xpath(".//div[@class='bd']/p[@class='']/text()").extract()
#數據處理（多行數據）實現格式化，但未實現將所有信息整理
for?i_content?in?content:
????content_s="".join(i_content.split())
????douban_item['introduce']=content_s
和
douban_item['introduce']==i_item.xpath(".//div[@class='bd']/p[@class='']/text()").extract_first()

循環語句使用后，只顯示：
1994?/?美國?/?犯罪劇情

而我們用XPATH時，可以看到路徑信息應該是：

導演: 弗蘭克·德拉邦特 Frank Darabont???主演: 蒂姆·羅賓斯 Tim Robbins /...
1994?/?美國?/?犯罪劇情

請問各位有啥辦法爬取這個路徑下的所有信息

普六

2018-08-19

源自：Python最火爬蟲框架Scrapy入門與實踐 2-7

關注問題我要回答

1410

操作

收起

4 回答

Accidie漠然回答被采納 +2 積分
2018-08-21

只顯示“1994?/?美國?/?犯罪劇情”是因為在for循環里，douban_item['introduce']的值被覆蓋了，如果想全部爬取的話，可以聲明douban_item['introduce']為一個數組，把i_content循環append到數組里就可以了

0 回復有任何疑惑可以回復我~

收起回答

普六提問者

非常感謝！！

2018-08-27 回復有任何疑惑可以回復我~

普六提問者

不過我去嘗試了后發現，如果只是用數組還是無法顯示導演等信息，嘗試把XPATH路徑中的/text()去掉后就可以了，但是目前還沒找到去除數據中如<pclass=""><br>等符號。

2018-08-27 回復有任何疑惑可以回復我~

慕數據0594206 回復普六提問者

list.append后再''.join（list）

2018-09-17 回復有任何疑惑可以回復我~

泡沫_0009
2019-01-03

contents?=?''
for?i_content?in?content:
????contents?+=?"".join(i_content.split())
douban_item['introduce']?=?contents
追加字符創即可，循環外賦值

0 回復有任何疑惑可以回復我~

收起回答

StydyMoveOn
2018-09-19

直接在循環外定義一個空字符串，然后在循環內字符串自相加就可以了

content_s=''
for?i_content?in?content:
????content_s1=("".join(i_content.split()))
????content_s=content_s+content_s1
douban_item['introduce']?=?content_s

0 回復有任何疑惑可以回復我~

收起回答