簡介”introduce”在不用循環語句時信息全,但寫了循環語句,只有第二行信息
content=i_item.xpath(".//div[@class='bd']/p[@class='']/text()").extract()
#數據處理(多行數據)實現格式化,但未實現將所有信息整理
for?i_content?in?content:
????content_s="".join(i_content.split())
????douban_item['introduce']=content_s
和
douban_item['introduce']==i_item.xpath(".//div[@class='bd']/p[@class='']/text()").extract_first()循環語句使用后,只顯示:
1994?/?美國?/?犯罪 劇情
而我們用XPATH時,可以看到路徑信息應該是:
導演: 弗蘭克·德拉邦特 Frank Darabont???主演: 蒂姆·羅賓斯 Tim Robbins /...
1994?/?美國?/?犯罪 劇情
請問各位有啥辦法爬取這個路徑下的所有信息
2018-08-21
只顯示“1994?/?美國?/?犯罪 劇情”是因為在for循環里,
douban_item['introduce']的值被覆蓋了,如果想全部爬取的話,可以聲明douban_item['introduce']為一個數組,把i_content循環append到數組里就可以了2019-01-03
2018-09-19
直接在循環外定義一個空字符串,然后在循環內字符串自相加就可以了
content_s='' for?i_content?in?content: ????content_s1=("".join(i_content.split())) ????content_s=content_s+content_s1 douban_item['introduce']?=?content_s2018-09-17
good,已嘗試