簡介”introduce”在不用循環語句時信息全,但寫了循環語句,只有第二行信息
content=i_item.xpath(".//div[@class='bd']/p[@class='']/text()").extract() #數據處理(多行數據)實現格式化,但未實現將所有信息整理 for?i_content?in?content: ????content_s="".join(i_content.split()) ????douban_item['introduce']=content_s 和 douban_item['introduce']==i_item.xpath(".//div[@class='bd']/p[@class='']/text()").extract_first()
循環語句使用后,只顯示:
1994?/?美國?/?犯罪 劇情
而我們用XPATH時,可以看到路徑信息應該是:
導演: 弗蘭克·德拉邦特 Frank Darabont???主演: 蒂姆·羅賓斯 Tim Robbins /...
1994?/?美國?/?犯罪 劇情
請問各位有啥辦法爬取這個路徑下的所有信息
2018-08-21
只顯示“1994?/?美國?/?犯罪 劇情”是因為在for循環里,
douban_item[
'introduce'
]的值被覆蓋了,如果想全部爬取的話,可以聲明
douban_item[
'introduce'
]為一個數組,把i_content循環append到數組里就可以了
2019-01-03
2018-09-19
直接在循環外定義一個空字符串,然后在循環內字符串自相加就可以了
2018-09-17
good,已嘗試