已解決430363個問題，去搜搜看，總會有你想問的

scrapy 如何爬取不同的網頁URL結構，返回相同的item

首頁猿問 scrapy...

scrapy 如何爬取不同的網頁URL結構，返回相同的item

JavaScript

當年話下 2019-04-27 22:14:32

問題描述例如有一個網站內的有三個板塊都是公司的新聞相關https://www.glprop.com.cn/pre...https://www.glprop.com.cn/in-...https://www.glprop.com.cn/in-...這三個頁面都有新聞標題，時間，URL，每個頁面還有下一頁的這種新聞鏈接。問題出現的環境背景及自己嘗試過哪些方法我定義了一個itemclassPuluosiNewsItem(scrapy.Item):newstitle=scrapy.Field()newtiems=scrapy.Field()newslink=scrapy.Field()然后spider里面想通過獲取三個url構建request然后回調函數getnews來獲取新聞事件，新聞標題，新聞鏈接，但是每個URL里面新聞又按年份進行了分類，類似于下一頁下一頁，實在不知道如何寫spider從三個url里面返回相同的item，難道要寫三個spider嗎？classPuluosiSpider(scrapy.Spider):name='puluosi'allowed_domains=['glprop.com.cn']start_urls=['https://www.glprop.com.cn/press-releases.html']#獲取所有hrefdefparse(self,response):print('此時啟動的爬蟲為：puluosi')urllist=response.xpath('//div[@class="menu"]/ul/li[4]//li')#把媒體中的國際市場發債信息url去除urllist.pop()base_url='https://www.glprop.com.cn'forwebinurllist:url=base_url+web.xpath('.//a/@href').extract()[0]yieldscrapy.Request(url,callback=self.getnews)#print("REQUEST:",scrapy.Request)defgetnews(self,response):pass

查看完整描述

2 回答

2 回答
0 關注
298 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

scrapy 如何爬取不同的網頁URL結構，返回相同的item

scrapy 如何爬取不同的網頁URL結構，返回相同的item

2 回答

添加回答

scrapy 如何爬取不同的網頁URL結構，返回相同的item