亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Python scrapy框架用21行代碼寫出一個爬蟲

標簽:
Java Python

开发环境:Pycharm 2017.1(目前最新)
开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析


https://img1.sycdn.imooc.com//5d31af5e000122d507170339.jpg

Paste_Image.png


根据上图我们可以发现内容都在类为post这个div
下面放出post的代码


<div class="post"><!-- baidu_tc block_begin: {"action": "DELETE"} --><div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end --><h2><a ><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1.定义items

class DemoItem(scrapy.Item):
    id = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()
    content = scrapy.Field()

2.新建一个爬虫名为test

# -*- coding: utf-8 -*-import scrapyfrom demo.items import DemoItemfrom scrapy.http import Requestclass TestSpider(scrapy.Spider):
    #定义爬虫的名字和需要爬取的网址
    name = "test"
    allowed_domains = ["www.abckg.com"]
    start_urls = ['http://www.abckg.com/']    def parse(self, response):
        for resp in response.css('.post'):            #实例化item
            item = DemoItem()            #把获取到的内容保存到item内
            item['href'] = resp.css('h2 a::attr(href)').extract()
            item['title'] = resp.css('h2 a::text').extract()
            item['content'] = resp.css('.intro p::text').extract()            yield item            
        #下面是多页面的爬取方法
        urls = response.css('.pageinfo a::attr(href)').extract()        for url in urls:            yield Request(url, callback=self.parse)
        categorys = response.css('.menu li a::attr(href)').extract()        for ct in categorys:            yield Request(ct, callback=self.parse)

3.修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

运行

打开cmd输入

scrapy crawl test -o items.json

https://img1.sycdn.imooc.com//5d31af630001390c07200384.jpg

运行截图

https://img1.sycdn.imooc.com//5d31af690001f0fe07260386.jpg

结果

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapybug)

可拓展内容

1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知
2.检测数据是否重复


作者:凌霄_
链接:https://www.jianshu.com/p/d89acc0da6c2


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消