首頁手記 Scrapy入門教程：從零開始搭建你的第一個爬蟲項目

Scrapy入門教程：從零開始搭建你的第一個爬蟲項目

標簽：

爬蟲

概述

Scrapy是一个强大的Python框架，用于高效抓取和解析网站数据。它支持多种数据源，并通过高度可定制的设计满足各种抓取需求。本文详细介绍了Scrapy的安装方法、项目结构、核心组件以及实战案例，帮助开发者快速上手。

Scrapy简介与安装

Scrapy是什么

Scrapy是一个强大的Python框架，用于抓取网站的内容并解析数据。它设计用于从网站中提取结构化的数据，通常用于构建搜索引擎、数据挖掘和信息提取等场景。Scrapy具有高度可定制性，支持多种数据源，并可以通过配置来适应不同的抓取需求。

Scrapy的特点和优势

Scrapy具有以下一些特点和优势：

异步处理：Scrapy使用Twisted异步网络库来处理网络请求，这使得它能够高效地处理大量并发请求，减少延迟。
强大的选择器：Scrapy内置了XPath和CSS选择器，可以方便地从HTML、XML等格式的文档中提取数据。
高度可扩展性：Scrapy的组件化设计使得开发者可以轻松地添加自定义组件，如中间件、管道等，以满足特定需求。
遵守机器人协议：Scrapy默认遵守robots.txt协议，确保爬虫行为符合网站的抓取规则。
丰富的内置功能：提供了多种内置功能，如重复请求过滤、下载延迟、重试策略等，简化了开发过程。
强大的中间件体系：支持多种中间件，包括爬虫中间件、下载中间件和蜘蛛中间件，可以用于实现各种自定义逻辑。
强大的管道体系：支持自定义数据处理管道，可以方便地将数据清洗、存储或发送到其他服务。

Scrapy环境搭建与安装方法

要开始使用Scrapy，首先需要确保已经安装了Python环境。Scrapy支持Python 3.6及以上版本。安装Scrapy的步骤如下：

安装Python

如果你还没有安装Python，可以通过Python官方网站下载并安装最新版本的Python。确保在安装过程中选择了将Python添加到环境变量中，这样可以在命令行中直接调用Python。

创建虚拟环境

为了保持项目的独立性，建议在项目中创建一个虚拟环境。可以使用venv来创建虚拟环境：

python -m venv scrapy-env

这将创建一个名为scrapy-env的虚拟环境文件夹。要激活这个环境：

在Windows中：
```
source scrapy-env\Scripts\activate
```
在MacOS/Linux中：
```
source scrapy-env/bin/activate
```

安装Scrapy

激活虚拟环境后，可以通过pip安装Scrapy：

pip install scrapy

安装完成后，可以检查Scrapy是否安装成功：

scrapy version

这将输出Scrapy的版本信息，表明安装成功。

通过以上步骤，你可以顺利搭建好Scrapy开发环境，并开始编写你的第一个爬虫项目。

Scrapy项目结构与基本概念

项目结构解析

Scrapy项目通常具有以下目录结构：

myproject/
│───myproject/
│      └───items.py
│      └───pipelines.py
│      └───settings.py
│      └───spiders/
│              └───myspider.py
│───scrapy.cfg

目录详解

myproject/：这是你的项目根目录。
myproject/items.py：在这个文件中定义了数据结构。
myproject/pipelines.py：定义处理数据的方法，如清洗、保存数据等。
myproject/settings.py：配置项目相关的设置。
myproject/spiders/：存放所有的爬虫类文件。
scrapy.cfg：Scrapy项目的配置文件。

示例代码

# items.py
import scrapy

class MyItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    content = scrapy.Field()

# pipelines.py
class MyPipeline:
    def process_item(self, item, spider):
        # 这里可以处理item数据，例如清洗、保存等操作
        return item

# settings.py
BOT_NAME = 'myproject'

SPIDER_MODULES = ['myproject.spiders']
NEWSPIDER_MODULE = 'myproject.spiders'

Scrapy核心组件介绍

Scrapy框架由多个核心组件构成，每个组件都有其特定的角色和功能。以下为主要的组件：

Engine（引擎）：负责控制整个框架的运行流程，管理各个组件之间的交互。
Scheduler（调度器）：存储待抓取的URL，并按照优先级进行排序。
Downloader（下载器）：负责发起HTTP请求并获取响应。
Spider（爬虫）：负责解析响应内容，提取数据，并生成新的请求。
Item Pipeline（管道）：处理从Spider中提取的数据，可以进行清洗、验证、存储等操作。
Downloader Middlewares（下载中间件）：在发送请求和接收响应之间执行自定义操作。
Spider Middlewares（爬虫中间件）：在Spider处理响应之前和生成新的请求之后执行自定义操作。
Item（项目）：用于存储从页面中提取的数据，通常定义在items.py文件中。

这些组件协同工作，使得Scrapy能够高效地抓取和处理网页数据。

Scrapy基本概念与术语说明

Item：用于存储从网页中提取的数据，定义在items.py文件中。
Pipeline：处理从Spider中提取的数据，可以清洗、验证、存储数据等。
Middleware：在请求发送和响应接收之间执行自定义操作，分为下载中间件和爬虫中间件。
Spider：负责抓取网页内容，定义在spiders目录下的.py文件中。
Selector（选择器）：用于从HTML或XML文档中提取数据，主要使用XPath和CSS选择器。
Request：表示一个网络请求，包含URL、请求头、回调函数等信息。
Response：表示服务器对请求的响应，包含响应体、响应头等信息。
Scheduler：存储待抓取的URL，并按优先级排序。
Downloader：负责发起HTTP请求，并获取响应。
Engine：控制整个框架的运行流程，管理各个组件之间的交互。

了解这些基本概念和术语有助于更好地理解和使用Scrapy框架。

创建第一个Scrapy爬虫

创建Scrapy项目

要创建一个新的Scrapy项目，首先需要确保已经安装好Scrapy。接下来，按照以下步骤创建和运行一个简单的爬虫项目：

创建项目

使用命令行工具，导航到你希望创建项目的位置，然后运行以下命令：

scrapy startproject myproject

这将创建一个新的Scrapy项目，命名为myproject。

项目结构

创建项目后，打开项目目录，你会看到如下结构：

myproject/
│───myproject/
│      └───items.py
│      └───pipelines.py
│      └───settings.py
│      └───spiders/
│              └───myspider.py
│───scrapy.cfg

myproject目录：项目的基本配置文件都在这里。
scrapy.cfg：配置文件。

设置项目

编辑settings.py文件，进行必要的配置：

# settings.py
BOT_NAME = 'myproject'

SPIDER_MODULES = ['myproject.spiders']
NEWSPIDER_MODULE = 'myproject.spiders'

编写简单的爬虫代码

接下来，我们将编写一个简单的爬虫代码，用于抓取一个网页并打印其标题。

编写爬虫

在myproject/spiders目录下创建一个Python文件，例如myspider.py。在这个文件中定义一个爬虫类：

# myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        print(f'Title: {title}')

解析代码

name：这个爬虫的名字。
allowed_domains：允许抓取的域名列表。
start_urls：初始需要爬取的URL列表。
parse：当请求返回响应后，这个方法会被调用。这里的response参数表示响应对象。

在parse方法中，我们使用CSS选择器response.css从响应中提取标题，并打印出来。

运行爬虫并查看结果

现在我们已经准备好，可以运行这个爬虫了。在命令行中，导航到项目的根目录，然后运行以下命令：

scrapy crawl myspider

这将启动名为myspider的爬虫。运行后，你应该会看到类似如下的输出：

2023-10-12 14:51:50 [scrapy.utils.log] INFO: Scrapy 2.6.1 started (bot: myproject)
2023-10-12 14:51:50 [scrapy.utils.log] INFO: Versions: scrapy=2.6.1, lxml=4.7.1, cssselect=1.1.0, parsel=1.6.0, w3lib=1.21.0, python=3.9.12 (tags/v3.9.12:eb2889f, Aug 22 2022, 10:33:59) [MSC v.1935 64 bit (AMD64)]
2023-10-12 14:51:50 [scrapy.utils.log] DEBUG: Using Twisted version 22.10.0
2023-10-12 14:51:50 [scrapy.utils.log] INFO: Scrapy settings['DEFAULT_REQUEST_HEADERS'] for project are:
...
2023-10-12 14:51:50 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'myproject', 'SPIDER_MODULES': ['myproject.spiders'], 'NEWSPIDER_MODULE': 'myproject.spiders', 'ROBOTSTXT_OBEY': True}
2023-10-12 14:51:50 [scrapy.middleware] INFO: Enabled extensions:
...
2023-10-12 14:51:50 [scrapy.middleware] INFO: Enabled downloader middlewares:
...
2023-10-12 14:51:50 [scrapy.middleware] INFO: Enabled spider middlewares:
...
2023-10-12 14:51:50 [scrapy.middleware] INFO: Enabled item pipelines:
...
2023-10-12 14:51:50 [scrapy.core.engine] INFO: Spider opened
2023-10-12 14:51:50 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2023-10-12 14:51:50 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2023-10-12 14:51:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
Title: Example Domain
2023-10-12 14:51:50 [scrapy.core.engine] INFO: Closing spider (reason: finished)
2023-10-12 14:51:50 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
...
2023-10-12 14:51:50 [scrapy.crawler] INFO: Spider closed (finished)

可以看到，爬虫成功运行，并打印出了网页的标题。这样，你就完成了一个简单的Scrapy爬虫。

Scrapy爬虫进阶技巧

使用选择器提取数据

Scrapy提供了强大的选择器来从HTML或XML文档中提取数据。选择器是Scrapy的核心组件之一，主要分为XPath选择器和CSS选择器两大类。

XPath选择器

XPath是一种强大的表达式语言，用于查询和操作XML文档。Scrapy使用XPath选择器来选择和提取文档中的节点。

示例代码

import scrapy

class XPathSpider(scrapy.Spider):
    name = 'xpath_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用XPath选择器提取标题
        title = response.xpath('//title/text()').get()
        print(f'Title: {title}')

示例解释

response.xpath('//title/text()').get()：使用XPath表达式//title/text()选择所有<title>元素中的文本内容，并返回第一个匹配项。get()方法返回第一个匹配项的值。

CSS选择器

CSS选择器是Scrapy提供的另外一种选择器，用于从HTML或XML文档中提取数据。它使用CSS语法来选择节点。

示例代码

import scrapy

class CSSSpider(scrapy.Spider):
    name = 'css_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用CSS选择器提取标题
        title = response.css('title::text').get()
        print(f'Title: {title}')

示例解释

response.css('title::text').get()：使用CSS选择器title::text选择所有<title>元素中的文本内容，并返回第一个匹配项。::text表示选择文本内容。get()方法返回第一个匹配项的值。

组合使用XPath和CSS选择器

Scrapy允许你在同一个项目中组合使用XPath和CSS选择器，以实现更复杂的数据提取。

示例代码

import scrapy

class MixedSpider(scrapy.Spider):
    name = 'mixed_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用XPath选择器提取标题
        title_xpath = response.xpath('//title/text()').get()
        print(f'Title (XPath): {title_xpath}')

        # 使用CSS选择器提取标题
        title_css = response.css('title::text').get()
        print(f'Title (CSS): {title_css}')

示例解释

在这个示例中，我们分别使用XPath和CSS选择器提取了页面的标题，并将结果打印出来。

通过这些示例，你可以看到如何使用选择器来从网页中提取数据。选择器的使用极大地简化了页面解析的任务，使得从网页中提取所需数据变得非常方便。

处理重复请求与响应

在爬虫运行过程中，可能会遇到重复请求和响应的问题。例如，同一个URL可能被多次请求，或者同一个响应可能被多次处理。为了解决这些问题，Scrapy提供了重复请求过滤器和重复响应过滤器。

重复请求过滤器

重复请求过滤器可以避免同一URL被多次请求。默认情况下，Scrapy使用DontRedirectMiddleware来处理重复请求，但它也可以通过配置DUPEFILTER_CLASS设置为其他过滤器。

示例代码

# settings.py
DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

解释

DUPEFILTER_CLASS：设置重复请求过滤器类。默认为RFPDupeFilter，可以自定义其他类。

重复响应过滤器

重复响应过滤器可以避免同一响应被多次处理。可以在parse方法中使用自定义逻辑来过滤重复响应。

示例代码

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 假设从response中提取的一个id字段
        item_id = response.css('div.item::attr(id)').get()

        # 检查是否已经处理过该响应
        if not item_id in self.seen_items:
            # 处理响应
            self.seen_items.add(item_id)
            yield {
                'id': item_id,
                'title': response.css('div.item::text').get()
            }

解释

在这个示例中，我们使用一个集合self.seen_items来跟踪已经处理过的响应。如果响应中的item_id已经在集合中，就不再处理该响应。

通过这些方法，可以有效地处理重复请求和响应问题，确保爬虫运行效率和数据的一致性。

爬虫中间件的使用

Scrapy中间件允许在请求发送和响应接收之间插入自定义代码。中间件可以分为下载中间件和爬虫中间件。下载中间件主要处理请求和响应，而爬虫中间件则处理响应解析和生成新请求。

下载中间件

下载中间件可以在请求发送和响应接收之间执行自定义操作，例如添加或修改请求头，或者处理响应内容。

示例代码

# myproject/mymiddleware.py
class MyDownloadMiddleware:
    def process_request(self, request, spider):
        # 可以在这里添加或修改请求头
        request.headers['User-Agent'] = 'My Custom User Agent'
        return request

    def process_response(self, request, response, spider):
        # 可以在这里处理响应内容
        if response.status == 404:
            return response.replace(status=200)
        return response

示例解释

process_request：在请求发送前调用，可以修改请求或返回其他请求对象。
process_response：在响应接收后调用，可以修改响应或返回其他响应对象。

爬虫中间件

爬虫中间件可以在响应解析和生成新请求之间执行自定义操作，例如修改解析数据或生成新的请求。

示例代码

# myproject/mymiddleware.py
class MySpiderMiddleware:
    def process_spider_output(self, response, result, spider):
        # 可以在这里修改解析结果
        for item in result:
            if isinstance(item, dict):
                item['source'] = 'My Spider Middleware'
            yield item

示例解释

process_spider_output：在解析响应后调用，可以修改解析结果或生成新的数据。

使用中间件

要在项目中启用中间件，需要在settings.py文件中添加中间件类。

示例代码

# settings.py
DOWNLOADER_MIDDLEWARES = {
    'myproject.mymiddleware.MyDownloadMiddleware': 543,
}

SPIDER_MIDDLEWARES = {
    'myproject.mymiddleware.MySpiderMiddleware': 543,
}

示例解释

DOWNLOADER_MIDDLEWARES：设置下载中间件类及其优先级。
SPIDER_MIDDLEWARES：设置爬虫中间件类及其优先级。

通过这些配置和代码示例，你可以看到如何使用Scrapy中间件来增强爬虫的功能和灵活性。中间件机制使得Scrapy框架更加强大和灵活，能够适配更多复杂的抓取需求。

Scrapy项目的部署与调试

部署Scrapy项目到服务器

部署Scrapy项目到服务器时，需要确保服务器环境与本地环境一致。以下是一个基本的部署流程：

准备服务器环境

安装Python：确保服务器上安装了Python 3.6及以上版本。
安装Scrapy：使用pip安装Scrapy。
部署虚拟环境：创建一个虚拟环境，并激活它。
上传项目文件：将本地项目文件上传到服务器。

示例代码

# 创建虚拟环境
python -m venv scrapy-env

# 激活虚拟环境
source scrapy-env/bin/activate

# 安装Scrapy
pip install scrapy

上传项目文件

可以使用SCP、rsync或Git等工具将本地项目文件上传到服务器。例如，使用SCP命令：

scp -r myproject user@server:/path/to/deploy

编写启动脚本

编写一个启动脚本，用于启动Scrapy爬虫。例如，创建一个start_spider.sh脚本：

#!/bin/bash
source /path/to/scrapy-env/bin/activate
cd /path/to/myproject
scrapy crawl myspider

示例代码

#!/bin/bash
source /path/to/scrapy-env/bin/activate
cd /path/to/myproject
scrapy crawl myspider

调度爬虫

可以使用定时任务或脚本定期调度爬虫运行。例如，使用cron定时任务：

# 编辑crontab文件
crontab -e

示例代码

# 每天凌晨3点运行爬虫
0 3 * * * /path/to/start_spider.sh

通过这些步骤，你可以将Scrapy项目部署到服务器并自动运行爬虫。

Scrapy项目调试技巧

调试Scrapy项目时，可以使用多种方法和工具来定位和解决代码中的问题。

使用日志

Scrapy提供了详细的日志输出，可以通过修改settings.py文件中的日志设置来调整日志级别。

示例代码

# 设置日志级别
LOG_LEVEL = 'DEBUG'

# 设置日志文件路径
LOG_FILE = '/path/to/logfile.log'

# 设置将日志输出到标准输出
LOG_STDOUT = True

使用断点调试

可以使用Python的pdb库进行断点调试。在代码中插入pdb.set_trace()来设置断点。

示例代码

import scrapy
import pdb

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        pdb.set_trace()  # 设置断点
        title = response.css('title::text').get()
        print(f'Title: {title}')

使用Scrapy Shell

Scrapy Shell是一个交互式命令行工具，可以用来测试和调试选择器。

示例代码

# 在命令行中运行Scrapy Shell
scrapy shell http://example.com

调试工具

可以使用IDE的调试工具，如PyCharm、Visual Studio Code等，设置断点和监视变量。

通过这些调试技巧，你可以更有效地定位和解决Scrapy项目中的问题。

日志与错误排查

Scrapy框架提供了详细的日志输出，可以通过配置settings.py文件中的日志设置来调整日志级别和输出位置。

日志配置

在settings.py文件中，可以通过设置LOG_LEVEL、LOG_FILE和LOG_STDOUT等参数来调整日志输出。

示例代码

# 设置日志级别
LOG_LEVEL = 'DEBUG'

# 设置日志文件路径
LOG_FILE = '/path/to/logfile.log'

# 设置将日志输出到标准输出
LOG_STDOUT = True

使用日志进行调试

可以使用日志输出来记录爬虫运行过程中的关键信息，以便排查问题。例如，在处理每个请求或响应时记录日志。

示例代码

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        self.logger.debug(f'Parsing page {response.url}')  # 记录调试信息
        title = response.css('title::text').get()
        print(f'Title: {title}')

查看日志文件

可以查看日志文件来跟踪爬虫运行过程中的详细信息。例如，使用tail -f命令实时查看日志文件：

tail -f /path/to/logfile.log

通过这些日志配置和调试技巧，可以更有效地进行Scrapy项目中的日志管理和错误排查。

Scrapy爬虫实战案例

实战案例讲解与实现

假设我们有一个电商网站，需要从该网站抓取商品信息，包括商品标题、价格、图片等。我们将使用Scrapy来实现。

创建项目

首先，创建一个新的Scrapy项目：

scrapy startproject ecommerce

创建爬虫

在ecommerce/spiders目录下创建一个新的爬虫文件product_spider.py。

示例代码

import scrapy

class ProductSpider(scrapy.Spider):
    name = 'product_spider'
    start_urls = [
        'http://example-ecommerce.com/products'
    ]

    def parse(self, response):
        # 提取商品列表
        for item in response.css('div.product'):
            yield {
                'title': item.css('h2::text').get(),
                'price': item.css('span.price::text').get(),
                'image_url': item.css('img::attr(src)').get()
            }

        # 获取下一页URL
        next_page = response.css('a.next::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

解释

name：爬虫的名字。
start_urls：初始需要爬取的URL列表。
parse：解析响应内容，提取商品信息，并生成新的请求。

运行爬虫

使用以下命令运行爬虫：

scrapy crawl product_spider

这将开始爬取商品列表，并输出商品信息。

项目优化与扩展

为了更好地处理抓取的数据，可以使用Scrapy的管道功能。在ecommerce/pipelines.py文件中定义一个管道，用于清洗和保存数据。

示例代码

class EcommercePipeline:
    def process_item(self, item, spider):
        # 清洗商品标题中的多余空格
        item['title'] = item['title'].strip()

        # 清洗价格中的货币符号
        item['price'] = item['price'].replace('$', '')

        return item

配置管道

在settings.py文件中启用管道：

示例代码

ITEM_PIPELINES = {
    'ecommerce.pipelines.EcommercePipeline': 300,
}

通过这些步骤，可以优化和扩展Scrapy项目，使其更适应实际需求。

常见问题与解决方案

问题：爬虫运行缓慢

解决方案：使用异步框架，如Twisted，或并行抓取多个页面。

问题：无法解析某些页面

解决方案：检查选择器是否正确，或者使用XPath和CSS选择器组合。

问题：爬虫抓取的数据不完整

解决方案：确保选择器正确，检查页面结构是否变化，或使用其他选择器。

通过以上实战案例，你可以更深入地了解如何使用Scrapy进行实际项目开发，并解决一些常见问题。

# items.py
import scrapy

class ProductItem(scrapy.Item):
    title = scrapy.Field()
    price = scrapy.Field()
    image_url = scrapy.Field()

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕姐4208626

手記
篇

粉絲

5

獲贊與收藏

38

關注作者，訂閱最新文章

閱讀免費教程

Python 原生爬蟲教程

19個小節 55206 1190

Scrapy 入門教程

27個小節 11105 266

后端通用面試教程

41個小節 32252 360

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Scrapy入門教程：從零開始搭建你的第一個爬蟲項目

安装Python

创建虚拟环境

安装Scrapy

目录详解

示例代码

创建项目

项目结构

设置项目

编写爬虫

解析代码

XPath选择器

示例代码

示例解释

CSS选择器

示例代码

示例解释

组合使用XPath和CSS选择器

示例代码

示例解释

重复请求过滤器

示例代码

解释

重复响应过滤器

示例代码

解释

下载中间件

示例代码

示例解释

爬虫中间件

示例代码

示例解释

使用中间件

示例代码

示例解释

准备服务器环境

示例代码

上传项目文件

编写启动脚本

示例代码

调度爬虫

示例代码

使用日志

示例代码

使用断点调试

示例代码

使用Scrapy Shell

示例代码

调试工具

日志配置

示例代码

使用日志进行调试

示例代码

查看日志文件

创建项目

创建爬虫

示例代码

解释

运行爬虫

示例代码

配置管道

示例代码

问题：爬虫运行缓慢

问题：无法解析某些页面

问题：爬虫抓取的数据不完整

閱讀免費教程