亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

《python網絡數據采集》--好書推薦

一个前辈推荐的一本新书,
书到后很快就觉得这是好书。

就想要系统的读这本书,
同时也想和大家分享一下。

下面是这本数的大致目录



第一部分 创建爬虫

第一章 复杂的HTML解析

    BeautifulSoup库   
    Lambda表达式       
    超越BeautifulSoup

第二章 开始采集

    遍历单个域名
    采集整个网站
    通过互联网采集
    用Scrapy采集

第三章 使用API

    API概述
    API通用规则
    服务器响应
    Echo Nest
    Twitter API
    Google API
    解析JSON数据

第四章 存储数据

    把数据存储到CSV
    把数据存储到MongoDB

第五章 读取文档

    文档编码
    纯文本
    CSV
    PDF
    微软Word和.docx

第二部分 高级数据清洗

第六章 数据清洗

    编写代码清洗数据
    数据存储后清洗数据

第七章 自然语言处理

    概括数据
    马尔代夫模型
    自然语言工具包
    其他资源

第八章 穿越网页表单与登录窗口进行采集

    Python Requests 库
    提交一个基本表单
    单选按钮.复选框和其他输入
    提交文件和图像
    处理登录和cookie
    其他表单问题

第九章 采集JavaScript

    Ajax和动态HTML
    处理重定向

第十章 图像识别与文字处理

    OCR库概述
    处理格式规范的文字
    读取验证码与训练Tessract
    获取验证码提交答案

第十一章 避免采集陷阱

    伪装爬虫
    常见表单安全措施
    问题检查表

第十二章 用爬虫测试网站

    测试简介
    Python测试单元
    Selenium单元测试
    Python单元测试与Selenium单元测试的选择

第十三章 远程采集

    Tor 代理服务器
    远程主机
點擊查看更多內容
19人點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消