我的購物車

已加入門課程

購物車里空空如也

快去這里選購你中意的課程

實戰課

體系課

我的訂單中心

去購物車

全部開發者教程

Python 原生爬蟲教程

爬蟲基礎

01 網絡爬蟲簡介 02 網頁基本構成和抓取原理 03 HTML 與 CSS 基礎入門 04 HTTP 協議通信基原理 05 HTTP 的請求和響應 06 Python 環境安裝 07 requests 第三方庫 08 最簡單的爬蟲案例開發

爬蟲進階

09 使用 Xpath 進行爬蟲開發 10 BeatifulSoup 的使用 11 使用正則表達式進行頁面提取 12 MongoDB 數據庫的簡單使用和配置 13 Redis 的簡單使用和配置 14 開發小案例-綜合運用

高級知識

15 爬蟲與反爬蟲 16 數據可視化 17 數據清洗 18 使用 Pytesseract 進行簡單的驗證 19 第三方打碼平臺進行復雜驗證碼的識別

首頁慕課教程 Python 原生爬蟲教程 14 開發小案例-綜合運用

basil_2020 · 更新于 2020-04-14

13 Redis 的簡單使用和配置

15 爬蟲與反爬蟲

開發小案例-綜合運用

學習了這么多知識，這節課我們來實踐一下，我們在這節課會設計一個小爬蟲來爬取慕課網所有的免費課信息。當然，爬取慕課網所有免費課信息只是一個大的目標而已，具體要實現這個目標我們還需要對劃分步驟，將一個大目標分解成一個個的小目標才可以。在實際的開發工作中我們也需要這樣，拿到需求之后不要上來就開始寫代碼，然后一邊寫一邊運行調試，雖然這樣不能說錯吧，但是卻跟裝運氣一樣，試對了就對了，錯了還一直在哪里糾結。下面我們先來看下這個小爬蟲的案例步驟：

1. 案例步驟與目標：

分析網站
書寫程序
運行程序，并將結果存入MongoDB

1.1 目標：

通過本案例，學習BeautifulSoup的網站分析方法，以及掌握將數據存入MongoDB

1.2 分析網站

第一步，打開慕課網網址，然后點擊免費課程，效果如下：

圖片描述

接下來，我們右鍵單擊鼠標，效果如下：

圖片描述

點擊 Inspect 后，在瀏覽器的下端，會彈出瀏覽器 debug 控制面板：
圖片描述

單擊左上角的小三角，然后選定一個課程，效果如下：

圖片描述

如下圖陰影部分所示，是圖片的在 html 中的位置，我們需要整個課程的信息，因此提取 course-card-content 作為基本模塊：
圖片描述

在程序里，我們需要使用 BeautifulSoup 定位到到這里。

2. 書寫程序

我們先來看一下代碼的架構：

圖片描述

接下來，讓我們看看所有代碼。

import requests
from bs4 import BeautifulSoup   
from  pprint import pprint
import os
import lxml
import pymongo

headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36'} # 請求頭部

def get_course_info():
    """ get all course basic unit """

    url = "http://www.xianlaiwan.cn/course/list" #慕課網免費課地址
    r = requests.get(url, headers= headers) # 發送請求
    bs = BeautifulSoup(r.text, "lxml")   # 解析網頁
    course_data = bs.find_all("div", class_="course-card-container") # 定位課程信息
    return course_data


def save_pics(course_data):
    """ save pics from imooc free course """

    for each_item in course_data:
        img = each_item.find("img")
        image_link = img.attrs["data-original"].split("/")
        image_address = "http:" + img.attrs["data-original"] 
        with open(image_link[-1],'wb+') as f:
            res = requests.get(image_address, headers= headers) # 發送請求
            f.write(res.content)


def save_courses_to_mongodb(mongod_con, course_data):
    """ save info to mongodb """

    for each_item in course_data:
        imgs = each_item.find("img")
        desc = each_item.find("p", class_="course-card-desc") # 定位課程信息
        class_name = each_item.find("h3", class_="course-card-name") # 定位課程信息
        imooc_dict = { "class_name": class_name.getText(), "class_pics": imgs.attrs["data-original"], "people":desc.getText()}
        x = mongod_con.insert_one(imooc_dict)


def create_local_pic_dir():
    """ if don't have local dir, create one for holding the pics which download from the imooc. """

    directory = os.path.dirname(os.path.realpath(__file__)) + '/imooc_pics/'    
    if not os.path.exists(directory):
        os.makedirs(directory)
    os.chdir(directory)


def db_connectin():
    """ Connection to local mongo db service."""

    try:
        myclient = pymongo.MongoClient("mongodb://localhost:27017/")
        mydb = myclient["practice"]
        mongod_con = mydb["imooc_courses"]
    except Exception as e:
        print("ERROR(MongoPipeline):", e)

    return mongod_con


def main():
    """ This is the main entry for running code.""" 

    create_local_pic_dir()
    mycol = db_connectin()

    data = get_course_info()

    if data:
        save_pics(data)
        save_courses_to_mongodb(mycol, data)

if __name__ == "__main__":
    main()