亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

第一次爬蟲實例

標簽:
深度學習

第一次爬虫实例

1、这是我第一次写的爬虫实例,写的不好请见谅,最后发现爬取的次数多了,被网站拉黑了,还是需要代理才行,代理还不太清楚怎么弄就先这样了

后面请大神可以帮忙改下怎么使用代理爬取。

第一次爬取网站的所有电影信息(仅供参考)

具体思路就是先获取第一页上的信息

然后根据翻页上的页数来确定爬取多少页

下面是具体代码:

复制代码

import requestsfrom bs4 import BeautifulSoupfrom concurrent.futures import ThreadPoolExecutor


root = 'http://www.btrenren.com'def  bt_video(num):
    url = "http://www.btrenren.com/index.php/Index/index/p/%s.html"%num
    head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"}

    html = requests.get(url=url,headers=head)
    soup = BeautifulSoup(html.content,'lxml')
    data = soup.find('div',class_="ml")
    data = data.find_all(class_="title")
    with open("video.txt", 'a', encoding='utf-8') as f:        for i in data:            #电影名
            name = i.find_all('font')[1].get_text().split('/')[0].strp()            #日期国家
            vlue = i.find_all(class_='des')[0].get_text().split('\n')[0].strp()            #演员
            vlue1 = i.find_all(class_='des')[0].get_text().split('\n')[1].strp()            #豆瓣评分
            douban = i.find(class_="rt").get_text().strp()            #网页路径
            href = root + i.find_all('a')[1].get('href').strp()            #print(name,vlue,vlue1,douban,href)
            f.write('%s,%s,%s,%s,%s\n' % (name, vlue, vlue1, douban,href))    print(num)def num_video():
    url = "http://www.btrenren.com/index.php/Index/index/p/1.html"
    head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"}
    html = requests.get(url=url, headers=head)
    soup = BeautifulSoup(html.content, 'lxml')
    number = soup.find('ul',class_="pagelist")
    number = number.find_all('span',class_="rows")
    num = number[0].get_text().split(' ')[1]    return numif __name__ == "__main__":
    executor = ThreadPoolExecutor(max_workers=30)
    num = int(num_video())    for i in range(1,num):
        executor.submit(bt_video,i)
    executor.shutdown()
    exit()

复制代码

原文出处:https://www.cnblogs.com/xu743876685/p/9575254.html

點擊查看更多內容
1人點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消