首頁手記 Python 爬蟲闖關（第四關）

Python 爬蟲闖關（第四關）

標簽：

Python

解题思路

密码列表

初步观察，页面的表格中有两列，其中一列是密码的位置，另外一列是密码的值，猜测是将密码的值拼接成一个字符串，但是页面只有13页，每页8个数值，正好100个数，而位置数最大的出现了100，将这100个数放入到dict(location,value)里，然后再对dict的key进行排序，对value进行拼接，不就得到密码了嘛。

然而现实是残酷的，发现密码的位置中存在重复，也就是遍历完13页数据，并不能得到所有的密码值，然后我就猜想是不是对没有出现在页面的位置进行填充0处理，发现还是失败。

在多次试验中，发现每次获取到的密码的位置并不是相同的，也就是页面里的随机的意思，也就是不断的调用查询密码列表页面，总是能够获取到所有密码的值的。

实现代码

# coding=utf-8import requests, bs4# 题目URLurl = 'http://www.heibanke.com/lesson/crawler_ex03/'# 登录URL，获取cookielogin_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'# 获取密码URLpwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'login_data = {'username':'liuhaha', 'password':'123456'}# 获取默认cookieresponse = requests.get(url)if response.status_code == 200:
    print('Welcome')
cookies = response.cookies# 登录 login_data['csrfmiddlewaretoken'] = cookies['csrftoken']
login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)if login_response.status_code == 200:
    print('login sucessfully')# 获取登录成功后的cookiecookies = login_response.cookies# TODO 解析最大页数payload = {}
pwd_data = {}
i = 0# 通过观察，密码应该有100个数字组成。# 由于每次获取到的密码会有重复，所以不是一次查询完就能获取到所有数字# 这里一直进行查询，直到获取到100个数字while len(pwd_data) < 100:    # 因为每一页的密码位置都是随机给出的，其实这里可以不传page参数，一直调用pwd_url也可以获取到全部密码
    payload['page'] = i % 13
    pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'
    print('------------------------')
    print('loading data from %s?page=%s ...' %(pwd_url, i%13))
    pwd_response = requests.get(pwd_url, cookies=cookies, params=payload)

    soup = bs4.BeautifulSoup(pwd_response.text, "html.parser")    # 获取表格
    table = soup.select('[class="table table-striped"]')    # 解析表格数据，过滤掉表头
    temp_data = {}    for tr in table[0].find_all('tr')[1:]:
        tds = tr.find_all('td')        # 分别取出password的位置及其对应的数字
        pwd_data[int(tds[0].getText())] = tds[1].getText()
        temp_data[int(tds[0].getText())] = tds[1].getText()    # print(temp_data)
    i = i + 1
    print('The load has run %s times and now the pwd_data length is %s' % (i, len(pwd_data)))        
# print(pwd_data)# print('The length of password is %s.' % len(pwd_data))# 拼接passwordpassword = ''for key in sorted(pwd_data.keys()):
    password = password + pwd_data[key]
print(password)# 重新登录playload = {'username':'liuhaha', 'password':password}
playload['csrfmiddlewaretoken'] = cookies['csrftoken']

r = requests.post(url, data=playload, cookies=cookies)

print(u'执行结果：' + str(r.status_code))if r.status_code == 200:    # print(r.text)
    if u"成功" in r.text:
        print(u'闯关成功！密码为：' + password)        # breakelse:
    print(u'Failed')    # break

作者：hoxis
链接：https://www.jianshu.com/p/97c250e1f768

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕虎7371278

手記
篇

粉絲

202

獲贊與收藏

877

關注作者，訂閱最新文章

閱讀免費教程

Python 辦公自動化教程

17個小節 26777 907

Python 算法入門教程

15個小節 29171 1121

Python 進階應用教程

38個小節 69987 1093

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python 爬蟲闖關（第四關）

解题思路

实现代码

閱讀免費教程