解题思路
密码列表
初步观察,页面的表格中有两列,其中一列是密码的位置,另外一列是密码的值,猜测是将密码的值拼接成一个字符串,但是页面只有13
页,每页8个数值,正好100个数,而位置数最大的出现了100
,将这100个数放入到dict(location,value)
里,然后再对dict的key进行排序,对value进行拼接,不就得到密码了嘛。
然而现实是残酷的,发现密码的位置
中存在重复,也就是遍历完13页数据,并不能得到所有的密码值
,然后我就猜想是不是对没有出现在页面的位置进行填充0
处理,发现还是失败。
在多次试验中,发现每次获取到的密码的位置并不是相同的,也就是页面里的随机
的意思,也就是不断的调用查询密码列表页面,总是能够获取到所有密码的值
的。
实现代码
# coding=utf-8import requests, bs4# 题目URLurl = 'http://www.heibanke.com/lesson/crawler_ex03/'# 登录URL,获取cookielogin_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'# 获取密码URLpwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'login_data = {'username':'liuhaha', 'password':'123456'}# 获取默认cookieresponse = requests.get(url)if response.status_code == 200: print('Welcome') cookies = response.cookies# 登录 login_data['csrfmiddlewaretoken'] = cookies['csrftoken'] login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)if login_response.status_code == 200: print('login sucessfully')# 获取登录成功后的cookiecookies = login_response.cookies# TODO 解析最大页数payload = {} pwd_data = {} i = 0# 通过观察,密码应该有100个数字组成。# 由于每次获取到的密码会有重复,所以不是一次查询完就能获取到所有数字# 这里一直进行查询,直到获取到100个数字while len(pwd_data) < 100: # 因为每一页的密码位置都是随机给出的,其实这里可以不传page参数,一直调用pwd_url也可以获取到全部密码 payload['page'] = i % 13 pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/' print('------------------------') print('loading data from %s?page=%s ...' %(pwd_url, i%13)) pwd_response = requests.get(pwd_url, cookies=cookies, params=payload) soup = bs4.BeautifulSoup(pwd_response.text, "html.parser") # 获取表格 table = soup.select('[class="table table-striped"]') # 解析表格数据,过滤掉表头 temp_data = {} for tr in table[0].find_all('tr')[1:]: tds = tr.find_all('td') # 分别取出password的位置及其对应的数字 pwd_data[int(tds[0].getText())] = tds[1].getText() temp_data[int(tds[0].getText())] = tds[1].getText() # print(temp_data) i = i + 1 print('The load has run %s times and now the pwd_data length is %s' % (i, len(pwd_data))) # print(pwd_data)# print('The length of password is %s.' % len(pwd_data))# 拼接passwordpassword = ''for key in sorted(pwd_data.keys()): password = password + pwd_data[key] print(password)# 重新登录playload = {'username':'liuhaha', 'password':password} playload['csrfmiddlewaretoken'] = cookies['csrftoken'] r = requests.post(url, data=playload, cookies=cookies) print(u'执行结果:' + str(r.status_code))if r.status_code == 200: # print(r.text) if u"成功" in r.text: print(u'闯关成功!密码为:' + password) # breakelse: print(u'Failed') # break
作者:hoxis
链接:https://www.jianshu.com/p/97c250e1f768
點擊查看更多內容
為 TA 點贊
評論
評論
共同學習,寫下你的評論
評論加載中...
作者其他優質文章
正在加載中
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦