首頁手記 Python爬取-爐石傳說原畫及卡牌抓取

Python爬取-爐石傳說原畫及卡牌抓取

標簽：

Python

炉石传说原画1

炉石传说原画2

该网站通过点击查看更多加载新的内容

本打算使用Selenium模拟点击获取图片信息

尝试发现源码中该按钮并无相应的跳转链接

这不应该啊没有相应的跳转链接点击后是如何加载新的图片？

后来浏览整体网站源码后发现把问题想复杂根本不需要模拟点击查看更多

网站其实已经加载了所有的卡牌原画只是之后的原画做了隐藏处理默认不展示 style=display

点击查看更多后显示原画

那么只需使用requests获取网页源码

用BeautiSoup/正则表达式/pyQuery解析元素遍历相应img的url 即可下载

Github

教训：爬虫前不要根据网页所对的操作实施相应的代码爬取不要有这样的思维定式首先要做的是先大体浏览分析整个网页的源代码有的可能直接写在源码或json或js中无需再加工

炉石传说卡牌链接

炉石传说卡牌

该网站通过下拉右边的滚动条不断加载新的卡牌

与上一个网站不同上一个网站一次性写入了所有卡牌只不过做了隐藏处理

该网站是通过js动态加载渲染出的卡牌直接获取源码无法得到所有卡牌信息

那么就用selenium模拟下拉滚动条（selenium简直居家必备之神器）

使用selenium执行js脚本每次执行下拉1000个单位滚动条执行90次

为什么是90次测试出来的大概90次拉到底

注意：这里要增加1~3秒的暂停时间用于网页渲染

第一次没有设置停留时间无法获取新的数据怀疑自己怀疑人生

经前端/后端好友L君的提示需增加暂停时间这样才能获得加载渲染后的数据

browser.page_source便可获得动态加载的所有数据

有了数据之后就很简单正则匹配获取相应url下载即可

Github

最后获得了800张原画 1324张卡牌

既然获得了这么多卡牌和原画不能浪费利用起来拼图！

致敬下玩了好几年的炉石

谢谢你！

顺手拼一下女神

作者：丨像我这样的人丨
链接：https://www.jianshu.com/p/e386f549d17a

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕碼人8056858

手記
篇

粉絲

351

獲贊與收藏

1325

關注作者，訂閱最新文章

閱讀免費教程

Python 辦公自動化教程

17個小節 27022 913

Python 算法入門教程

15個小節 29494 1134

Python 進階應用教程

38個小節 71118 1109

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python爬取-爐石傳說原畫及卡牌抓取

閱讀免費教程