已解決430363個問題，去搜搜看，總會有你想問的

關于微博的爬蟲問題?。?？

首頁猿問關于微博的爬蟲問題?。?？

關于微博的爬蟲問題?。?？

爬蟲

白板的微信 2018-10-05 18:56:44

不知道各位爬蟲過微博的頁面么？今天我試了試，獲取到的html內容居然不是我想要的??！全是js內容，我猜測微博是實用js文件加載內容的。那么問題來了，我要怎么獲取js加載后的頁面內容呢？就是body里面的標簽內容。我使用的是nodejs，superangert、cheerio、express。望大神賜教，小弟感恩不盡。

查看完整描述

2 回答

瀟瀟雨雨

TA貢獻1833條經驗獲得超4個贊

1）用正常的URL請求取訪問，獲取返回的內容存在本地發文件后，check下和最終的HTML文件內容有那些區別
2）你用下chrome的開發工具或firebug等工具查看頁面的網絡請求，查找其中的有關的http請求，特別是那些JSONP的請求
3）有些內容是要LAZY加載的，還需要你進一步觀察~~~~
4）如果你對實時性要求不高的，可以考慮用phantomJS或electron等框架，讓HTML渲染引擎完全渲染后，在抓取內容

總之，現在頁面越來越難抓了~~~，
另外爬蟲，要用到express么？superangert用來做代理？

反對回復 2018-10-14

2 回答
0 關注
942 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

關于微博的爬蟲問題?。?？

關于微博的爬蟲問題?。?？

2 回答

添加回答

關于微博的爬蟲問題?。?？

關于微博的爬蟲問題?。?？