亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

python爬蟲對搜狗抓取微信搜索信息不全問題

python爬蟲對搜狗抓取微信搜索信息不全問題

陪伴而非守候 2018-07-16 15:12:22
剛開始學習python爬蟲,想實現對搜狗公眾號搜索結果的爬取發現問題是抓到的信息沒有直接在瀏覽器訪問的URL信息完整。以下是基本實現,代碼很簡單,爬取到的頁面中沒有“最近文章”(在瀏覽器中直接訪問有“最近文章”內容)請高手們指點一二,謝謝!#-*- coding: utf-8 -*-import urllib2import sysimport urllibfrom bs4 import BeautifulSoup reload(sys) sys.setdefaultencoding('utf8') url = 'http://weixin.sogou.com/gzh?openid=oIWsFt5l9RDYeAjdXZBYtGzbH0JI'print url i_headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0"} req = urllib2.Request(url, headers=i_headers) content = urllib2.urlopen(req).read() soup = BeautifulSoup(content)print soup siteUrls = soup.findAll(attrs={'class':'img_box2'})print siteUrls file_object = open('test.htm','w+') file_object.write(content) file_object.close()
查看完整描述

2 回答

?
慕桂英3389331

TA貢獻2036條經驗 獲得超8個贊

謝謝,這個太有用了,得到這個列表后,我估計就得做個截取頁面,把數據實時顯示,不知道能不能ok,不過,就是不知道這個方式,以后會不會關閉掉。

查看完整回答
反對 回復 2018-07-17
  • 2 回答
  • 0 關注
  • 400 瀏覽

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號