亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

編碼問題,現在是unicode,沒法用xpath

請問老師及各位朋友,我現在抓取的網頁,源代碼是unicode,直接使用response.xpath是不能正確匹配的。

但是如果,我將response.text轉碼為utf-8后賦值給一個str變量,str是不能使用xpath的。

但是同時response.text又不能修改(即轉碼后給自身賦值)。

這種情況有什么好的辦法嘛

http://img1.sycdn.imooc.com//5e38201c00017a4d06460370.jpg

正在回答

1 回答

已解決,使用lxml的etree配合轉碼可以解決。

目前轉碼后發現,爬去的返回信息是JS和data,網頁是動態生成的,這個怎么爬取呢

目標網頁:

https://b2b.baidu.com/cc?q=%E4%BC%BA%E6%9C%8D%E9%A9%B1%E5%8A%A8%E5%99%A8&from=b2b_factory&srcid=5359&from_ver=v2&from_elem=title

0 回復 有任何疑惑可以回復我~

舉報

0/150
提交
取消

編碼問題,現在是unicode,沒法用xpath

我要回答 關注問題
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號