編碼問題,現在是unicode,沒法用xpath
請問老師及各位朋友,我現在抓取的網頁,源代碼是unicode,直接使用response.xpath是不能正確匹配的。
但是如果,我將response.text轉碼為utf-8后賦值給一個str變量,str是不能使用xpath的。
但是同時response.text又不能修改(即轉碼后給自身賦值)。
這種情況有什么好的辦法嘛
請問老師及各位朋友,我現在抓取的網頁,源代碼是unicode,直接使用response.xpath是不能正確匹配的。
但是如果,我將response.text轉碼為utf-8后賦值給一個str變量,str是不能使用xpath的。
但是同時response.text又不能修改(即轉碼后給自身賦值)。
這種情況有什么好的辦法嘛
2020-02-03
舉報
2020-02-04
已解決,使用lxml的etree配合轉碼可以解決。
目前轉碼后發現,爬去的返回信息是JS和data,網頁是動態生成的,這個怎么爬取呢
目標網頁:
https://b2b.baidu.com/cc?q=%E4%BC%BA%E6%9C%8D%E9%A9%B1%E5%8A%A8%E5%99%A8&from=b2b_factory&srcid=5359&from_ver=v2&from_elem=title