已解決430363個問題，去搜搜看，總會有你想問的

為什么爬蟲抓去的某些頁面的中文字符會變成???，又解決方法嗎？

關注

首頁猿問 ...

爬蟲

浮云間 2018-10-08 20:10:52

如題，求指導原因和解決方法。

查看完整描述

2 回答

MYYA

TA貢獻1868條經驗獲得超4個贊

一般python的console只能識別GBK的中文，unicode與utf-8都不可以。

LZ先查一下爬的網頁的編碼格式，然后用decode轉碼成unicode格式的，再用encode轉碼成GBK，就能正確輸出了。

html = '<p>***<p>'    #比如說這是爬取下來的網頁，編碼格式為utf-8
html.decode( 'utf-8' ).encode( 'GBK' )
print html

反對回復 2018-10-14

萬千封印

TA貢獻1891條經驗獲得超3個贊

一般是編碼不對，看清是utf8還是gb2312

反對回復 2018-10-14

關注

舉報

0/150

提交

取消