亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

為什么爬蟲抓去的某些頁面的中文字符會變成???,又解決方法嗎?

為什么爬蟲抓去的某些頁面的中文字符會變成???,又解決方法嗎?

浮云間 2018-10-08 20:10:52
如題,求指導原因和解決方法。
查看完整描述

2 回答

?
MYYA

TA貢獻1868條經驗 獲得超4個贊

一般python的console只能識別GBK的中文,unicode與utf-8都不可以。

LZ先查一下爬的網頁的編碼格式,然后用decode轉碼成unicode格式的,再用encode轉碼成GBK,就能正確輸出了。

html = '<p>***<p>'    #比如說這是爬取下來的網頁,編碼格式為utf-8
html.decode( 'utf-8' ).encode( 'GBK' )
print html


查看完整回答
反對 回復 2018-10-14
?
萬千封印

TA貢獻1891條經驗 獲得超3個贊

一般是編碼不對,看清是utf8還是gb2312

查看完整回答
反對 回復 2018-10-14
  • 2 回答
  • 0 關注
  • 1722 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號