亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

運行結果沒有問題 文件寫入正常 就是詞條的內容亂碼

594693d70001faa006400360.jpg
594693dd0001cdad06400360.jpg
594693e2000101a806400360.jpg
594693e500019c5a06400360.jpg
594693e900012cb106400360.jpg
594693ed0001871712290346.jpg
594693f20001cfc212330607.jpg
弄了很久了 還沒找到解決方法 求解

正在回答

3 回答

  1. 如果是URL部分亂碼/item/%E7%BC%96%,是因為url采用了再編碼-->16進制編碼

    解決方法:調用urllib.parse.unquote("/item/%E7%BC%96%")來變回中文

    注意:變回中文的URL無法用urllib.request.urlopen(URL)來訪問,可以在最后輸出html的時候變回中文

  2. 輸出的html分url,title,data三列,title和data出現\x96\x12\x34(unicode編碼)

    原因:因為先用encoding='utf-8'新建html文件,然后又fout.write("<td>%s</td>" % data['title'].encode('utf-8))又編碼成unicode

    解決方法:直接fout.write("<td>%s</td>" % data['title'])

  3. 附源代碼,可對比學習

  4. http://img1.sycdn.imooc.com//594826c800016b7f07200824.jpg

  5. http://img1.sycdn.imooc.com//594826b90001d85c07270726.jpg

  6. http://img1.sycdn.imooc.com//594826e300012d0d07270442.jpg

  7. http://img1.sycdn.imooc.com//594826f600015dbe07260998.jpg

  8. http://img1.sycdn.imooc.com//594827060001b0e507260748.jpg


4 回復 有任何疑惑可以回復我~
#1

丶coding 提問者

我之前就是這樣弄的 因為html默認打開的方式是IE瀏覽器 打開后就亂碼 換成記事本或者chrome打開就正常顯示了 說白了 就是被IE瀏覽器坑了
2017-06-20 回復 有任何疑惑可以回復我~
#2

小蟒蛇

謝謝,解決了我很多編碼方面的問題,不用頭大了
2017-11-17 回復 有任何疑惑可以回復我~

#<a target="_blank" href="/item/%E8%83%B6%E6%B0%B4%E8%AF%AD%E8%A8%80">膠水語言</a>

links = soup.find_all('a', href = re.compile(r'^/item/[\W\w]+'))

?求教正則匹配這兒應該怎么寫呢?我的正則匹配不出來東西么?。?!

0 回復 有任何疑惑可以回復我~

沒有指定編碼格式?課程中不是說了要加上coding=utf-8

0 回復 有任何疑惑可以回復我~
#1

丶coding 提問者

指定了。。。
2017-06-18 回復 有任何疑惑可以回復我~
#2

丶coding 提問者

沒用。。。寫入文件的亂碼和那個無關
2017-06-19 回復 有任何疑惑可以回復我~

舉報

0/150
提交
取消
Python開發簡單爬蟲
  • 參與學習       227596    人
  • 解答問題       1288    個

本教程帶您解開python爬蟲這門神奇技術的面紗

進入課程

運行結果沒有問題 文件寫入正常 就是詞條的內容亂碼

我要回答 關注問題
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號