亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

爬蟲爬到中文亂碼該如何解決

爬蟲爬到中文亂碼該如何解決

茅侃侃 2018-10-04 21:18:01
利用Node的cheerio插件去爬一個網站的新聞,結果發現從中獲得的中文顯示為“?????????20140611????”亂碼,求問如何解決,順便求問不同轉碼格式的知識點;
查看完整描述

1 回答

?
紅糖糍粑

TA貢獻1815條經驗 獲得超6個贊

首先肯定是確定要爬的頁面的編碼。如果是GBK的話就需要對爬過來的文字用iconv庫做轉化,在nodejs中變成UTF8。比如:

var request = require('request'),

    cheerio = require('cheerio'),

    Iconv = require('iconv').Iconv;


var iconv = new Iconv('GBK', 'UTF-8');


request(opts, function (err, response, body) {

    var result = iconv.convert(new Buffer(body, 'binary')).toString();

    var $ = cheerio.load(result);

    // ......

});


查看完整回答
反對 回復 2018-10-14
  • 1 回答
  • 0 關注
  • 1647 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號