亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

已解決430363個問題，去搜搜看，總會有你想問的

爬蟲爬到中文亂碼該如何解決

關注

首頁猿問爬蟲爬到中文亂碼該如何解決

Node.js 爬蟲

茅侃侃 2018-10-04 21:18:01

利用Node的cheerio插件去爬一個網站的新聞，結果發現從中獲得的中文顯示為“?????????20140611????”亂碼，求問如何解決，順便求問不同轉碼格式的知識點；

查看完整描述

紅糖糍粑

TA貢獻1815條經驗獲得超6個贊

首先肯定是確定要爬的頁面的編碼。如果是GBK的話就需要對爬過來的文字用iconv庫做轉化，在nodejs中變成UTF8。比如：

var request = require('request'),

cheerio = require('cheerio'),

Iconv = require('iconv').Iconv;

var iconv = new Iconv('GBK', 'UTF-8');

request(opts, function (err, response, body) {

var result = iconv.convert(new Buffer(body, 'binary')).toString();

var $ = cheerio.load(result);

// ......

});

反對回復 2018-10-14

關注

舉報

0/150

提交

取消

購課補貼
聯系客服咨詢優惠詳情

慕課網APP
您的移動學習伙伴

掃描二維碼
關注慕課網微信公眾號