nodejs爬虫编码问题
来源:互联网 发布:棋牌源码交易 编辑:程序博客网 时间:2024/06/06 00:45
最近再做一个nodejs网站爬虫的项目,但是爬一些网站的数据出现了中文字符乱码的问题。查了一下,主要是因为不是所有的网站的编码格式都是utf-8,还有一些网站用的是gb2312或者gbk的编码格式。所以需要做一个处理来进行编码的解码。至于网站的编码怎么看,可以通过去检查中的network去看。
根据相应的编码格式,进行相应的设置。utf-8就不要说了,下面就以gbk为例,说一下解码的方式。
var request = require('request');var cheerio = request('cheerio');var iconv = require('iconv-lite');request ({ url : 'http://www.taobao.com', encodeing = null },function(err,res,body){ if (err) throw err; // decode the content of the website body = iconv.decode(body,'gbk'); var $ = cheerio.load(body); console.log($('head title').text());})
或者是使用一个gbk包,但我觉得还是上面的方式比较好。
1 0
- nodejs爬虫编码问题
- nodejs单页面爬虫(二)--解决编码问题
- nodejs爬虫程序解决gbk等中文编码问题
- 爬虫编码问题
- 爬虫编码问题
- python3爬虫的编码问题
- nodejs 爬虫
- nodejs 爬虫
- nodejs 爬虫
- [NodeJS] html2jade 使用及中文编码问题
- nodejs爬虫程序暂时无法解决的乱码问题汇总
- 爬虫学习(一):编码问题
- 爬虫遇见的编码问题汇总
- Python中的爬虫输出编码问题
- Python爬虫的一个编码问题
- nodejs豆瓣爬虫
- nodejs豆瓣爬虫
- NodeJs爬虫02
- 【杭电oj】1225 - Football Score(结构体排序)
- Android之WebViewClient与WebChromeClient的区别
- [JavaScript/JQuery] js数组删除,新增,元素删除,事件绑定
- Lightoj1227——Boiled Eggs(贪心)
- rplidar A2 在机器人上的安装说明
- nodejs爬虫编码问题
- ubuntu 安装vmware
- [JavaScript/JQuery] js数组去重的4个方法
- NOIP2013普及组 T2 表达式求值
- zzulioj1861(最长回文子串)
- Apache 日志切割工具cronolog详解
- ZOJ 2975 Kinds of Fuwas【思维】
- 立即行动 & Be awesome
- [JavaScript/JQuery] JS检查浏览器类型和版本