Nokogiri 中文乱码的几种情况
来源:互联网 发布:英文版淘宝网swto分析 编辑:程序博客网 时间:2024/06/05 03:15
第一种情况,open的网站参数有中文
就会报错,因为浏览器打包给服务器发送参数的时候是经过编码的,所以我们也要给汉字经过一次编码,只需在这两句中间加上一句就可以了
这样 rul 字符串就被编码成 这样:sql%E8%AF%AD%E8%A8%80%E8%89%BA%E6%9C%AF就没问题了
注意:上边的编码是吧 一个汉字转换成三个字节 语 -》%E8%AF%AD(看百分号就知道到了)如果你要抓取的网站编码是GBK 那么 要把它转换成 一个汉字 对应成 2个字节,%E8%AF 。
来自这里
第二种情况, 自己网站是utf-8,open的网站是gb2312有中文
出自虎炮回答
第三种是需要 Iconv转换
目标网页是gb2312编码,有些页面能采回来,有些又提示有 无效的字符编码
Ruby代码
改为
- Nokogiri 中文乱码的几种情况
- Nokogiri 中文乱码的几种情况
- java解决中文乱码的几种情况
- java解决几种情况下的中文乱码问题
- 乱码几种情况
- 备忘:几种中文乱码处理转码情况
- Servlet编程中可能出现中文乱码的几种情况
- 利用jdbc向数据库存数据时避免中文乱码的几种情况
- ajax异步从前台传值给后天中文乱码的几种情况及解决办法
- JSP中文乱码的几种解决方法
- 解决中文乱码的几种解决方案
- 几种中文乱码的解决方法
- springmvc参数传递的几种乱码情况
- jsp页面中文乱码的解决情况
- AJAX中文乱码的几种后台的解决方案
- jsp中文乱码六种情况---解决方案
- Struts2中文乱码问题解决的几种方法供参考
- Struts2中文乱码问题解决的几种方法供参考
- Next ESA SAR Toolbox(1)— 什么是SAR 图像
- 有关析构函数的心得
- 程序员流行曲
- 纵横三国外挂手记(4) 实现篇
- WAV文件格式研究笔记
- Nokogiri 中文乱码的几种情况
- 从EXCEL中抽取层次结构
- Fix the issue: JVM terminated. Exit code=-1
- Junit 基础
- gdg
- Microsoft OLE DB Provider for SQL Server 错误 '80040e37'
- 介绍---memory和client/server
- 介绍---Frame Buffer
- uva 167