Spark 处理中文乱码问题(UTF-8编码)
来源:互联网 发布:lol骂人软件 编辑:程序博客网 时间:2024/06/18 15:26
问题场景
要用spark处理一大堆微信日志数据,日志存放在HDFS上,是xml格式,里面有大量的中文。用scala + java实现了xml的处理逻辑,其中有一步是要获取xml中的一个title字段,中文。不管怎么抓取,最终得到的中文都会变成一堆“?????”,乱码了。从xml中获取非中文字段,没有任何问题。也就是说,代码的逻辑是没什么问题的。
问题解析
直接用hadoop fs -text或者hadoop fs -cat查看HDFS上的文件,是可以正常显示的,也就是说HDFS上存放的原数据是好的。那么就肯定是读取数据或者处理数据的过程中出了问题。spark on yarn的数据处理,同时涉及了HDFS,App driver, App excutor之间的交互,所以还真没法一下就判断出是哪一步传输中出了问题。抽丝剥茧,先梳理一遍spark的处理逻辑:
(1) 从HDFS把xml读取到每个NM上的executor中(spark on yarn环境)
(2) 在executor中对xml进行处理,获取中文字段。这里我实现了一个java方法,调用dom来解析xml。
(3) 把解析后的字段collect到driver中,做存储或者输出打印等。
(4) 或者把解析后的字段重新存入HDFS
进入Spark-shell,依次验证这几个步骤。读入HDFS上的xml文件,然后直接写入HDFS,检查发现字符显示正常,排除步骤(1)(4)。读入HDFS上的xml文件,collect到driver中,然后println,字符显示正常,排除步骤(3)。说明问题出在executor对字段的解析处理过程中。
无论汉字还是英文字符,本质上还是一组字节流,所以出现乱码,只能是编码解析出了问题。查看发现,代码中只有一个地方对xml文件中的字符做了解析,就是这里:
DocumentBuilder dbBuilder = dbFactory.newDocumentBuilder();InputStream strm = new ByteArrayInputStream(xmlStream.getBytes());Document doc = dbBuilder.parse(strm);把string转为inputStream的过程。 找到了出问题的位置,下一步就是检测。
登录到executor所在的hadoop节点,进入spark-shell, 输入System.getProperty("file.encoding"),返回”ISO-8859-1“,说明它的默认编码方式是ISO-8859-1。另一种检测方法,是定义一个String变量等于一个汉字,然后a.getBytes().length。检查它的字节数,并推断对应的字符编码。UTF8汉字占3个字节,GBK汉字占2个字节。
ISO-8895-1占1字节,用ISO-8895-1的方式把汉字转成字节流,然后转回的过程中,肯定会损失一部分数据,所以会乱码。
问题定位到后,解决就很简单了。 在所有涉及到字节转换时,一定要指定编码方式。类似这样:
String -> Byte:
string.getBytes("UTF-8")
Byte -> String:
new String(bytes, "UTF-8")
- Spark 处理中文乱码问题(UTF-8编码)
- 中文乱码问题(编码格式utf-8)
- 中文乱码问题及tomcat设置编码为utf-8
- Python 处理GBK编码转UTF-8读写乱码问题
- OpenGrok在Windows处理UTF-8编码无BOM信息的源代码时,中文注释显示为乱码的问题
- 我的myeclipse,中文编码配置(UTF-8),有效解决中文乱码问题
- tomcat设置为UTF-8,解析GBK编码的UTL请求,中文乱码处理
- GBK,UTF-8,和ISO8859-1编码区别与get,post请求中文乱码处理
- tomcat 设置UTF编码 解决中文接收乱码问题
- asp utf-8编码 乱码问题
- java判断中文编码而后处理中文编码乱码问题
- 全部UTF-8编码使用AJAX还会出现中文乱码问题?
- smarty截取中文字符乱码问题的解决支持utf-8编码
- JSP 即使使用UTF-8编码,仍然出现中文乱码问题的原因
- JAVA ,SSH中文及其乱码问题的解决 6大配置点 使用UTF-8编码
- dojo+JBoss7设置URI编码为UTF-8,解决传参中文乱码问题
- 解决utf-8编码页面cookie保存中文时乱码问题
- C# Asp.net 前台使用utf-8编码传递中文参数 后台接收乱码的问题
- 5、关于kvc中的setValuesForKeysWithDictionary为model赋值
- 基于标识的AR的OpenCV实现(三)
- 天声人语
- 内存分配之堆栈
- 天声人语
- Spark 处理中文乱码问题(UTF-8编码)
- TextUtils.isEmpty(str)与str.isEmpty()
- 转----编写优质嵌入式C程序
- httpclient绕过登陆验证码抓取数据
- begoo 的路由 详细
- 多元Huffman编码变形
- thinkphp中Create的用法
- C++ class constructor and destructor
- git分支的处理