解决spark中文乱码

来源:互联网 发布:linux将文件夹压缩命令 编辑:程序博客网 时间:2024/05/21 18:46

由于spark在读取文件时的默认编码格式为utf-8,所以spark在处理gbk格式的文件时会出现乱码问题,以下代码则可以解决这一问题

import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.hadoop.io.LongWritableimport org.apache.hadoop.io.Textimport org.apache.hadoop.mapred.TextInputFormatimport org.apache.spark.rdd.RDDval input = Utils.Basepath + "/viewLog/in/" //用户日志输入路径  val conf = new SparkConfval context = new SparkContext(conf)val inputRdd = context.hadoopFile(input, classOf[TextInputFormat],        classOf[LongWritable], classOf[Text]).map(        pair => new String(pair._2.getBytes, 0, pair._2.getLength, "GBK"))
原创粉丝点击