解决spark中文乱码

来源：互联网发布：linux将文件夹压缩命令编辑：程序博客网时间：2024/05/21 18:46

由于spark在读取文件时的默认编码格式为utf-8，所以spark在处理gbk格式的文件时会出现乱码问题，以下代码则可以解决这一问题

import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.hadoop.io.LongWritableimport org.apache.hadoop.io.Textimport org.apache.hadoop.mapred.TextInputFormatimport org.apache.spark.rdd.RDDval input = Utils.Basepath + "/viewLog/in/" //用户日志输入路径  val conf = new SparkConfval context = new SparkContext(conf)val inputRdd = context.hadoopFile(input, classOf[TextInputFormat],        classOf[LongWritable], classOf[Text]).map(        pair => new String(pair._2.getBytes, 0, pair._2.getLength, "GBK"))

阅读全文

0 0

解决spark中文乱码
spark加载中文乱码
ubuntu spark中文乱码解决方法
解决中文乱码问题
Servlet 中文乱码解决
ajax中文乱码解决
Servlet 中文乱码解决
解决中文乱码问题
解决中文乱码问题
解决Struts中文乱码
过滤器解决中文乱码
中文乱码解决
解决中文乱码问题
解决中文文件名乱码
解决中文乱码
Servlet 中文乱码解决
ajax中文乱码解决
解决中文乱码
jdbc的练习：建立一个连接数据库的类
Linux下source命令详解
window.onbeforeunload() 事件调用ajax
适配器模式
Spring Cloud构建微服务架构（七）消息总线
解决spark中文乱码
Spring Cloud构建微服务架构（七）消息总线（续：Kafka）
SDN数据平面发展历史
POJ 3090 Visble Lattice Points
SQLServer中服务器角色和数据库角色权限详解
sleep()与wait()
C# 两个form之间传值、多播委托：委托可以指向多个函数
cs231n 图像分类
ViewPager 修改默认滑动偏移量