解决spark中文乱码
来源:互联网 发布:linux将文件夹压缩命令 编辑:程序博客网 时间:2024/05/21 18:46
由于spark在读取文件时的默认编码格式为utf-8,所以spark在处理gbk格式的文件时会出现乱码问题,以下代码则可以解决这一问题
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.hadoop.io.LongWritableimport org.apache.hadoop.io.Textimport org.apache.hadoop.mapred.TextInputFormatimport org.apache.spark.rdd.RDDval input = Utils.Basepath + "/viewLog/in/" //用户日志输入路径 val conf = new SparkConfval context = new SparkContext(conf)val inputRdd = context.hadoopFile(input, classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map( pair => new String(pair._2.getBytes, 0, pair._2.getLength, "GBK"))
阅读全文
0 0
- 解决spark中文乱码
- spark加载中文乱码
- ubuntu spark中文乱码解决方法
- 解决中文乱码问题
- Servlet 中文乱码解决
- ajax中文乱码解决
- Servlet 中文乱码解决
- 解决中文乱码问题
- 解决中文乱码问题
- 解决Struts中文乱码
- 过滤器解决中文乱码
- 中文乱码解决
- 解决中文乱码问题
- 解决中文文件名乱码
- 解决中文乱码
- Servlet 中文乱码解决
- ajax中文乱码解决
- 解决中文乱码
- jdbc的练习:建立一个连接数据库的类
- Linux下source命令详解
- window.onbeforeunload() 事件调用ajax
- 适配器模式
- Spring Cloud构建微服务架构(七)消息总线
- 解决spark中文乱码
- Spring Cloud构建微服务架构(七)消息总线(续:Kafka)
- SDN数据平面发展历史
- POJ 3090 Visble Lattice Points
- SQLServer中服务器角色和数据库角色权限详解
- sleep()与wait()
- C# 两个form之间传值、多播委托:委托可以指向多个函数
- cs231n 图像分类
- ViewPager 修改默认滑动偏移量