SPARKSQL读SPARK表
来源:互联网 发布:易语言验证码同步源码 编辑:程序博客网 时间:2024/06/03 18:50
SPARK2.0.2版本
1. 读取SPARK表
创建sparkSession,执行SQL,每行记录输出Object[],再对每行记录做转换,增加时间戳
public RDD<WindowedValue<Object[]>> getSourceRDD(PipelineOptions pipelineOptions, SparkContext sparkContext)
{
SparkSession sparkSession = SparkSession.builder().appName("XXX").master(sparkContext.master())
.enableHiveSupport().getOrCreate();
sparkSession.sql("use " + this.read.database); //数据库名,默认是default
Dataset rowset = sparkSession.sql(this.read.sql); //SQL 语句
RDD rows = rowset.rdd().map(new JavaMapRow2ObjectArray()
{
public Object[] call(Row row) {
Object[] colArr = new Object[row.size()];
for (int i = 0; i < row.size(); ++i) {
colArr[i] = row.get(i);
}
return colArr; }
}
, ScalaUtil.getClassTag([Ljava.lang.Object.class));
RDD windowrows = rows.map(new JavaMap2WindowValue()
{
public WindowedValue<Object[]> call(Object[] record) {
return WindowedValue.timestampedValueInGlobalWindow(record, BoundedWindow.TIMESTAMP_MIN_VALUE); }
}
, ClassTag..MODULE$.apply(WindowedValue.class));
return windowrows;
}
转换函数类,用于给每行记录加时间戳
public abstract class JavaMap2WindowValue<T> extends AbstractFunction1<T, WindowedValue<T>>
implements Serializable
{
public WindowedValue<T> apply(T record)
{
return call(record);
}
public abstract WindowedValue<T> call(T paramT);
}
工具类
public class ScalaUtil
{
public static <T> ClassTag<T> getClassTag(Class<T> clazz)
{
return ClassTag..MODULE$.apply(clazz);
}
public static <K, V> ClassTag<Tuple2<K, V>> getTuple2ClassTag()
{
return ((ClassTag)getClassTag(Tuple2.class));
}
public static <T> Seq<T> toScalaSeq(List<T> list) {
return JavaConversions.asScalaBuffer(list);
}
public static void main(String[] args) {
System.out.print(ClassTag..MODULE$.apply(Tuple2.class)); }
public static <T> Manifest<T> getManifest(Class<T> clazz) {
return ManifestFactory.classType(clazz);
}
}
- SPARKSQL读SPARK表
- spark-sparkSQL
- Spark-SparkSql
- Spark学习-SparkSQL--03-SparkSQL CLI 建表查询出问题
- spark:SparkSQL应用--46
- spark:SparkSQL练习--51
- spark streaming整合sparksql
- Spark-sparksql-自定义udf
- spark 之 SparkSQL
- spark学习-SparkSQL--14-JavaRDD注册成表然后用SparkSQL查询
- Spark学习-SparkSQL--01-SparkSQL CLI
- Spark学习笔记-SparkSQL-1
- Spark源码解析之SparkSql
- Spark开发-SparkSql的开发
- Spark学习-SparkSQL--02-Spark history Server
- spark学习-SparkSQL--11-scala版写的SparkSQL程序读取Hbase表注册成表SQL查询
- Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
- Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
- 迅雷前端一面
- PS-ArrayList
- Linux 常用命令
- ROS中编写Publisher和Subscriber的方法(Python版)
- linux查看服务器【有效】连接数
- SPARKSQL读SPARK表
- Android使用MediaRecorder和Camera实现视频录制及播放功能整理
- 蓄爷计算思维讲课
- C++类简单学习(三)
- neutron-vpnaas之ipsec-vpn学习总结
- Vijos1029[晴天小猪历险记之Number] 搜索+康托展开
- 优秀Android博客
- 数据结构实验之栈与队列一:进制转换
- 原生实现一个toast组件;ul下li点击确定是哪个