【spark 数据框】Spark数据框dataFrame
来源:互联网 发布:html img 调用js方法 编辑:程序博客网 时间:2024/05/22 01:42
%spark/*DataFrame*/val data=sc.parallelize(List(("Alice",21),("Bob",24))) val people=data.toDF("name","age")people.show()/*增加一列*/val df1=(1 to 5).map(i=>(i,i*2)).toDF("single","double")df1.show()/*筛选数据框*/val df2=df1.filter($"double">6)df2.show()/*合并数据框*/val df3=df1.unionAll(df2)df3.show()/*join*/val df4=df1.join(df2)df4.show()/*inner join*/val df5=df1.join(df2,df1("single")===df2("single"),"inner")df5.show()/*重命名数据框*/val df6=df5.toDF("V1","V2","V3","V4")df6.show()data: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[23208] at parallelize at <console>:27people: org.apache.spark.sql.DataFrame = [name: string, age: int]+-----+---+| name|age|+-----+---+|Alice| 21|| Bob| 24|+-----+---+df1: org.apache.spark.sql.DataFrame = [single: int, double: int]+------+------+|single|double|+------+------+| 1| 2|| 2| 4|| 3| 6|| 4| 8|| 5| 10|+------+------+df2: org.apache.spark.sql.DataFrame = [single: int, double: int]+------+------+|single|double|+------+------+| 4| 8|| 5| 10|+------+------+df3: org.apache.spark.sql.DataFrame = [single: int, double: int]+------+------+|single|double|+------+------+| 1| 2|| 2| 4|| 3| 6|| 4| 8|| 5| 10|| 4| 8|| 5| 10|+------+------+df4: org.apache.spark.sql.DataFrame = [single: int, double: int, single: int, double: int]+------+------+------+------+|single|double|single|double|+------+------+------+------+| 1| 2| 4| 8|| 1| 2| 5| 10|| 2| 4| 4| 8|| 2| 4| 5| 10|| 3| 6| 4| 8|| 3| 6| 5| 10|| 4| 8| 4| 8|| 4| 8| 5| 10|| 5| 10| 4| 8|| 5| 10| 5| 10|+------+------+------+------+df5: org.apache.spark.sql.DataFrame = [single: int, double: int, single: int, double: int]+------+------+------+------+|single|double|single|double|+------+------+------+------+| 4| 8| 4| 8|| 5| 10| 5| 10|+------+------+------+------+df6: org.apache.spark.sql.DataFrame = [V1: int, V2: int, V3: int, V4: int]+---+---+---+---+| V1| V2| V3| V4|+---+---+---+---+| 4| 8| 4| 8|| 5| 10| 5| 10|+---+---+---+---+
阅读全文
1 0
- 【spark 数据框】Spark数据框dataFrame
- Spark Sql,Dataframe和数据集指南
- spark之DataFrame的json数据实战
- spark 将dataframe数据写入Hive分区表
- Spark DataFrame----一个用于大规模数据科学的API
- spark 1.3.0 将dataframe数据写入Hive分区表
- 利用Spark将DataFrame、Hive数据写入Oracle
- spark 读取hbase数据并转化为dataFrame
- 利用Spark将DataFrame、Hive数据写入Oracle
- spark 读取hbase数据并转化为dataFrame
- spark dataframe和dataSet用电影点评数据实战
- 关于spark 1.61 dataframe写mysql数据问题
- Spark SQL的DataFrame会不会存储相同的数据
- Spark SQL之DataSet(DataFrame)的数据存储顺序
- spark dataframe和dataSet用电影点评数据实战
- spark 读取hbase数据并转化为dataFrame
- Spark RDD/DataFrame map保存数据的两种方式
- 『 Spark 』7. 使用 Spark DataFrame 进行大数据分析
- 【Python】10“生成器和迭代器“
- 图像拼接算法总结(一)
- 100以内加减法
- Oracle锁表查询和解锁方法
- 初识Hibernate:Could not instantiate id generator [entity-name=com.hibernate.e
- 【spark 数据框】Spark数据框dataFrame
- 怎么进入 BAT 的研发部门?
- 要不要跳槽?你不该接受公司挽留的九个原因
- 领域驱动设计系列文章(2)——浅析VO、DTO、DO、PO的概念、区别和用处
- git fetch, git pull, git pull -rebase区别
- 创建 工程和myworkspace工作空间、静态库和框架之间的关系
- mongodb修改字段名称
- centos6.5 oracle安装
- Linux动态库的导出控制