程序博客网 > 简单冒泡排序算法

初识DataFrames

来源：互联网发布：简单冒泡排序算法编辑：程序博客网时间：2024/05/16 10:39

源：http://www.csdn.net/article/2015-02-17/2823997

在spark中，DataFrames是一个以命名列方式组织的分布式数据集，等同于关系型数据库中的一个表，也相当于R/Python中的dataFrames（但是进行了更多的优化）。dataFrames可以由结构化数据文件转换而来，也可以从hive中的表得来，以及可以转换自外部数据库或现有的RDD。

下面代码演示了如何使用Python构造DataFrames，而在Scala和Java中也有类似的API可以调用。

# Constructs a DataFrame from the users table in Hive.
users = context.table("users")
# from JSON files in S3
logs = context.load("s3n://path/to/data.json", "json")

一经构建，DataFrames就会为分布式数据处理提供一个指定的DSL（domain-specitic language）

# Create a new DataFrame that contains “young users” only
young = users.filter(users.age < 21)
# Alternatively, using Pandas-like syntax
young = users[users.age < 21]
# Increment everybody’s age by 1
young.select(young.name, young.age + 1)
# Count the number of young users by gender
young.groupBy("gender").count()
# Join young users with another DataFrame called logs
young.join(logs, logs.userId == users.userId, "left_outer")

tongguo Spark SQL，还可以用SQL的方式操作DaraFrames.

young.registerTempTable("young")
context.sql("SELECT count(*) FROM young")

类似于RDD，DataFrames同样使用了lazy的方式。也就是说，只用动作真正发生时，计算才会进行，从而，通过一些技术，执行过程可以适当进行优化。

0 0

简单冒泡排序算法

简单冒泡排序算法

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子口红名牌口红必买口红的品牌口红哪个时尚口红口红用多久 kiko口红 bbia口红好点的口红口红加工口红润唇膏高级口红如何画口红怎么抹口红自己做口红国产口红 fresh口红唇膏口红便宜口红 revlon口红品牌口红哑光口红口红空管红色口红滋润型口红平价口红完美口红口红哪家好滋润口红 ysl口红12 口红材料口红女口红ysl 口红用法口红哪个好口红的用法天然口红娜圣莎口红新款口红 ysl口红价格小长假必带口红