初识DataFrames
来源:互联网 发布:简单冒泡排序算法 编辑:程序博客网 时间:2024/05/16 10:39
源:http://www.csdn.net/article/2015-02-17/2823997
在spark中,DataFrames是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的dataFrames(但是进行了更多的优化)。dataFrames可以由结构化数据文件转换而来,也可以从hive中的表得来,以及可以转换自外部数据库或现有的RDD。
下面代码演示了如何使用Python构造DataFrames,而在Scala和Java中也有类似的API可以调用。
- # Constructs a DataFrame from the users table in Hive.
- users = context.table("users")
- # from JSON files in S3
- logs = context.load("s3n://path/to/data.json", "json")
- # Create a new DataFrame that contains “young users” only
- young = users.filter(users.age < 21)
- # Alternatively, using Pandas-like syntax
- young = users[users.age < 21]
- # Increment everybody’s age by 1
- young.select(young.name, young.age + 1)
- # Count the number of young users by gender
- young.groupBy("gender").count()
- # Join young users with another DataFrame called logs
- young.join(logs, logs.userId == users.userId, "left_outer")
- young.registerTempTable("young")
- context.sql("SELECT count(*) FROM young")
0 0
- 初识DataFrames
- dataframes
- Spark DataFrames
- Spark DataFrames
- Working with DataFrames
- spark sql 创建dataframes
- Pandas DataFrames筛选数据
- Pandarize Your Spark Dataframes
- DataFrames——set_index
- Spark DataFrames DataSet
- Spark SQL and DataFrames
- spark创建DataFrames
- RDDs, DataFrames, and Datasets
- Pandas DataFrames筛选数据
- class Manipulating DataFrames with pandas
- class Merging DataFrames with pandas
- Parquet_11. Spark: DataFrames 和 Parquet -- 待完善
- Spark SQL and DataFrames Version 1.6
- HDU1213
- Spring源码解析(一) Spring事务控制之Hibernate
- [leetcode] 238. Product of Array Except Self
- 【Android基础知识】Android多线程下载
- ajax请求json数据
- 初识DataFrames
- canvas arcTo()用法详解
- 【打CF,学算法——一星级】Codeforces 699A Launch of Collider (水题)
- mac添加android的adb等工具到环境变量
- HDU-1846 Brave Game(巴什博奕)
- POJ1276 Cash Machine 【解法二】
- MySQL为什么会有一大堆在Sleep的进程? 【转】
- Text-Terminals on Linux
- Combination Sum