使用python编写csv转parquet脚本
来源:互联网 发布:员工管理系统数组java 编辑:程序博客网 时间:2024/06/05 14:33
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
def parse(line):
items = line.split(",")
return (long(items[0]), items[1], float(items[2]), int(items[3]), float(items[4]), float(items[5]))
if __name__ == "__main__":
sc = SparkContext(appName="CSV2Parquet")
sqlContext = SQLContext(sc)
schema = StructType([
StructField("col1", LongType(), True),
StructField("col2", StringType(), True),
StructField("col3", DoubleType(), True),
StructField("col4", IntegerType(), True),
StructField("col5", DoubleType(), True),
StructField("col6", DoubleType(), True)])
rdd = sc.textFile("./input.csv").map(parse)
df = sqlContext.createDataFrame(rdd, schema)
df.write.parquet('./input-parquet')
from pyspark.sql import SQLContext
from pyspark.sql.types import *
def parse(line):
items = line.split(",")
return (long(items[0]), items[1], float(items[2]), int(items[3]), float(items[4]), float(items[5]))
if __name__ == "__main__":
sc = SparkContext(appName="CSV2Parquet")
sqlContext = SQLContext(sc)
schema = StructType([
StructField("col1", LongType(), True),
StructField("col2", StringType(), True),
StructField("col3", DoubleType(), True),
StructField("col4", IntegerType(), True),
StructField("col5", DoubleType(), True),
StructField("col6", DoubleType(), True)])
rdd = sc.textFile("./input.csv").map(parse)
df = sqlContext.createDataFrame(rdd, schema)
df.write.parquet('./input-parquet')
阅读全文
0 0
- 使用python编写csv转parquet脚本
- 使用python编写android截屏脚本
- 使用python编写数据检索脚本
- CSV数据导入Parquet表
- python csv模块使用
- python csv模块使用
- python脚本编写
- python setup脚本编写
- python 编写 cgi 脚本
- python使用csv模块读写csv文件
- 使用 Python 为 KVM 编写脚本,第 1 部分: libvirt
- 使用 Python 为 KVM 编写脚本,第 1 部分: libvirt
- 使用python编写批量卸载android应用的脚本
- 使用python编写脚本获取手机当前应用的信息
- 使用 Python 为 KVM 编写脚本,第 1 部分: libvirt
- 使用python在windows 下 编写 自动备份脚本
- 使用 Python 为 KVM 编写脚本,第 1 部分: libvirt
- win7环境下使用Python编写备份脚本
- Adaboost人脸检测介绍(都是大白话)
- 3. 微信支付的配置:
- Cesium应用篇:3控件(4)Geocoder
- 欢迎使用CSDN-markdown编辑器
- FFTW编译使用过程
- 使用python编写csv转parquet脚本
- Cesium应用篇:3控件(5)CesiumInspector
- CentOs环境下配置SMTP
- NYOJ 1058 部分和问题(dfs)
- vector和list的使用
- 系统间通信——RPC实例Apache Thrift
- 解决SQLSERVER查询连接数据库表问题:OLE DB 访问接口 "MSDASQL" 为列提供的元数据不一致
- 转载 基于bayer型阵列的空间域插值
- GKStateMaching