carbondata 安装文档
来源:互联网 发布:数据展示平台网页 编辑:程序博客网 时间:2024/05/29 18:28
carbondata 安装文档
一、build CarbonData
由于CarbonData刚刚开源,目前官方文档不规范并且较少。
1、先决条件:
OS: centos(类unix OS)
Apache Maven(推荐版本3.3或更高版本)
Oracle Java 7或8
Apache Thrift 0.9.3
以上条件缺一不可
2、git 下载carbondata,或者直接从官网下载已经发行的版本。官方最新发行版目前是1.1.0版本
地址:https://dist.apache.org/repos/dist/release/carbondata/1.1.0/
3、构建命令
进入到cabondata 的目录下,运行构建命令
构建无需测试,默认情况下carbondata采用Spark 1.6.2进行构建
mvn -DskipTests clean package(默认)
carbondata也支持使用不同版本的Spark构建(目前支持的版本有一下几个)。
mvn -DskipTests -Pspark-1.5 -Dspark.version=1.5.1 clean packagemvn -DskipTests -Pspark-1.5 -Dspark.version=1.5.2 clean packagemvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.1 clean package mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.2 clean package mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.3 clean package mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean package
注意:carbondata 构建过程中,会进行spak、hive、dhfs连接测试,如果spak、hive、dhfs未启动会导致编译不通过。
构建构建时,请注意后面的小版本号(-Dspark.version=1.6.1) ,这里踩过坑,构建的时候用的是spark2.1.1 ,配置完了运行报错,后面查阅github上的test log才发现carbondata不支持spark2.1.1.
carbon.sql("CREATE TABLE IF NOT EXISTS test_table(id string, name string, city string, age Int) STORED BY 'carbondata'")java.lang.NoClassDefFoundError: org/apache/spark/sql/catalyst/CatalystConfat org.apache.spark.sql.hive.CarbonSessionState.analyzer$lzycompute(CarbonSessionState.scala:127)at org.apache.spark.sql.hive.CarbonSessionState.analyzer(CarbonSessionState.scala:126)at org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:69)at org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:67)at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:50)at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:63)at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:592)
如果构建过程中没有遇到错误,carbondata目录下会生成assembly/target/scala-2.11/carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar 的jar包。
注:如果遇到错误,可在构建命令中加上 hadoop 版本和scala版本 如 mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 -Pscala-2.1 -Dscala.version=2.11.8 clean package
由于carbondata 文档不完善,构建过程中可能会遇到很多奇怪的问题,如果遇到,请分享一起探讨
二、安装配置
1、复制./assembly/target/scala-2.1x/carbondata_xxx.jar到
2、在Spark类路径中添加carbonlib文件夹路径。(编辑·
3、将./conf/carbon.properties.template文件从CarbonData存储库复制到文件$SPARK_HOME/conf/夹,并将文件重命名为carbon.properties。
4、在集群的所有节点中重复步骤2到步骤5。
5、在Spark节点[master]中,配置$SPARK_HOME/conf/spark-defaults.conf文件中下表中提到的属性。
6、在$SPARK_HOME/conf/carbon.properties文件中添加以下属性:
7、验证安装。例如
启动spark-shell
在spark-shell中执行一下代码,创建一个表
import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.CarbonSession._val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://co1:9000/Opt/CarbonStore")carbon.sql("CREATE TABLE IF NOT EXISTS test_table(id string, name string, city string, age Int) STORED BY 'carbondata'")carbon.sql("LOAD DATA INPATH 'hdfs://co1:9000/test_data.csv' INTO TABLE test_table")carbon.sql("SELECT * FROM test_table").show()carbon.sql("SELECT city, avg(age), sum(age) FROM test_table GROUP BY city").show()
如过上述过程没有报错,表示carbondata 安装成功执行结果如图。
- carbondata 安装文档
- CarbonData编译、安装和集成Spark 2.2
- Apache CarbonData
- carbondata 介绍
- Holodesk VS CarbonData
- Carbondata源码阅读(1)
- CarbonData源码阅读(3)
- CarbonData 使用性能测试
- spark+carbondata使用
- cloudera cdh编译carbondata
- Apache CarbonData快速入门指南
- CarbonData使用示例(java)
- 安装文档
- CarbonData初体验与性能测试
- CarbonData源码阅读(2)-Hadoop InputFormat
- cdh上使用spark-thriftserver操作carbondata
- pureftpd安装文档
- ProFTPD安装文档一
- onmousemove、onmouseover、 onmouseup及onclick的区别
- Linux / unbuntu 下安装python
- SqlServer递归查询
- Bootstrap 3.3.7学习笔记11
- VC++ MFC 创建多级目录的方法 MakeSureDirectoryPathExists (另附 文件、目录操作类)
- carbondata 安装文档
- python装饰器
- jQuery实现enter回车事件
- HTML5本地储存--Web Storage
- 数字安全转换算法(四舍五入)
- 引用react-native-scrollable-tab-view 之后Cannot read property 'style' of undefined问题
- 在Eclipse中使用Git
- JS基础
- SpringMVC 视图解析器