CDH CSD and Upgrade

来源：互联网发布：淘宝上情趣用品买家秀编辑：程序博客网时间：2024/06/05 08:31

生产中不建议使用静态资源池的，一般是采用默认的动态资源池的
官网解读：
www.cloudera.com
System requirements what’s new Documention

机器学习库的python3.x以上的额，但是CDH中是不支持python3.x的。python版本不对CDH会有问题的。

缺失什么包就yum安装一下

Centos版本 java版本 python版本 Mysql版本
Cloudera Community
Cloudera University
Google中cdh kafka和cdh spark2
cd /var/www/html
mkdir cdh5.10 (包含cm5和parcels文件)
kafka中的parcel路径是/var/www/html的目录的。
kafka中的jar包路径是/opt/cloudera/csd的
kafka中的没有这个jar的概念的
kafka的版本：base_version+cloudera_version+patch_level
Spark2.x必须要配合kafka0.10的
cp -r /cdh/software/kafka_parcel ./
curl http://ip/kafka_parcel
service httpd start
不能连接访问的话，基本上都是由于http服务没有启动
http://ip/kafka_parcel
http://ip/cdh5.10/parcel

CDH中的界面安装Kafka的服务的时候，只需要安装Kafka Broker的服务的，不需要Kafka MirrorMaker和GateWay的服务的。

kafka的配置信息管理信息是需要zk的配合，是存在zk中的，zk的目录下存放kafka的信息/kafak
zookeeper.chroot:/kafka
zk的家目录：
cd /opt/cloudera/parcles/CDH/lib/zookeeper/bin
./zkCli.sh
kafka所创建的文件夹都是在/kafka中的额，当要删除kafka服务的时候，一定要删除掉机器节点上的存储数据信息的。zk中存储的kafka信息。
rmr /kafka
kafka消息中间件是存储数据的。它是以log的形式进行存储的。log.dirs=/var/local/kafka/data磁盘目录路径。磁盘预估不足的话，会导致数据的迁移的

kafka安装报错的，OOM异常的
kafka中的configuration中搜索memory内存。
CDH默认给的参数太小内存，设置大点的参数。

spark2的安装：
cdh spark2
zookeeper中语法帮助是help
du -sh查看目录文件大小的
cloudera1和cloudera2的区别：cloudera1.jar的包csd和parcel包
/var/www/html/spark2_parcel中有spark2-2.2.0.clooudera1-1.cdh5.12.0.p0.parcel
spark2-2.2.0.cloudera1-1.cdh5.12.0.p0.parcel.sha
manifest.json
echo “export SCALA _HOME=/opt/software/scala-2.11.8” >>/etc/profile
echo “export PATH=SCALAHOME/bin:PATH” >>/etc/profile

source /etc/profile
scala -version
Custom Service Descriptor==csd的简写
/opt/cloudera/csd中服务对应的jar文件一定要看权限和用户组的
拷贝SPARK2_ON_YARN-2.2.0.cloudera1.jar
用户组cloudera-scm:cloudera-scm 644权限
chown cloudera-scm:cloudera-scm SPARK2_ON_YARN-2.2.0.cloudera1.jar
chmod 644 SPARK2_ON_YARN-2.2.0.cloudera1.jar

service cloudera-scm-server restart重启的时候对hdfs，yarn等服务是没有影响的，只不过web界面是打不开的无法管理的
测试一下的service cloudera-scm-server stop
则hdfs的服务还是可以读的，hdfs dfs -ls /

ll -h /cdh
/var/www/html中是放着parcel包的，
配置Remote Parcel Repository URLs
http://ip/spark2_parcel
http://ip/kafka_parcel
http://ip/cdh5.10/cdh_parcel
Add the Spark2 service to your cluster,when configuring the assignment of the instances to hosts,add a gateway role to every hosts,the History Server port is 18089 instead of the usual 18088
哪些服务是需要进行安装gateway的，一个是hive的服务，第二个是spark的服务的。
gateway是一个客户端的配置的，跟其他的服务进行通信的。CDH中的GateWay起来的进程是灰色的。

spark架构图：
spark on yarn的模式中，spark仅仅作为一个客户端client的，每台机器上都有GateWay的，GateWay与client的配置进行通信的。spark on yarn的模式存在history服务和每台机器上存在GateWay的客户端的。
sparkSubmit提交作业到Yarn集群上，
spark on yarn中的history只有一个的，GateWay多台的。
Google中搜索spark2的cdh的parcel包文件。
自己打包生成parcel文件格式的形式。
青云上云服务器上的带宽上限38Mbs
CDH中集成的spark服务是只显示一个HistoryServer的服务的。
自己编译的spark源代码程序，spark的historyServer是不会给CDH进行管理的，单独独立进行部署spark的程序的，不需要安装到集群中的。。

注意的点在安装kafka服务的时候：搜索Kafka集群复制
Kafka MirrorMaker Default Group：复制，kafka的俩套集群的，Kafka集群复制的。
Destination Broker List：目标Kafka集群
Source Broker List：源Kafka集群
删除掉kafka服务，重新进行安装kafka服务的。

ps -ef | grep wget的命令的。
cd /opt/cloudera/csd中踢掉不需要服务的对应的jar包或者进行重命名备份
mv SPARK2_ON_YARN-2.2.0.cloudera1.jar SPARK2_ON_YARN-2.2.0.cloudera1.jar.bak
重启服务的：
service cloudera-scm-server restart
yum -y install wget

Spark是有shuffle的过程的额，
CDH5.10.0集群中安装spark的版本是cdh5.7.0的，
SPARK2-2.1.0.cloudera1-1.cdh5.7.0.parcel
在Kafka安装过程中是没有/opt/cloudera/csd的jar文件的
在Spark安装过程中是有的/opt/cloudera/csd的jar包文件的

Google中CDH UPGRADE
升级CDH的注意点是：
Using a rolling upgrade是针对企业版本的CDH进行升级的，升级过程中出现了异常情况的
The cluster uses a Cloudera Enterprise license

Stop cluster services
back up the hdfs metadata on the namenode
back up the databases
生产环境中的升级过程一定要进行备份的数据的额，特别是NameNode和Mysql数据库的备份。
mysqldump -uroot -p12345 cmf>cmf20171212.sql
事先创建cmf数据库并且保证cmf是空库的
mysql -uroot -p cmf

阅读全文

0 0