hadoop 及word转换pdf方法介绍[个人整理资料2014-03-14]

来源:互联网 发布:二宫和也 知乎 编辑:程序博客网 时间:2024/04/30 06:06
sqoop import --connect jdbc:mysql://localhost:3306/yg_main --username root --password root --table item --hive-import --hive-table default.item -m 1






1.从mysql中导数据到hdfs和hive中


./sqoop import --verbose --fields-terminated-by ',' --connect  jdbc:mysql://localhost:3306/yg_main --table item  --username root --password root --hive-import --warehouse-dir item --fields-terminated-by ','   --hive-table default.item






sqoop import --verbose --fields-terminated-by ',' --connect  jdbc:mysql://$dbhost/$db --table "$table"  --username xxx --password xxx --hive-import --warehouse-dir xxx --fields-terminated-by ','  --split-by $splitfield --hive-table $hivetable


2.启动    hive thrift
安装好后启动hive thrift
# ./hive --service hiveserver 10000 >/dev/null 2>/dev/null &








3.启动hbase thrift server
# ./bin/hbase-daemon start thrift  默认是9090端口


4.启动hbase 
./bin/start-hbase.sh
 jsp查看进程,多一个hbase进程
14592 HMaster


hbase reginserver:          http://localhost:60030




先启动hbase 再启动hadoop  如先启动hadoop有时 HMaster无法启动(原因不清楚)






格式化文件系统
bin/hadoop namenode -format




注:hbase启动可能会出错导致失败,这时需要将$HADOOP_HOME/hadoop-core-*.*.*.jar和$HADOOP_HOME/lib目录下的commons-configuration-*.*.jar拷贝到$HBASE_HOME/lib目录下,删除$HBASE_HOME/lib目录下的hadoop-core-*.jar,避免版本冲突和不兼容。


编写hadoop的mapreduce程序,需要很多它自带的jar包,在我的电脑中,一部分在/usr/share/hadoop中,另一部分在/usr/share/hadoop/lib中,现在我的/etc/profile文件是这样写的:
export HADOOP_HOME=/home/eboss/hadoop
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib:$HADOOP_HOME/bin:$JRE_HOME/lib:$HADOOP_HOME:$CLASSPATH






soffice --headless --accept="socket,host=127.0.0.1,port=2002;urp;" -nofirststartwizard 
转pdf文件
首先要安装好openoffice3,然后命令行下启动服务,最简单的方法如下:
soffice -accept="socket,port=2002;urp"




1.用python
https://github.com/mirkonasato/pyodconverter


先启动office
$ soffice "-accept=socket,port=2002;urp;"
python DocumentConverter.py test.odt test.pdf


2.用java
jodconverter 来转换
命令:java -jar /usr/local/jodconverter-core-3.0-beta-4/lib/jodconverter-core-3.0-beta-4.jar /home/a.doc  /home/a.pdf






>vi convert.php
<?php
    system("/opt/openoffice.org3/program/python DocumentConverter.py test.ppt test.swf"); 
?>
>/usr/local/php5/bin/php convert.php
0 0