小项目开发步骤.txt

来源:互联网 发布:知乎中的tg是什么意思 编辑:程序博客网 时间:2024/04/29 12:02
大数据处理技能
1、熟练掌握hadoop分布式数据数据集群,掌握hadoop集群的搭建和配置;
2、熟悉MapReduce,hdfs处理问题的思想,熟悉分布式计算模型;
3、熟悉hadoop相关框架,有Hive、HBase、pig,sqoop、Mahout、zookeeper开发经验;
4、熟悉Storm,Metq,flume,Lucene,Solr,MongoDB等其他开源项目;
5、熟悉linux操作系统以及Shell脚本的应用。
Java开发技能
1、熟练掌握Java编程技术,熟悉常用的设计模式;
2、熟练掌握Java Web技术、Jsp/Servlet、JDBC、cache机制等;
3、熟练掌握SSH框架及其整合技术,了解SpringMVC、ibatis/mybatis框架及原理;
4、熟练掌握MySQL数据库,能进行数据库的设计、开发及其优化,熟悉Oracle的使用;
5、熟悉Javascript、jQuery、Easy UI以及AJAX等前端技术技术 ;   
6、熟悉Web Service、Freemarker、POI报表开发等技术。


=====================================
1 flume  采集数据  (定时器 )shell脚本
2 对数据进行清洗 (清洗无用数据)
3 使用hive进行数据分析(分区数据)
4 把hive分析结果通过sqoop导出到mysql
5 提供视图工具用户使用
==================================
1 flume
定时器:
crontab -e(编辑自己的定时器)
//创建定时器
crontab -e
//每天凌晨1点执行一次
* 1 * * *  echo 111 > /root/logs
=======================================
1 初始化
  //创建外部分区表
dfs -mkdir flume
   create external table hmbbs(ip string,logtime string,url string) partitioned by (logdate string) row format delimited fields terminated by '\t' location '/flume';
2 写shell 脚本
  vim daily.sh
  //加执行权限
  [root@hadoop03 ~]# chmod +x daily.sh 
   脚本:
   CURRENT=`date +%y%m%d`
   echo $CURRENT
   //1执行hadoop命令 绝对路径 对数据进行清洗 
   /itcast/hadoop-2.2.0/bin/hadoop jar /root/Cleaner.java /flume/$CURRENT /cleamed/$CURRENT
   //2执行hive命令 绝对路径 数据分析
    /itcast/apache-hive-0.13.0-bin/bin hive -e 'show tables'

    /itcast/apache-hive-0.13.0-bin/bin hive -e "alter table hmbbs add partition (logdate=$CURRENT) location '/cleaned/$CURRENT'"
//3 hive  分析数据
/itcast/apache-hive-0.13.0-bin/bin hive -e "select count(*) from hmbbs where logdate=$CURRENT"
//4 把查到的数据存到表中(创建表 存放后面查询的结果数据)
/itcast/apache-hive-0.13.0-bin/bin hive -e " create external table ext_people(id bigint,name string) partitioned by (nation string) row format delimited fields terminated by '\t' as select count(*) from hmbbs where logdate=$CURRENT"
//查询UV

//查询注册人数
//sqoop  导数据到mysql中(sqoop全路径)
/itcast/sqoop-1.4.4/bin/sqoop export --connect jdbc:mysql://192.168.8.110:3306/djk --username root --password 123456 --export-dir "/user/hive/warehouse/vip_$CURRENT" --table vip --fields-terminated-by '\t'
0 0
原创粉丝点击