使用hadoop平台进行小型网站日志分析
来源:互联网 发布:丹道 知乎 编辑:程序博客网 时间:2024/06/06 11:59
0.上传日志文件到linux中,通过flume将文件收集到hdfs中。
执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console
1.建立hive表
create external table bbslog (ip string,logtime string,url string) partitioned by (logdate string) row format delimited fields terminated by '\t' location '/cleaned';
2.创建shell脚本
touch daily.sh
添加执行权限
chmod +x daily.sh
daily.sh:
CURRENT=`date +%Y%m%d`
#对数据进行清理,保存到cleaned文件夹,按照当前日期进行保存
/home/cloud/hadoop/bin/hadoop jar /home/cloud/cleaner.jar /flume/$CURRENT /cleaned/$CURRENT
#修改hive表,添加当前日期的分区
/home/cloud/hive/bin/hive -e "alter table bbslog add partition (logdate=$CURRENT) location 'cleaned/$CURRENT'"
#使用hive进行分析,根据业务需求而定
#统计pv并计入每日的pv表
/home/cloud/hive/bin/hive -e "create table pv_$CURRENT row format delimited fields terminated by '\t' as select count(*) from bbslog where logdate=$CURRENT;"
#统计点击次数过20的潜在用户
/home/cloud/hive/bin/hive -e "create table vip _$CURRENT row format delimited fields terminated by '\t' as select $CURRENT,ip,count(*) as hits from bbslog where logdate=$CURRENT group by ip having hits > 20 order by hits desc"
#查询uv
/home/cloud/hive/bin/hive -e "create table uv_$CURRENT row format delimited fields terminated by '\t' as select count(distinct ip) from bbslog where logdate=$CURRENT"
#查询每天的注册人数
/home/cloud/hive/bin/hive -e "create table reg_$CURRENT row format delimited fields terminated by '\t' as select count(*) from bbslog where logdate=$CURRENT AND instr(url,'member.php?mod=register')>0"
#将hive表中的数据导入mysql
/home/cloud/sqoop/bin/sqoop export --connect jdbc:mysql://cloud3:3306/jchubby --username root --password JChubby123 --export-dir "/user/hive/warehouse/vip_$CURRENT" --table vip --fields-terminated-by '\t'
0 0
- 使用hadoop平台进行小型网站日志分析
- hadoop平台进行小型网站的日志分析
- 使用Hadoop分析网站日志
- 使用python构建基于hadoop的mapreduce日志分析平台
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第一种方式 mapreduce方式
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第二中种方式 mapreduce方式
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第三种方式 hive+sqoop+zookeeper方式
- 【Hadoop】基于Hadoop/Hbase/Hive的小型离线服务器日志分析应用
- Fluentd+Hadoop结合进行日志收集、分析
- 基于hadoop的网站日志数据分析
- hadoop网站日志分析(一)
- 使用hive进行日志分析
- 分析hadoop日志之前传-采用flume进行日志收集
- 使用hadoop和hive来进行应用的日志数据分析
- 【hive实战】使用hive分析 hadoop 日志
- 使用hadoop编写日志分析MR程序
- 使用hadoop编写日志分析MR程序
- 【hive实战】使用hive分析 hadoop 日志
- [LeetCode 90]Subsets II
- Android Tv app 与 mobile app 界面呈现的区别
- [LeetCode 78]Subsets
- WEB工工程中加载资源文件的方法
- 03-27学习情况
- 使用hadoop平台进行小型网站日志分析
- p51,6
- 单例模式的7种写法(Java)
- 【Android基础篇】使用ExpandableListView实现自定义的下拉列表
- 关于内存对齐
- poj 2553 zoj 1979 The Bottom of a Graph(强联通分量 Tarjan)
- c/c++:efficient c++,返回值优化,RVO
- 总结自适应网站的标准尺寸
- 开发日志 2015-03-28