hadoop平台进行小型网站的日志分析
来源:互联网 发布:gcp网络报名 编辑:程序博客网 时间:2024/06/05 20:56
转载连接
0.上传日志文件到linux中,通过flume将文件收集到hdfs中。执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console1.建立hive表create external table bbslog (ip string,logtime string,url string) partitioned by (logdate string) row format delimited fields terminated by '\t' location '/cleaned';2.创建shell脚本touch daily.sh添加执行权限chmod +x daily.shdaily.sh:CURRENT=`date +%Y%m%d`#对数据进行清理,保存到cleaned文件夹,按照当前日期进行保存/home/cloud/hadoop/bin/hadoop jar /home/cloud/cleaner.jar /flume/$CURRENT /cleaned/$CURRENT#修改hive表,添加当前日期的分区/home/cloud/hive/bin/hive -e "alter table bbslog add partition (logdate=$CURRENT) location 'cleaned/$CURRENT'"#使用hive进行分析,根据业务需求而定#统计pv并计入每日的pv表/home/cloud/hive/bin/hive -e "create table pv_$CURRENT row format delimited fields terminated by '\t' as select count(*) from bbslog where logdate=$CURRENT;"#统计点击次数过20的潜在用户/home/cloud/hive/bin/hive -e "create table vip _$CURRENT row format delimited fields terminated by '\t' as select $CURRENT,ip,count(*) as hits from bbslog where logdate=$CURRENT group by ip having hits > 20 order by hits desc"#查询uv/home/cloud/hive/bin/hive -e "create table uv_$CURRENT row format delimited fields terminated by '\t' as select count(distinct ip) from bbslog where logdate=$CURRENT"#查询每天的注册人数/home/cloud/hive/bin/hive -e "create table reg_$CURRENT row format delimited fields terminated by '\t' as select count(*) from bbslog where logdate=$CURRENT AND instr(url,'member.php?mod=register')>0"#将hive表中的数据导入mysql/home/cloud/sqoop/bin/sqoop export --connect jdbc:mysql://cloud3:3306/jchubby --username root --password JChubby123 --export-dir "/user/hive/warehouse/vip_$CURRENT" --table vip --fields-terminated-by '\t'
0 0
- hadoop平台进行小型网站的日志分析
- 使用hadoop平台进行小型网站日志分析
- 【Hadoop】基于Hadoop/Hbase/Hive的小型离线服务器日志分析应用
- 基于hadoop的网站日志数据分析
- 使用Hadoop分析网站日志
- 使用python构建基于hadoop的mapreduce日志分析平台
- Hadoop的日志分析
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第一种方式 mapreduce方式
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第二中种方式 mapreduce方式
- hadoop日志分析系统二 第二部分利用hadoop平台进行数据处理 第三种方式 hive+sqoop+zookeeper方式
- Fluentd+Hadoop结合进行日志收集、分析
- hadoop网站日志分析(一)
- 分析hadoop日志之前传-采用flume进行日志收集
- 使用hadoop和hive来进行应用的日志数据分析
- 网站日志的文件分析
- 高可用Hadoop平台-实战(电商网站的用户行为分析)
- Hadoop平台日志结构
- Hadoop 提取KPI 进行海量Web日志分析
- 浅析android系统设计中的回调思想
- 一些暂存的动画
- windows FTP上传
- 自动释放池和ARC
- 05-图3. 六度空间 (30)
- hadoop平台进行小型网站的日志分析
- 算法导论8-4
- java中的数据转换
- Android 4.4 Dialog 被状态栏遮挡的解决方法
- Android ExpandableListView的使用技巧
- C#动态建库建表学习
- iOS 动画
- Linux添加新硬盘、分区、格式化、自动挂载
- java中set和get方法的理解使用