scala 编写 ip count 对apache 日志 IP 简单统计
来源:互联网 发布:数据分析预测软件 编辑:程序博客网 时间:2024/05/21 09:48
对apache 日志 IP 简单统计
运行环境
centos6.5 jdk1.8 spark1.6 scala-2.10.6
创建新项目 没有scala-sdk 的可以点Create 安装scala SDK
引入本地的scala 目录 点击 Browse
引入spark1.6目录下的lib的jar包
日志格式如下:
ip - - [datetime] "....." status ....
编写代码如下:
package z.testimport org.apache.spark.{SparkConf, SparkContext}/** * Created by z . */object IPCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("IPCount") val sc = new SparkContext(conf); val data = sc.textFile("file:///home/z/App/xxxx_access_apache.log") data.map{line=> val ip = line.split(" ")(0) (ip)}.map((_,1)).reduceByKey(_+_).collect().foreach(println(_)) sc.stop() }}
输出:
(ip,count)
问题:
Spark 和 Scala 版本问题
我的用的spark2.0.x 和 scala-2.10.6 版本不对应
scala-2.10.6.tgz 与 spark-1.6.2-bin-hadoop2.6.tgz 对应
更多资讯关注公众号
0 0
- scala 编写 ip count 对apache 日志 IP 简单统计
- AWK简单统计apache/nginx日志IP数
- apache 统计日志访问IP数量
- python统计日志ip
- 12.统计 日志 ip
- Shell 命令行统计 apache 网站日志访问IP以及IP归属地
- 日志中独立ip统计
- spark 统计线上日志ip分组统计
- ip count
- 统计apache日志文件里访问量前十的ip并按从多到少排列
- 统计apache日志文件里访问量前十的ip并按从多到少排列
- 统计apache日志文件里访问量前十的ip并按从多到少排列
- 统计Apache或nginx日志里访问次数最多的前十个IP
- python统计日志ip访问数脚本
- nginx 统计日志访问ip个数
- nginx 统计日志访问ip个数
- Nginx 日志文件 访问IP统计
- apache 日志中记录代理IP以及真实客户端IP
- DPDK中文-查看dpdk是否支持该网卡
- android Activity 的7个生命周期
- 腾讯云Centos7系统tomcat7安装和测试
- .NET 程序权限控制、获得管理员权限代码
- 关于Hbase在javaAPI操作表的操作
- scala 编写 ip count 对apache 日志 IP 简单统计
- 安徽大学大一高数第五章更新
- js中substring和substr的用法
- SQL Server中的Merge关键字
- LInux远程主机后台运行
- React-Native与原生的View桥接(二)
- Scala与我缘起2016年11月21日
- IIC总线协议
- Jmeter代理录制脚本