用户行为分析之--apache日志分析(二)

来源:互联网 发布:php获取服务器内网ip 编辑:程序博客网 时间:2024/05/16 10:09

 在上一篇“用户行为分析之--apache日志分析(一)”中最后介绍到了apache 的log信息中的爬虫,那么为啥要介绍他呢,无非就是为了达到标题“用户行为分析”的目的,爬虫可不是咱们网站的真正用户,所以要过滤掉他;在过滤他之前咱们不是首先要知道人家长啥样不是!

       考虑到开发的便捷性,和各个语言的特长,python非常适合做这种事情,文本的处理,就是把日志中的爬虫信息过滤掉,然后生成xml文件,就是程序可以直接使用的信息(那么xpath,xQuery就可以派上用场了)。

     本人一直比较懒,遵循好程序员的三大优点之一“懒惰” ;在网上找到了一段parse代码

 

 

好了,经过这么解析parse之后就可以得到 python结构的对象了,那么就可以真正加工了,实际上这就是书上说的“数据清洗”了,这里除了要清洗掉爬虫的数据 还要清洗掉一些图片或是视频的信息啊,当然要看实际需要情况的。这样清洗完后,后面的计算就可以不去计算那些无关的东西了。

 

 

 

 

原创粉丝点击