程序博客网 > node实战

［日志分析］在nginx日志中，提取有效的request uri

来源：互联网发布：node实战编辑：程序博客网时间：2024/04/30 06:54

最近在做公司的nginx log分析，其中一个需求是提取这个月每天被访问Top10的页面，及其访问量。

做这个需求，首先要清洗出有效的页面访问。我采用排除法，去掉 .js .css之类的访问。但最初，我并不能全面的了解要去掉带有哪些后缀的request。

经过清洗 -> 抽样 -> 清洗 -> 抽样 -> 清洗，最终需要过滤掉含有下列后缀的uri

.js .css . gif .jpeg .jpg .png .ico .txt .swf .xml .JPEG .PNG .JPG

#python代码：if re.search(r"(\.js|\.css|\.gif|\.jpe?g|\.png|\.ico|\.txt|\.swf|\.JPE?G|\.PNG|\.xml)", request[1]):        continue

不同公司的日志可能存在一些特殊情况，这还需要抽样分析

0 0

node实战

node实战

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子电子存包柜多少钱整体厨柜多少钱一米钱柜ktv电话钱柜ktv价格表钻石钱柜ktv价格表阳光钱柜ktv 钱柜夜总会阳光钱柜钱柜ktv价格钱柜新歌钱柜手机钱柜量贩式ktv 钱柜贷款钱柜娱乐代理 qiangu 钱桥钱桥中学无锡钱桥房价无锡钱桥属于哪个区保险到期了怎么取钱款钱氏家族钱氏钱氏家族的名人钱氏家训总结八个字钱氏家训全文钱氏精神病医院钱江钱江贝纳利钱江灯光钱江晚报钱江龙钱江股票钱江生化钱江世纪城钱江灯光秀钱江潮蓝色钱江钱江一桥钱江202 钱江龙150 钱江学院