统计每个ip的访问量--linux--acces…

来源：互联网发布：java 手机短信验证码编辑：程序博客网时间：2024/05/19 17:51

1. Sed简介
sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。以下介绍的是Gnu版本的Sed 3.02。
2. 定址
可以通过定址来定位你所希望编辑的行，该地址用数字构成，用逗号分隔的两个行数表示以这两行为起止的行的范围（包括行数表示的那两行）。如1，3表示1，2，3行，美元符号($)表示最后一行。范围可以通过数据，正则表达式或者二者结合的方式确定。
3. Sed命令
调用sed命令有两种形式：
*
sed [options] 'command' file(s)
*
sed [options] -f scriptfile file(s)

awk是一个非常棒的数字处理工具。相比于sed常常作用于一整行的处理，awk则比较倾向于将一行分为数个“字段”来处理。运行效率高，而且代码简单，对格式化的文本处理能力超强。先来一个例子：
　　文件a，统计文件a的第一列中是浮点数的行的浮点数的平均值。用awk来实现只需要一句话就可以搞定
$cat a
1.021 33
1#.ll 44
2.53 6
ss 7

awk'BEGIN{total = 0;len = 0} {if($1~/^[0-9]+\.[0-9]*/){total += $1;len++}} END{print total/len}' a
（分析：$1~/^[0-9]+\.[0-9]*/表示$1与“//”里面的正则表达式进行匹配，若匹配，则total加上$1，且len自增，即数目加1.“^[0-9]+\.[0-9]*”是个正则表达式，“^[0-9]”表示以数字开头，“\.”是转义的意思，表示“.”为小数点的意思。“[0-9]*”表示0个或多个数字）

awk的一般语法格式为：
　　awk [-参数变量]'BEGIN{初始化}条件类型1{动作1}条件类型2{动作2}。。。。END{后处理}'
其中：BEGIN和END中的语句分别在开始读取文件（in_file）之前和读取完文件之后发挥作用，可以理解为初始化和扫尾。
（1）参数说明：
　　 -F re：允许awk更改其字段分隔符
-vvar=$v 把v值赋值给var，如果有多个变量要赋值，那么就写多个-v，每个变量赋值对应一个-v
　　　　e.g. 要打印文件a的第num行到num+num1行之间的行，
　　　　　　awk -v num=$num -v num1=$num1 'NR==num,NR==num+num1{print}'a
　　-fprogfile：允许awk调用并执行progfile程序文件，当然progfile必须是一个符合awk语法的程序文件。

uniq [选项] 文件

说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“-”表示，则从标准输入读取。

该命令各选项含义如下：、

– c 显示输出中，在每行行首加上本行在文件中出现的次数。它可取代- u和- d选项。

– d 只显示重复行。

– u 只显示文件中不重复的各行。

– n前n个字段与每个字段前的空白一起被忽略。一个字段是一个非空格、非制表符的字符串，彼此由制表符和空格隔开(字段从0开始编号)。

+n 前n个字符被忽略，之前的字符被跳过(字符从0开始编号)。

– f n 与- n相同，这里n是字段数。

– s n 与+n相同，这里n是字符数。

接下来通过实践实例说明：

sort是在Linux里非常常用的一个命令，管排序的，集中精力，五分钟搞定sort，现在开始！

sort的-u选项

它的作用很简单，就是在输出行中去除重复行。

3 sort的-r选项

sort默认的排序方式是升序，如果想改成降序，就加个-r就搞定了。

4 sort的-o选项

由于sort默认是把结果输出到标准输出，所以需要用重定向才能将结果写入文件，形如sort filename >newfile。

但是，如果你想把排序结果输出到原文件中，用重定向可就不行了。

5 sort的-n选项

你有没有遇到过10比2小的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了，排序程序会先比较1和2，显然1小，所以就将10放在2前面喽。这也是sort的一贯作风。

我们如果想改变这种现状，就要使用-n选项，来告诉sort，“要以数值来排序”！

6 sort的-t选项和-k选项

如果有一个文件的内容是这样：

sort提供了-t选项，后面可以设定间隔符。（是不是想起了cut和paste的-d选项，共鸣～～）

指定了间隔符之后，就可以用-k来指定列数了。

7 其他的sort常用选项

-f会将小写字母都转换为大写字母来进行比较，亦即忽略大小写

-c会检查文件是否已排好序，如果乱序，则输出第一个乱序的行的相关信息，最后返回1

-C会检查文件是否已排好序，如果乱序，不输出内容，仅返回1

-M会以月份来排序，比如JAN小于FEB等等

-b会忽略每一行前面的所有空白部分，从第一个可见字符开始比较。

例子：cat access.log |awk '{print $1}'|sort -k1,1nr| uniq -c

cat access.log |awk '{print $1}'|sort| uniq -c | sort -k1,1nr

cat access.log |awk '{print $1}'|sort| uniq -c | sort -k1 -nr

查看access.log 日志中的最大的访问ip数

0 0