程序博客网 > 批处理编程

linux 统计文件字段并排序

来源：互联网发布：批处理编程编辑：程序博客网时间：2024/05/23 01:11

问题1：现在有一万多条记录，其中包含重复的记录，每条记录占一行，问如何从这些记录中找到数量排名前10的记录？

$ sort datafile | uniq -c | sort -k 1 -n -r | head -n 10
解析：
- sort date
  - 表示对data文件中的内容进行排序。sort命令是对于每一行的内容根据字典序（ASCII码）进行排序，这样可以保证重复的记录时相邻的。
- sort data | uniq -c
  - uniq -c 表示合并相邻的重复记录，并统计重复数。因为uniq -c 只会合并相邻的记录，所以在使用该命令之前需要先排序。
- sort data | uniq -c | sort -k 1 -n -r
  - 经过uniq -c 处理之后的数据格式形如"2 data"，第一个字段是数字，表示重复的记录数；第二个字段为记录的内容。我们将对此内容进行排序。sort -k 1表示对于每行的第一个字段进行排序，这里即指代表重复记录数的那个字段。因为sort命令的默认排序是按照ASCII，这就会导致按从大到小进行排序时，数值2会排在数值11的前面，所以需要使用-n 参数指定sort命令按照数值大小进行排序。-r 表示逆序，即按照从大到小的顺序进行排序。
- sort data | uniq -c | sort -k 1 -n -r | head 10
  - head 命令表示选取文本的前x行。通过head 10 就可以得到排序结果中前十行的内容。

cat datafile | awk '{print $1}' | sort | uniq -c | sort -k 1 -n -r | wc -l > result.txt

按照文件中第一个字段，做统计

awk ‘{print $1}’：日志记录中的第一个字段

统计一个文件中所有单词，并按出现频率排序 (单词以'\t', ' ', '\n'分割)·

tr -s "\t| " "\n" < list_of_not_defined_keywords.csv | sort | uniq -c | sort -k 1 -n -r

参考文章：

巧用Linux命令完成统计排序功能

0 0

批处理编程

批处理编程

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子 2018年雅典娜断兵线时间表股票年线是多少天年线是多少日线怎么看股票年线股票年线年线怎么看年线战法年线选股股票跌破年线怎么看股市年线股票线股票伴侣线 0tg线 hdmi2.0线等线 dhmi线 hidi线 note3otg线第线 yy95线点线 dvid线 3+4vga线线与线或 yonex95线黄金价格走势图年线朱婷年薪机长年薪建筑师年薪里皮年薪郎平年薪评估师年薪民航年薪年薪百万余承东年薪金融理财师年薪深圳近30万年薪聘中小学老师飞机机长年薪多少一级建筑师年薪多少一级建筑师年薪朱婷年薪2000万败光