linux统计出现次数top3的url
来源:互联网 发布:淘宝指数 编辑:程序博客网 时间:2024/05/22 12:25
对文件中的以下网址排序,统计出出现次数排名top3的网址。
文件名:
web.txt plaincopy
- http://www.google.com
- http://www.baidu.com
- http://www.sina.com
- http://www.bjtu.edu.cn
- http://www.codeproject.com
- http://www.csdn.com
- http://www.sohu.com
- http://www.yahoo.com
- http://mail.163.com
- http://www.bjtu.edu.cn
- http://www.codeproject.com
- http://www.csdn.com
- http://www.sohu.com
- http://www.yahoo.com
- http://mail.163.com
- http://www.codeproject.com
- http://www.csdn.com
- http://www.sohu.com
- http://www.yahoo.com
- http://mail.163.com
- http://www.qq.com
- http://www.hao123.com
- http://www.163.com
- http://youku.com
- http://taobao/com
- http://www.bjtu.edu.cn
- http://www.codeproject.com
- http://www.csdn.com
- http://www.sohu.com
- http://www.yahoo.com
- http://mail.163.com
- http://www.codeproject.com
- http://www.csdn.com
- http://www.sohu.com
- http://www.yahoo.com
- http://mail.163.com
- http://www.qq.com
- http://www.hao123.com
- http://www.163.com
- http://youku.com
- http://taobao/com
shell脚本如下:
#!/bin/bash
foo()
{
if [ $# -ne 1 ];
then
exit -1
fi
filename=$1
egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" $filename | \
awk '{ count[$0]++ }
END{
printf("%-30s%s\n","winsit","count");
for(ind in count)
{
printf("%-30s%d\n",ind,count[ind]);
}
}'
}
foo web.txt | sort -nrk 2 | head -3 >websort2.txt #sort命令 -n:【纯数字】类型 -r :倒序 -k:指定对哪个Filed(字段)进行排序
输出websort2.txt内容如下:
http://www.yahoo.com 5
http://www.sohu.com 5
http://www.csdn.com 5
0 0
- linux统计出现次数top3的url
- 让文本飞 linux shell脚本数据挖掘实践,统计出出现次数top3的url。
- Linux 统计某个字符串出现的次数
- Linux 统计某个字符串出现的次数
- Linux 统计某个字符串出现的次数
- Linux 统计某个字符串出现的次数
- Linux vi 统计字符串出现的次数
- 统计出现字符的次数
- 统计字符串出现的次数
- 字符串的出现次数统计
- 统计字符串出现的次数
- 电话号码出现的次数统计
- 统计字符串出现的次数
- 统计空格出现的次数
- 统计单词出现的次数
- 统计A出现的次数
- 统计单词出现的次数
- 统计单词出现的次数
- linux awk命令详解
- struts2配置
- 谈VC++对象模型(类内存占用)
- 单链表的19个功能编写(求指导)
- Java编写线程死锁
- linux统计出现次数top3的url
- hdu1789Doing Homework again(贪心)
- 单例模式
- 求一个整数转换为二进制数后有几个1
- android布局属性
- 实时操作系统任务调度
- 士兵队列训练问题
- sizeof
- C#程序实现窗体的最大化/最小化