Python爬虫(urllib2+bs4)+分析找出谁是水贴王(2)--数据分析
来源:互联网 发布:广电网络个人工作总结 编辑:程序博客网 时间:2024/06/03 21:50
使用前面的数据查找谁是发帖最多的人。
谁是”水贴王”文章:http://blog.csdn.net/u011039332/article/details/47426643
读取csv文件,将作者一行写入列表:
import csvfrom collections import Counterlist=[]csvfile = file('tiezi.csv', 'rb')reader = csv.reader(csvfile)for line in reader: #print line[3] list.append(line[3])csvfile.close()
使用Counter函数统计词频,输出字典,不排序
from collections import Counter#统计词频 但不排序dict=Counter(list)
对字典排序:sorted函数
list2=sorted(dict.iteritems(),key=lambda asd:asd[1],reverse=True)
sorted函数参数:
sorted(iterable[,cmp,[,key[,reverse=True]]])
作用:Return a new sorted list from the items in iterable.
第一个参数是一个iterable,返回值是一个对iterable中元素进行排序后的列表(list)。
可选的参数有三个,cmp、key和reverse。
1)cmp指定一个定制的比较函数,这个函数接收两个参数(iterable的元素),如果第一个参数小于第二个参数,返回一个负数;如果第一个参数等于第二个参数,返回零;如果第一个参数大于第二个参数,返回一个正数。默认值为None。
2)key指定一个接收一个参数的函数,这个函数用于从每个元素中提取一个用于比较的关键字。默认值为None。
3)reverse是一个布尔值。如果设置为True,列表元素将被倒序排列。
通常来说,key和reverse比一个等价的cmp函数处理速度要快。这是因为对于每个列表元素,cmp都会被调用多次,而key和reverse只被调用一次。
返回一个list:输出
for val in list2: print val[0],val[1]
分析得出:发帖最多红颜知己840
0 0
- Python爬虫(urllib2+bs4)+分析找出谁是水贴王(2)--数据分析
- Python爬虫(urllib2+bs4)+分析找出谁是水贴王(1)--数据收集
- Python爬虫(bs4)-2
- Python爬虫(bs4)-1
- Python爬虫(bs4)-3
- Python爬虫----爬虫入门(3)---urllib2
- Python爬虫----爬虫入门(4)---urllib2 模拟登陆
- python 爬虫入门(2) 爬虫基础知识 ; urllib 模块 ;urllib2 模块
- 爬虫笔记2(转)BS4库的解析器
- 简单python爬虫分析 (一)
- Python爬虫之bs4库
- Python -bs4反爬虫解决方法
- Python爬虫数据分析相关资源
- 【Python数据分析】简单爬虫,爬取知乎神回复
- Python基础和网络爬虫数据分析
- python简单爬虫开发(urllib2、requests + BeautifulSoup)
- [Python 爬虫之路1] 爬取糗事百科(requests,bs4)
- 数据分析师的编程之旅——Python爬虫预备篇(2)前端设计
- Hdu 5334 Virtual Participation (构造)
- git添加ssh公钥和私钥
- NEFU OJ 206 Prim生成树
- uva 12186 Another Crisis
- C语言中*和&
- Python爬虫(urllib2+bs4)+分析找出谁是水贴王(2)--数据分析
- NYOJ 91 阶乘之和
- java生成任意随机值,字符,数字,其它的都有你来
- nyoj 6 喷水装置(一)
- 微信开发学习总结
- jQuery数组API【笔记】
- 第143课: Spark面试经典系列之Reduce端OOM和shuffle file not found如何解决?
- 浏览器内核的解析和对比
- UWP开发字符串编码格式问题-GBK/GB2312