北京汉传佛寺游人评价数据的抓取与分析(2)
来源:互联网 发布:Centos安装jdk 编辑:程序博客网 时间:2024/05/01 09:54
- 用了不到4天的时间,一共抓取了17个寺院的3个信息来源的11049条评论
- 使用 wordcloud, jieba, PIL, matplotlib, numpy 进行分词,统计词频,并绘制词云
#coding=utf-8from wordcloud import WordCloudimport jiebaimport PILimport matplotlib.pyplot as pltimport numpy as npdef wordcloudplot(txt): path = r'ancient_style.ttf' # path = unicode(path, 'utf8').encode('gb18030') # path = str(path, 'utf8').encode('gb18030') alice_mask = np.array(PIL.Image.open('black.jpg')) wordcloud = WordCloud(font_path=path, background_color="black", margin=2, width=900, height=400, mask=alice_mask, max_words=2000, max_font_size=300, random_state=42) wordcloud = wordcloud.generate(txt) wordcloud.to_file('black7.jpg') plt.imshow(wordcloud) plt.axis("off") # plt.show()def main(): # a = [] f = open(r'../Day-4-comment_txt/红螺寺_comment.txt', 'r', encoding='utf-8', errors='ignore').read() words = jieba.lcut(f) # for word in words: # if len(word) > 1: # a.append(word) a = [word for word in words if len(word) > 1] txt = r' '.join(a) wordcloudplot(txt) #print(a) print(txt)if __name__ == '__main__': main()
- 得到的测试词云如下:
感觉这些 wordcloud 中展示的数据乱七八糟的,稍稍了解了一下发现还需要用到情感分析等诸多,还要过滤掉噪音什么乱七八糟的,我家小姐姐
说项目中的这部分内容也并不需要她来负责,所以,就这样吧
滚回去继续学习我的 Django 和 MySQL ,还有计算机网络啦
0 0
- 北京汉传佛寺游人评价数据的抓取与分析(2)
- 北京汉传佛寺游人评价数据的抓取与分析(1)
- 【机器学习】北京二手房的现状与未来(一):二手房数据抓取
- 数据抓取之(一):抓取北京交通管理网站的车辆违法信息(已完结)
- 数据抓取之(一):抓取北京交通管理网站的车辆违法信息(已完结)
- 关于“淘宝爆款”的数据抓取与数据分析
- log 的抓取与分析
- log 的抓取与分析
- c#网站数据抓取与分析
- 豆瓣影评数据抓取与简要分析
- Fiddler抓取数据并分析(完整的配置教程)
- 数据分析(6)-性能评价与算法基础
- 北京出租车计费的信息与分析
- 抓取Web网页数据分析(转)
- Nutch抓取数据分析
- Nutch抓取数据分析
- Android6.0 Log 的抓取与分析
- Android 7.0 Log 的抓取与分析
- VNC连接Linux桌面
- Pb的事务处理机制
- Tanks案例笔记(二、坦克创建与控制)
- Java中.next()和.nextLine()的区别
- fragment中onActivityResult不调用
- 北京汉传佛寺游人评价数据的抓取与分析(2)
- Zuul性能测试
- ElasticSearch 索引相关操作
- 全国直播,我用35分钟讲完了60分钟的课
- Android开发中防止再入坑
- HDU1532最大流入门
- 读《打造一家好公司》
- i++和++i的区别
- MySQL快速入门04----数据类型