数学之路(机器学习实践指南)-文本挖掘与NLP(2)
来源:互联网 发布:伊藤润二坏小孩知乎 编辑:程序博客网 时间:2024/04/30 05:39
#--coding:utf-8--#code by myhaspl from __future__ import unicode_literalsfrom __future__ import divisionimport nltkimport syssys.path.append("../")import jiebadef cutstring(txt): #分词 cutstr = jieba.cut(txt) result=" ".join(cutstr) return result #读取文件txtfileobject = open('test1.txt','r')try: filestr = txtfileobject.read( )finally: txtfileobject.close( ) cutstr=cutstring(filestr)tokenstr=nltk.word_tokenize(cutstr)fdist1=nltk.FreqDist(tokenstr)#只出现了一次的低频词 print "----只出现了一次的低频词-----"for word in fdist1.hapaxes(): print word,#找出文本中的长词 printprint "----文本中的长词-----"for word in [w for w in set(tokenstr) if len(w)>3]: print word,
本博客所有内容是原创,如果转载请注明来源
http://blog.csdn.net/myhaspl/
----只出现了一次的低频词-----
分析 相媲美 这么 出来 再 而 万美元 迅速 该项 具有 察觉 启发 用来 仿生 很难 东西 考克斯 高级 到 高智能 · 团队 方法 希望 亿 算法 再次 情报机构 情况 汽车 科学 入侵 运用 1.84 拨给 智能 网络 擅长 只是 必须 其 约合 时候 系 助理 逆向 需要 媒体报道 接下来 类似 视觉 规模 进行 国外 认出来 以及 人工智能 为了 赋予 终极目标 技术 聪明 计划 Cox 越来越 一点 做到 计算机科学 就算 项目 等 皮层 情报研究 如今 David 培养 不然 近日 也 媲美 一项 从而 读取 可以 只 系统 获得 CBS 而已 人民币 制造 它 训练 上 哺乳动物 几次 2800 价值 出色 资金 计划署 创新 天生 见到 千次 之后 图案 头 着手 去 看 教授 这一 说道 超越 保持 受 解决 其它 这是 戴维 基因组 为何 都 领导 更加 神经元 脑科学 中心 IARPA 有限 科学家 驾驶 于 单是 经费 则 过程 基本准则 中 一半 核磁共振 图像 人员 怎样 难 又 目的 迟早会 美国 正 挑战 称 用于
----文本中的长词-----
情报机构 1.84 媒体报道 人工智能 终极目标 计算机科学 情报研究 David 计算机系统 哺乳动物 2800 哈佛大学 IARPA 基本准则 核磁共振 SEAS 应用科学 生物学系
0 0
- 数学之路(机器学习实践指南)-文本挖掘与NLP(2)
- 数学之路(机器学习实践指南)-文本挖掘与NLP(1)
- 数学之路(机器学习实践指南)-文本挖掘与NLP(3)
- 数学之路(机器学习实践指南)-文本挖掘与NLP(4)
- 数学之路(机器学习实践指南)-文本挖掘与NLP(5)
- 数学之路(机器学习实践指南)-文本挖掘与NLP(6)
- 数学之路(机器学习实践指南)-深度学习(1)-caffe
- 机器学习:文本挖掘之特征选择
- 数据挖掘 NLP 之 文本挖掘 文本处理 通用流程
- 机器学习与数据挖掘学习之路
- 炼数成金机器读心术之文本挖掘与自然语言处理(附讲义)推荐学习
- 数学之美 - 机器学习实战 书籍 数据挖掘。
- 数学之路(3)-机器学习(3)-机器学习算法-最小二乘法与回归[2]
- 机器学习实践指南
- 机器学习实践指南
- 机器学习实践指南
- 机器学习实践指南
- 数据挖掘与机器学习 WEKA 应用技术与实践
- asp.net服务器控件button先执行js再执行后台的方法
- HDOJ 1094 A+B for Input-Output Practice (VII)
- Spring注解@Component、@Repository、@Service、@Controller区别
- 深入字节码 -- 使用 ASM 实现 AOP
- 特工卡特.Agent.Carter
- 数学之路(机器学习实践指南)-文本挖掘与NLP(2)
- IAR中ICF文件分析与应用
- ubuntu安装和配置SVN
- ERROR: Packet for query is too large (2034> 1024)
- HDOJ 1094 A+B for Input-Output Practice (VI)
- 代码开发管理: 持续集成
- Spring MVC +Mybatis + Maven 配置之Transaction配置
- ffmpeg写mp4时不断打印:Error parsing ADTS frame header!
- Ubuntu 14.04 文件服务器--samba的安装和配置