数学之路(机器学习实践指南)-文本挖掘与NLP(2)

来源:互联网 发布:伊藤润二坏小孩知乎 编辑:程序博客网 时间:2024/04/30 05:39
#--coding:utf-8--#code by myhaspl from __future__ import unicode_literalsfrom __future__ import divisionimport nltkimport syssys.path.append("../")import jiebadef cutstring(txt):    #分词    cutstr = jieba.cut(txt)    result=" ".join(cutstr)    return result    #读取文件txtfileobject = open('test1.txt','r')try:   filestr = txtfileobject.read( )finally:   txtfileobject.close( ) cutstr=cutstring(filestr)tokenstr=nltk.word_tokenize(cutstr)fdist1=nltk.FreqDist(tokenstr)#只出现了一次的低频词 print "----只出现了一次的低频词-----"for word in fdist1.hapaxes():    print word,#找出文本中的长词 printprint "----文本中的长词-----"for word in [w for w in set(tokenstr) if len(w)>3]:    print word,

本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/


----只出现了一次的低频词-----
分析 相媲美 这么 出来 再 而 万美元 迅速 该项 具有 察觉 启发 用来 仿生 很难 东西 考克斯 高级 到 高智能 · 团队 方法 希望 亿 算法 再次 情报机构 情况 汽车 科学 入侵 运用 1.84 拨给 智能 网络 擅长 只是 必须 其 约合 时候 系 助理 逆向 需要 媒体报道 接下来 类似 视觉 规模 进行 国外 认出来 以及 人工智能 为了 赋予 终极目标 技术 聪明 计划 Cox 越来越 一点 做到 计算机科学 就算 项目 等 皮层 情报研究 如今 David 培养 不然 近日 也 媲美 一项 从而 读取 可以 只 系统 获得 CBS 而已 人民币 制造 它 训练 上 哺乳动物 几次 2800 价值 出色 资金 计划署 创新 天生 见到 千次 之后 图案 头 着手 去 看 教授 这一 说道 超越 保持 受 解决 其它 这是 戴维 基因组 为何 都 领导 更加 神经元 脑科学 中心 IARPA 有限 科学家 驾驶 于 单是 经费 则 过程 基本准则 中 一半 核磁共振 图像 人员 怎样 难 又 目的 迟早会 美国 正 挑战 称 用于
----文本中的长词-----
情报机构 1.84 媒体报道 人工智能 终极目标 计算机科学 情报研究 David 计算机系统 哺乳动物 2800 哈佛大学 IARPA 基本准则 核磁共振 SEAS 应用科学 生物学系

0 0
原创粉丝点击