初学nlp&nn

来源:互联网 发布:淘宝 618 大促 销售额 编辑:程序博客网 时间:2024/06/11 18:06

绪:

神经网络的发展不是一帆风顺的,多年来,Hinton 教授的研究领域不仅默默无闻,而且被孤立于计算机科学的主流学术圈之外。他的神经网络被使用手工编程等传统方法创造人工智能的不愁资助的人们认为是“虚弱的废话”。Hinton 教授说,学术期刊过去经常拒绝神经网络论文的投稿。

但是在过去五年左右的时间里,他带过的学生们取得了一系列惊人的突破,神经网络由此大热。他也成为了计算新时代的领军人物。你手机中绝大部分语音识别软件都靠神经网络工作。神经网络可以识别图片,分辨出狗的品种,准确度和人类几乎一样。

“看到了神经网络的效果,产业和政府都开始直接把神经网络称为 AI。而原来 AI 领域里毕生都在嘲笑神经网络的人现在则很高兴地说神经网络就是 AI,并且千方百计地向从里面赚钱。”Hinton 教授说。AI 的传统概念是依赖逻辑和规则来为计算机编程以使其“思考”。而神经网络学习的全部过程不涉及编程或语言规则。http://news.hexun.com/2017-04-12/188810103.html

N-gram语言模型

http://www.cnblogs.com/wzm-xu/p/4229819.html
链规则p(S)被称为语言模型,即用来计算一个句子概率的模型。
http://blog.csdn.net/xiaokang06/article/details/17965965

推荐开源语言模型工具: 

推荐开源n-gram数据集:   

由公式可知,迷惑度越小,句子概率越大,语言模型越好。
大规模数据统计方法与有限的训练语料之间必然产生数据稀疏问题,导致零概率问题,符合经典的zip'f定律。如IBM,Brown:366M英语语料训练trigram,在测试语料中,有14.7%的trigram和2.2%的bigram在训练语料中未出现。
平滑技术,它们的基本思想是“降低已出现n-gram条件概率分布,以使未出现的n-gram条件概率分布非零”,且经数据平滑后一定保证概率和为1
  • Add-one(Laplace) Smoothing加一平滑法,又称拉普拉斯定律
  • Good-Turing Smoothing利用频率的类别信息对频率进行平滑
  • Interpolation Smoothing线性插值平滑技术,将高阶和低阶模型作线性组合利用低元n-gram模型对高元n-gram模型进行线性插值
1.1 最小语义粒度
在中文中,最小语义粒度为字,但是一个单字所表示的语义信息太少,一般的,大多都以词作为最基本的语素,
因为这在实际的交流中也正是如此。但是用词作为最小的语义粒度也有一个问题,就是词和词之间的关系随着分词而丢失了,
其实这部分信息非常重要。为了减小这种隐性的语义损失,有人提出了N-gram模型。
N-gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关。
简单来说,unigram模型对应的最小语素就是单字,bigram模型是二字串,举例说明:“我爱北京天安门”的bigram表示形式就是“我爱 爱北 北京 京天 天安 安门”。
由于N-gram存在致命的缺陷——产生的结果过于稀疏,假设正常分词的词表中有1000个词,如果是bigram那么可能的N-gram就有1000000个,如果是trigram,那么可能的N-gram就有1000000000个,
其维度增长是指数级的。一般在使用中只使用二字串或三字串作为最小的语义粒度,并且需要其他处理来缩减维度,减少计算资源的消耗。
作者:黄老邪怪链接:http://www.jianshu.com/p/60505518d7ee


数据平滑-----解决数据稀疏
http://www.cnblogs.com/yiyi-xuechen/p/3561769.html?utm_source=tuicool&utm_medium=referral

训练语料毕竟是有限的,这样导致很多事件根本没有出现过。根据最大似然估计,这些事件的概率为零。然而这些事件的真实概率并不一定为零。
这个问题被成为数据稀疏问题。
Zipf 定律


中文依存句法分析概述及应用
http://blog.csdn.net/abc006250/article/details/7689872
:LTP依存分析模块所使用的依存关系标记含义(http://ir.hit.edu.cn/demo/ltp)

 
依存关系标记(共24个)
定中关系ATT(attribute)
数量关系QUN(quantity)
并列关系COO(coordinate)
同位关系APP(appositive)
前附加关系LAD(left adjunct)
后附加关系RAD(right adjunct)
动宾关系VOB(verb-object)
介宾关系POB(preposition-object)
主谓关系SBV(subject-verb)
比拟关系SIM(similarity)
核心HED(head)
连动结构VV(verb-verb)
关联结构CNJ(conjunctive)
语态结构MT(mood-tense)
独立结构IS(independent structure)
状中结构ADV(adverbial)
动补结构CMP(complement)
“的”字结构DE
“地”字结构DI
“得”字结构DEI
“把”字结构BA
“被”字结构BEI
独立分句IC(independent clause)
依存分句DC(dependent clause)
Lucene 中文名 全文搜索引擎
2.5.2.1 面向作文生成的主题分析技术
GRU (GatedRecurrent Unit)      

2.5.3.2主题词扩展
word embedding词向量         http://licstar.net/archives/tag/word-embedding

K-means聚类算法       http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

AP 聚类算法                 http://www.cnblogs.com/huadongw/p/4202492.html
LDA主题模型算法     http://blog.sina.com.cn/s/blog_8eee7fb60101czhx.html

K-means聚类算法       http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html


ltpgithub【https://github.com/HIT-SCIR/ltp】
结巴分词 http://blog.csdn.net/rav009/article/details/12220977