自然语言处理(一)

来源:互联网 发布:网络端口号 编辑:程序博客网 时间:2024/05/11 14:37

概论

自然语言处理----利用计算机处理文本及声音。

图片
应用领域:输入—输出;输入法; 拼写更正;机器翻译;evernote推荐系统; 英文写作助手;twitter重大事件分析;医疗诊断;体育赛事报道生成;
应用技术:语言模型,自动机,中文分词,文本对齐,模板匹配,分类器,相似度计算,local sensitive hashing,文本分类,关键词匹配,倒排索引,语法分析,找词根,社交网络,可信度分析,规则系统,深度学习,模板填充,同义词替换,文本对齐,
概率系统的工作方式:流程设计—收集训练数据—预处理—抽取特征—分类器—预测—评价
图片

语言模型

xx模型——对某个语句打分
概率语言模型:Statistical language model
核心:通过打分告诉机器怎么说话。
N-gram:
图片

HMM假设:未来的事件,取决于有限的历史。
图片

N-gram LM 符合马尔可夫假设,N个状态相关
RNN LM 非马尔科夫假设 可计算无限多个假设

OOV解决办法:

把没有出现过的词统计为unk,用unk替换oov进行概率计算。
图片
最大似然估计:
图片

图片

N-gram平滑:

back-up回退法:思路:自己有钱自己出,没钱爸爸出,爸爸没钱爷爷出。
trigram没有——> bigram没有——> unigram
Interpolate插值法:自己 爸爸 爷爷各出一点钱。

图片
Absolute discount绝对折扣----劫富济贫,按爸爸的资产分配。
Kneser-Ney smoothing----有钱人交固定的税,按爸爸人脉分配。
Modified KN----有钱人交阶梯税,按爸爸人脉分配。
图片
原创粉丝点击