自然语言处理课程学习总结

来源:互联网 发布:tabletoexcel.js 编辑:程序博客网 时间:2024/05/24 15:39

概念

自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是:
Natural language understanding
Natural language processing
Computational Linguistics
现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学

主要应用

机器翻译、语言识别与合成、自动文摘、信息检索、自动问答、语料库建立

基本方法

基于规则的方法:
按照事先设计的自然语言的语法规则, 进行语法分析得到语法树,再根据另一套规则将语法树映射到语义符号结构(如语义网络)

基于统计的方法:
一般思想是为语言处理问题建立统计模型,并且训练语料库来估计统计模型中的参数, 然后把参数应用在模型中处理语言问题

两者的区别:
基于规则是利用了语言学家的语言学知识;
基于统计的方法获取的知识来自大规模真实文本,可以覆盖几乎所有语言现象, 可以克服语言学家总结语言规则的片面性和主观性,并使他们集中精力研究那些最常见的、在统计意义上最重要的语言现象.

传统语言学的分类

分析型语言
1.词基本没有专门表示语法意义的附加成分
2.形态变化少
3.语法关系靠词序、虚词来表示
4.例子:汉语、藏语

黏着型语言
1.词内有专门表示语法意义的附加成分, 一个附加成分表达一种语法意义,一种意义也基本上有一个附加成分来表达
2.词根或词干跟附加成分的结合不紧密
3.例子:日语

屈折型语言
1.用词的形态变化来表示语法关系, 一个形态成分可以表示若干种不同的语法意义
2.词根或词干跟词的附加成分结合得很紧密,往往不容易截然分开
3.例子:英语、德语、法语

1 0