自然语言处理宗论 导论

来源:互联网 发布:知乎 恶魔的奶爸 编辑:程序博客网 时间:2024/05/01 22:45

自然语言处理宗论 导论

2013118

20:12

自然语言处理需要六个方面的知识:

语音学与音系学:处理自然语言的io

形态学:研究词 词的变种 词在环境下的意义

句法学:研究词之间的关系多个词组成的共同体的意义

语义学:研究语言的含义如何正确理解语言

语用学:如何用语言达成目的

话语学:研究大于话段的语言单位

 

自然语言的困难之处在于歧义

各个层面的自然语言处理都可以看成一定意义上的消解歧义。

 

PS:人理解自然语言时是如何消解歧义的??

人交流时真的消解了歧义吗??

For example : 不同领域的人交流时必然会产生歧义。两个使用相同语料库的计算机之间是可以“交流”的,而两个使用不同语料库的计算机必定造成误解。知识领域不同的两个人之间也会产生这种误解,如对某些词语的错误推断等。 但是人对于事务性问题不会产生歧义,该领域的结构性是很强的。计算机也容易做到理解。

同理,每个小团体“如大学的一个班级”会产生自己的独有语言。在形式上与人群使用的语言没有区别,但在语义和语用上会产生巨大的差别。也就是说完全相同的情况下,在不同的训练体系(人群中)是有重大歧义的。也就是说语言存在本性上的多解性或歧义性。

 

语言学知识应该用数学工具描述。主要包括状态机,形式规则系统,逻辑,和概率论等数学模型以及机器学习工具。

与这些过程模型对应的是陈述模型,包括:正则语法,正则关系,上下文无关语法,特征增益语法以及这些规则的相应概率变体。

 

 

状态机和形式规则常常与搜索相关。经常使用试探性的图论搜索算法。DP对于避免冗余计算是必须的。

 

获取语言信息的重要模型是逻辑。在该领域存在着谓词演算,特征结构,语义网络等形式化方法。

PS:强烈怀疑逻辑在语言中的主导地位。虽然计算机更加适合处理形式化的信息,但是人类更适合处理非形式化的信息。同时,非逻辑内容在语言交流中起到了至关重要的作用。也许非逻辑内容才是消除歧义的关键。 某些逻辑很差的人却能在语言方面展示非凡的天赋。

同样在社交场合大部分人往往不能预计自己的话语会产生何种后果,但这并没有影响日常的交流。

或许我们应该重新思考语言的意义。

 

各种模型的概率化使得机器学习成为可能。在歧义不可消除的情况下做出最优决定。

 

图灵测试

众所周知的 图灵测试

并非众所周知的ELIZA 仅仅依靠“简单的”模式识别算法就可以模拟一种特殊状态下的人的行为从而愚弄人。

思考:

. 是否可以通过多个比较简单的算法模拟特定行为模式下的人,通过组成多模式的系统完成对语言的处理。

. ELIZA所模拟的心理医生状态有着固定的套路。这种情况是否可以推广???

 

语言处理发展史:

两个阵营

四个范型

经验主义

整合

 

概率方法成为处理语言问题的标准方法。评测体系全面引入。硬件的发展使得商用成为可能,而互联网提出了对信息检索和抽取的要求。

 

在自然语言处理上可能会从人类自身得到重要的启发。

 

 

原创粉丝点击