自然语言处理宗论　导论

来源：互联网发布：知乎恶魔的奶爸编辑：程序博客网时间：2024/05/01 22:45

自然语言处理宗论　导论

2013年11月8日

20:12

自然语言处理需要六个方面的知识：

语音学与音系学：处理自然语言的io

形态学：研究词词的变种词在环境下的意义

句法学：研究词之间的关系多个词组成的共同体的意义

语义学：研究语言的含义如何正确理解语言

语用学：如何用语言达成目的

话语学：研究大于话段的语言单位

自然语言的困难之处在于歧义

各个层面的自然语言处理都可以看成一定意义上的消解歧义。

PS:人理解自然语言时是如何消解歧义的？？

人交流时真的消解了歧义吗？？

For example :　不同领域的人交流时必然会产生歧义。两个使用相同语料库的计算机之间是可以“交流”的，而两个使用不同语料库的计算机必定造成误解。知识领域不同的两个人之间也会产生这种误解，如对某些词语的错误推断等。　但是人对于事务性问题不会产生歧义，该领域的结构性是很强的。计算机也容易做到理解。

同理，每个小团体“如大学的一个班级”会产生自己的独有语言。在形式上与人群使用的语言没有区别，但在语义和语用上会产生巨大的差别。也就是说完全相同的情况下，在不同的训练体系（人群中）是有重大歧义的。也就是说语言存在本性上的多解性或歧义性。

语言学知识应该用数学工具描述。主要包括状态机，形式规则系统，逻辑，和概率论等数学模型以及机器学习工具。

与这些过程模型对应的是陈述模型，包括：正则语法，正则关系，上下文无关语法，特征增益语法以及这些规则的相应概率变体。

状态机和形式规则常常与搜索相关。经常使用试探性的图论搜索算法。ＤＰ对于避免冗余计算是必须的。

获取语言信息的重要模型是逻辑。在该领域存在着谓词演算，特征结构，语义网络等形式化方法。

ＰＳ：强烈怀疑逻辑在语言中的主导地位。虽然计算机更加适合处理形式化的信息，但是人类更适合处理非形式化的信息。同时，非逻辑内容在语言交流中起到了至关重要的作用。也许非逻辑内容才是消除歧义的关键。　某些逻辑很差的人却能在语言方面展示非凡的天赋。

同样在社交场合大部分人往往不能预计自己的话语会产生何种后果，但这并没有影响日常的交流。

或许我们应该重新思考语言的意义。

各种模型的概率化使得机器学习成为可能。在歧义不可消除的情况下做出最优决定。

图灵测试

众所周知的　图灵测试

并非众所周知的ＥＬＩＺＡ　仅仅依靠“简单的”模式识别算法就可以模拟一种特殊状态下的人的行为从而愚弄人。

思考：

１.　是否可以通过多个比较简单的算法模拟特定行为模式下的人，通过组成多模式的系统完成对语言的处理。

２.　ＥＬＩＺＡ所模拟的心理医生状态有着固定的套路。这种情况是否可以推广？？？

语言处理发展史：

两个阵营

四个范型

经验主义

整合

概率方法成为处理语言问题的标准方法。评测体系全面引入。硬件的发展使得商用成为可能，而互联网提出了对信息检索和抽取的要求。

在自然语言处理上可能会从人类自身得到重要的启发。

自然语言处理宗论 导论

自然语言处理宗论　导论