《数学之美》摘录

来源:互联网 发布:移动网络电话机 编辑:程序博客网 时间:2024/04/28 06:43


【不定期过来加几句】

2016-12-12之前部分:

翻译这件事儿之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。

 

信息的冗余是信息安全的保障。

 

罗马数字编码方式:I代表1,V代表5,左侧为减,右侧为加,所以IV就是5-1=4,VII就是5+2=7。

 

阿拉伯数字的真正发明人是印度人,只是由阿拉伯人传入欧洲。

 

计算机是否有处理自然语言的能力?如果有,是否和人类一样?   (书里说Yes)

 

五六十年前对于人工智能和自然语言理解的认知:想要让机器拥有翻译或者语音识别的能力必须要让计算机理解自然语言,而要做到这一点必须要让计算机拥有类似于人的智能。(前面被称为“鸟飞派”,看鸟怎么飞然后模仿鸟造出飞机)  然而怀特兄弟造飞机靠的是空气动力学而不是仿生学。同样,而今的机器翻译和语音识别靠的是统计学而非真正理解多重语言。

 

语言里有语法规则,词性,构词法等等恰好能比较方便地用计算方法描述,坚定了大家对基于规则的自然语言处理的信心。

 

//但是每种规则都有很多特例。。而且很多时候规则树很庞大。。

 

规则处理自然语言的方法在上个世纪六十年代受挫,(The pen is in thebox和The box is in the pen)pen也可以表示围栏的意思。之后统计语言学的兴起使得自然语言处理重获新生。

 

语言模型中的二元模型:用来计算一句话出现的概率,统计一句话出现的概率其实是一件非常难的事情,故而马尔可夫提出了一种偷懒但有效的方法——只计算在前一个词出现的情况下下一个词出现的概率,这样串联起来一句话就可以计算一个句子出现的概率了。

/*在统计学没有大规模引入句法分析的时候分析句子是否合理其实很麻烦,但用统计学来看一些句子会合理很多,例如打乱一个句法合理的句子之后概率可能小五六个数量级。(虽然本身出现的概率只有-20的数量级)*/



0 0
原创粉丝点击