在AI看来,什么是知识?

来源:互联网 发布:python批量去水印 编辑:程序博客网 时间:2024/05/16 12:40

作者:吴斌】

前言:

 “知识,不完全在于我知道什么,还在于你想知道什么。所以,"知识的呈现,并不是单向的,而是双向的。可以说,在你问了合适的问题后,我进行回答后,才会有完整的知识呈现,在此之前,我也不知道知识到底应该是什么样的。

      所以,研究"知识呈现"(也有个技术叫"知识图谱")的时候,首先需要明确,用户想要的具体是什么。同时,系统自定义的单向输出的知识”(预定义的知识图谱),作用非常有限,作用可能仅限于给用户看看。只有在交互中,获取用户的真实目的后,反馈给用户的过程中,整合信息,产生问题答案的时候,才能真正体现出知识,才能真正知道,什么是知识,这个知识是无法预先设定的。

      目前NLP中的一些困境,包括知识图谱word2vec,等技术,都在假设知识是预先准备好的。但是,我认为,这是做不了的,哪怕你有海量的数据也是做不了的,因为,知识永远是在不断更新中,原有的知识很快会失效。系统预设的知识,现有的技术几乎都无法及时更新。而且,数据量越大,知识访问的效率和准确性就越低,完全无法满足真实需求。

     出路:知识需要动态地进行构建。  深度学习里面有个分支研究的是神经记忆网络,与这个内容有关,但是,目前阶段看,技术还非常不成熟,可控性很差。  另外一个相关技术,是深度强化学习中的经验回放技术,这个技术主要是在缓存的经验中随机采样,打破数据的连续性,避免训练结果落入局部最小,可以认为是从经验中随机采样学习,而经验其实是知识的主要来源,不过,强化学习的应用场景有限,短期内很难看到大范围的突破。

      实际上,我也不知道具体应该怎么做,但是,需要在双方的交互中动态地构建知识,这是我认为正确的方向。(这里的双方,包括人与机器,机器与机器,机器与环境。)我想,人类也是如此工作的,需要在人与人,人与机器,人与环境的双向交互中才能确认知识,在确认之前,只能保存数据和信息。


上图很好地描述了数据,信息,知识,智慧的层级关系。

 

现有IT系统,产生了“数据”。现有机器学习方法,可以抽取“信息”(比如自然语言中的实体抽取)。那么下一步,计算机怎么获取“知识”?

 

怎么定义知识是困难的,因为知识这个概念的边界是难以划定的。根据wikipedia的网络定义:“知识是对某个主题确信的认识,并且这些认识拥有潜在的能力为特定目的而使用。意指透过经验或联想,而能够熟悉进而了解某件事情;这种事实或状态就称为知识,其包括认识或了解某种科学、艺术或技巧。此外,亦指透过研究、调查、观察或经验而获得的一整套知识或一系列资讯。认知事物的能力是哲学中充满争议的中心议题之一,并且拥有它自己的分支知识论。从更加实用的层次来看,知识通常被某些人的群体所共享,在这种情况下,知识可以通过不同的方式来操作和管理。”

  我们可以抽取出“知识”的几个要点:1,是被验证过的事实。2,是多人相信的事件,是可以共享的信息。3,通过知识可以详细联想和了解某个事情。

   根据中文造字规律去了解古人怎么理解知识: 知,拆解为 矢+口, 矢就是箭,引申为准确达到目标。 古人认为:说的准确,清晰表达目标,既为“知”。

识,繁体字的識拆解为 言+戠,言就是语言描述,戠的意思是规则图案变化。古人认为:把事情的形状图案规则细节描述清楚,既为“识”。

 

综上所述,可以这么定义,“知识”是有目标,有范围的,被人们认同的事实,并且是可以清晰描述或关联到事情细节,可以被传递共享的信息。

 

计算机怎么获取知识?

1,知识工程  -- 基于规则,模板的结构化信息。

2,知识图谱  -- 基于图的信息呈现。

3,语义网    -- 基于RDF的信息和关系表示。

4,众包  --(维基百科之类)可能是更好的方式。

 

以上皆为人工或半自动方式的方法。真正自动化的方法在哪里?

 

知识是个分类问题?聚类问题?

分类的方式,只能后知后觉,人力成本高。聚类的方式,可以自动自发,但是难以实现。

 

机器学习的本质是在大量数据中学习到模式,然后进行模式匹配,而且,这种模式一般不是固定规律的,规定规律的模式,一经发现,就成为“XX公式”了。所以,机器学习的能力主要体现在非结构化数据上,比如图像,声音,自然语言。因为结构化数据,固定规则的算法即可搞定,机器学习的能起到的作用很小。而非结构化数据,基于固定规则是搞不定的,此时,通过统计学习方法,可以学习出一定的浅层规律(即模式),在一定范围内是可以用的,做泛化的模式匹配。

那么,知识,是结构化的数据,还是非结构化的数据呢? 我认为,知识介于结构化和非结构之间,他在信息之上(非结构化数据提取),又在数据库之下(结构化的知识表示)。

在结构化数据之上去做知识提取,那是普通IT系统系统都能做的事情,那是基于业务需求去定义规则即可,机器学习作用不大。所以机器学习适合在信息提取(IE)之上,结构化数据之下去做知识抽取和生成。也就是说机器学习的用处在与,基于信息抽取的数据,完成信息结构化的应用目的。

但是,结构化的数据,这个结构是人来定义的(结构化可以理解为有很多属性的二维关系表)。所以,知识抽取,核心就是信息的关系抽取。即人来定义一些关系,比如,is a, a part of,等关系,由计算机来抽取这些关系。

 

传统非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于 Ontology的关系抽取以及混合抽取方法,这些方法的综述参见文档《实体关系抽取的技术方法综述》。