在AI看来，什么是知识?

来源：互联网发布：python批量去水印编辑：程序博客网时间：2024/05/16 12:40

【作者：吴斌】

前言：

“知识”，不完全在于我知道什么，还在于你想知道什么。所以，"知识”的呈现，并不是单向的，而是双向的。可以说，在你问了合适的问题后，我进行回答后，才会有完整的“知识呈现”，在此之前，我也不知道“知识”到底应该是什么样的。

所以，研究"知识呈现"（也有个技术叫"知识图谱"）的时候，首先需要明确，用户想要的具体是什么。同时，系统自定义的单向输出的“知识”(预定义的知识图谱)，作用非常有限，作用可能仅限于给用户“看看”。只有在交互中，获取用户的真实目的后，反馈给用户的过程中，整合信息，产生问题答案的时候，才能真正体现出“知识”，才能真正知道，什么是“知识”，这个“知识”是无法预先设定的。

目前NLP中的一些困境，包括“知识图谱”，word2vec，等技术，都在假设“知识”是预先准备好的。但是，我认为，这是做不了的，哪怕你有海量的数据也是做不了的，因为，“知识”永远是在不断更新中，原有的知识很快会失效。系统预设的“知识”，现有的技术几乎都无法及时更新。而且，数据量越大，知识访问的效率和准确性就越低，完全无法满足真实需求。

出路：“知识”需要动态地进行构建。深度学习里面有个分支研究的是“神经记忆网络”，与这个内容有关，但是，目前阶段看，技术还非常不成熟，可控性很差。另外一个相关技术，是深度强化学习中的“经验回放”技术，这个技术主要是在缓存的经验中随机采样，打破数据的连续性，避免训练结果落入局部最小，可以认为是从经验中随机采样学习，而“经验”其实是知识的主要来源，不过，强化学习的应用场景有限，短期内很难看到大范围的突破。

实际上，我也不知道具体应该怎么做，但是，需要在双方的交互中动态地构建“知识”，这是我认为正确的方向。（这里的双方，包括人与机器，机器与机器，机器与环境。）我想，人类也是如此工作的，需要在人与人，人与机器，人与环境的双向交互中才能确认“知识”，在确认之前，只能保存数据和信息。

上图很好地描述了数据，信息，知识，智慧的层级关系。

现有IT系统，产生了“数据”。现有机器学习方法，可以抽取“信息”（比如自然语言中的实体抽取）。那么下一步，计算机怎么获取“知识”？

怎么定义知识是困难的，因为知识这个概念的边界是难以划定的。根据wikipedia的网络定义：“知识是对某个主题确信的认识，并且这些认识拥有潜在的能力为特定目的而使用。意指透过经验或联想，而能够熟悉进而了解某件事情；这种事实或状态就称为知识，其包括认识或了解某种科学、艺术或技巧。此外，亦指透过研究、调查、观察或经验而获得的一整套知识或一系列资讯。认知事物的能力是哲学中充满争议的中心议题之一，并且拥有它自己的分支—知识论。从更加实用的层次来看，知识通常被某些人的群体所共享，在这种情况下，知识可以通过不同的方式来操作和管理。”

我们可以抽取出“知识”的几个要点：1，是被验证过的事实。2，是多人相信的事件，是可以共享的信息。3，通过知识可以详细联想和了解某个事情。

根据中文造字规律去了解古人怎么理解知识：知，拆解为矢+口，矢就是箭，引申为准确达到目标。古人认为：说的准确，清晰表达目标，既为“知”。

识，繁体字的識拆解为言+戠，言就是语言描述，戠的意思是规则图案变化。古人认为：把事情的形状图案规则细节描述清楚，既为“识”。

综上所述，可以这么定义，“知识”是有目标，有范围的，被人们认同的事实，并且是可以清晰描述或关联到事情细节，可以被传递共享的信息。

计算机怎么获取知识？

1，知识工程 -- 基于规则，模板的结构化信息。

2，知识图谱 -- 基于图的信息呈现。

3，语义网 -- 基于RDF的信息和关系表示。

4，众包 --（维基百科之类）可能是更好的方式。

以上皆为人工或半自动方式的方法。真正自动化的方法在哪里？

知识是个分类问题？聚类问题？

分类的方式，只能后知后觉，人力成本高。聚类的方式，可以自动自发，但是难以实现。

机器学习的本质是在大量数据中学习到模式，然后进行模式匹配，而且，这种模式一般不是固定规律的，规定规律的模式，一经发现，就成为“XX公式”了。所以，机器学习的能力主要体现在非结构化数据上，比如图像，声音，自然语言。因为结构化数据，固定规则的算法即可搞定，机器学习的能起到的作用很小。而非结构化数据，基于固定规则是搞不定的，此时，通过统计学习方法，可以学习出一定的浅层规律（即模式），在一定范围内是可以用的，做泛化的模式匹配。

那么，知识，是结构化的数据，还是非结构化的数据呢？我认为，知识介于结构化和非结构之间，他在信息之上（非结构化数据提取），又在数据库之下（结构化的知识表示）。

在结构化数据之上去做知识提取，那是普通IT系统系统都能做的事情，那是基于业务需求去定义规则即可，机器学习作用不大。所以机器学习适合在信息提取（IE）之上，结构化数据之下去做知识抽取和生成。也就是说机器学习的用处在与，基于信息抽取的数据，完成信息结构化的应用目的。

但是，结构化的数据，这个结构是人来定义的（结构化可以理解为有很多属性的二维关系表）。所以，知识抽取，核心就是信息的关系抽取。即人来定义一些关系，比如，is a， a part of，等关系，由计算机来抽取这些关系。

传统非结构化文本的实体关系抽取技术方法归纳为：基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于 Ontology的关系抽取以及混合抽取方法，这些方法的综述参见文档《实体关系抽取的技术方法综述》。

阅读全文

0 0