技术动态 | 知识可视化,连接和探究知识之间的联系!

来源:互联网 发布:mac删除酷我音乐 编辑:程序博客网 时间:2024/06/03 15:51

本文转载自公众号:东湖大数据交易中心。



大数据百人会线上沙龙  第八期

3月1日晚八点,大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生,分享他对可视化的理解,以及连接知识、探究知识之间的关系。


1
可视化
(以下是沙龙实录,以嘉宾第一人称讲述)


很高兴有机会能与大家交流,今晚想聊三块内容:可视化以及可视分析、Quid简单介绍以及我们团队目前在可视方向所做的简单尝试。


我们可以把可视化理解成用一个映射连接两个集合,一个集合是数据与信息,另一个集合是可视化的几个元素,包括形状、位置、颜色、大小等等,当把数据信息与可视化元素两个集合用一个映射联系起来,这就是可视化的构建过程。


如果从形象到抽象这个维度上对于可视化做一个划分,一端是形象代表性的是科学可视化,其中是流场可视化、科学可视化等等,科研人员在研究过程中面对大量的流场数据和生物医学数据,没有办法形成形象的认知,而可视化能够通过视觉表达,把流场数据、生物数据形象的表达出来,帮助科研人员在科研过程中能够更好的认知与探索。

这四张图是最具代表性的信息图:拿破仑东征图、伦敦地铁图、最早的饼状图、疫情与水源的分布图,这些可视化图意义明确、效果明显,所以被誉为经典案例。另外一端是抽象,例如思维导图、知识地图都属于这端,他们将数据与信息抽象对应于点和线,利用相对位置、大小、颜色等抽象的视觉元素进行信息和数据的表达分析。


2
可视化分析


可视分析可以从这几个方面来理解:


第一是数据方面,可视分析主要帮助用户掌握的数据是海量、动态、模糊、甚至相互冲突的,首先数据有些是结构化的,有的是半结构化的,有的甚至是非结构化的,数据还有不同的来源,有文献、专利、社会网络、新闻报道等。那么怎么让用户去把握这些数据,进而对数据进行探索与发现是可视分析系统需要解决的问题。


第二是可视分析的目的是什么,我们希望通过可视分析系统知道我们不知道的,然后同时发现我们不知道我们不知道的。


第三点是实时性,要达到分析目的就需要在数据层面上、分析层面上、展现层面上做到及时反馈用户的意图。


更进一步理解可视分析,在很多情况下人们试图去理解周边的事物,大到投资决策,小到购买一部数码相机,这都是一种信息行为,人们需要对周围的信息进行收集和整理、综合评估,再根据先验的知识将收集的信息重新构建新的知识来支持决策,那么用可视化的方法,将整个过程构建起来,让用户进行数据收集整理,用多种方法进行分析,再将结果可视化的呈现出来,随着用户不断的去迭代,最终有新的发现来支持决策,同时这个过程也是意义构建的过程。


当然,这个过程当中最具挑战性的是不确定性,首先是数据的不确定性,因为在探寻一个新问题的时候,你不知道要收集多少数据才算够,也不知道收集来的数据到底是什么样的质量;其次是分析方法的不确定性,因为你不知道用什么样的分析方法才能得到想要的结果;最后是结果的不确定性,你用这些不确定的数据、不确定的方法显然是不能得到一个确定的答案,所以说这是一个不断迭代的循环,是一个不断探索发现的过程,而不是给出一个答案。



我们需要不断提高用户的自由度才能应对这个不确定性,包括数据的自由度、分析方法的自由度、展示和交互的自由度。一个可视分析系统最终的目的是帮助人们进行信息的认知,其实从这个角度上我们也可以认为这算是认知计算的范畴。



这是曹老师对于文本可视化的一个架构总结,数据从非结构化到结构化是一个重点,怎么样让用户在分析的过程中能够实时的通过界面与数据与分析展示方法,进行不断的互动。 



左上角的是360和北大袁晓如老师构建的一个手机基站的分析系统,分析的数据包括手机基站中发送的文本信息、活跃程度、地理位置信息和时间等,他们构建这个系统是为了把数据和人的经验结合起来然后用来发现那些发送垃圾短信的伪基站;右上角是一个交通数据的系统,这个系统把交通流量、位置、信息、时间结合在一起,让用户多维度去发现这些数据;左下角是Quid,它帮助用户掌握科技前沿与趋势;右下角是谷歌的机器学习平台的多维数据的可视分析系统,用来对机器学习过程和结果进行展示和分析。


我们现在面临的信息环境是各种新闻报道、用户评论、深度分析报告、论文、专利……各种来源的数据、各种格式的数据、各种维度的数据很碎片化的信息环境,但我们可以通过可视分析帮助大家更高效率的认知爆炸信息。


3
“三个世界”理论


这是波普尔的三个世界理论:物质世界、人的精神世界和客观世界,人的精神世界就是你的思想、你的情感,理性和非理性,人的精神世界作用于物质世界形成客观知识世界,论文、专利、新闻报道、评论等等这些碎片信息都是属于第三世界,我们希望能够更好的掌握第三世界,更进一步认识改变物质世界。


首要做的是把这些非结构化数据通过一步步迭代变成干净数据、实体数据、图谱数据乃至加入语义,然后运用高阶科学例如社会计算的一些方法等等,让人们更好的认知、探索和发现,要实现这个目的只能通过人和机器结合的途径。


不同领域对于知识表示、知识表现的理解,左上角认知心理学研究的个体在心理和生理方面与知识的相互作用,最下面的是教育技术领域的知识可视化,思维导图、概念图或者知识地图都是属于这个领域,研究的是人和人之间利用形象化的知识表现促进知识流动,右上角是计算机领域的知识表示,研究的是人们怎么让机器理解知识。


其实教育技术领域的知识表示是可视化的部分,计算机领域的知识表示的数据部分,我们将数据信息知识抽象为实体,以及实体之间的关系然后对应于抽象的视觉元素,构建一套可视分析系统,可视分析这端面向人,关联数据面向机器,通过构造一个人机结合的系统帮助人们分析认知世界,从而更好的理解和影响物质世界。


4
关于Quid



美国的初创公司Quid成立于2010年,2015年进行了D轮融资,媒体称这家公司是量化分析公司,我想是他们是把无法量化的文本信息或者碎片化的信息量化出来了,Quid从文本到结构化数据再到可视化的过程,把非结构化数据进行一定程度的结构化然后加上分析方法再到可视化一条线贯穿下来。


他们的主要数据源包括新闻、社交网络的信息、公司信息、专利、论文以及用户评论等等这些文本信息,他们把这些文本信息中涉及到的源数据都抽取出来,例如新闻数据会把标题、来源、时间、地点、分享数量等等抽取出来用以后面的分析。


抽取出来后将碎片化信息构建体系,进行聚类和可视化给用户全局的把握,然后再提供各类工具让用户基于数据与分析方法做更多的探索和发现。


 

Quid在线视频领域公司地图简单分析,这个复杂网络图,图中每个节点代表一个公司,计算公司之间的相似度,根据相似度建立节点与节点的链接构建起复杂网络,进行布局与聚类得到这个图,图中绝对位置不重要,重要的是点和点之间的相对位置,如果一些点聚集在一起证明他们的相似度比较高,聚类和聚类之间我们用不同颜色进行表示,节点大小用我们计算到的估计的公司市值来代表。


进入quid首先是一个搜索页面,可以针对公司、新闻、专利等内容进行搜索分析。这次搜索的对象是在线视频公司。检索在线视频、流视频、在线TV、移动TV、交互式网络电视、内容分发这些标签,总共得到836条结果。选中所有公司,点击右上方蓝色的可视化按钮。即可进入分析工程,界面的左侧有一些选项可以根据时间、市值进行筛选。然后得到在线视频领域的公司相似度图谱,在这个页面中的操作面板可以对网络节点、连线的指标进行操作,包括节点代表的含义,颜色,大小,连线代表的含义都是可以调节的。信息面板主要显示公司数量、所有公司接受的投资总额,投资中位数,主要的投资并购、投资者等关键信息。


点击某一节点可以查看公司的相关信息,比如公司名称、业务描述、关键词、公司成立时间、接受的投资、公司所在地、公司类型、投资者等等。用户根据经验将划分出的很多聚类自定义合并为三类:数字媒体、基础设施、营销。


用户还可以在右上角的搜索框搜索Google和Comcast投资的不同的创业公司,可以看到Google活跃在广告和数字媒体领域,Comcast聚焦在基础设施领域。用户可以直接将这些分析结果导出成图片格式放在PPT里面。以上就是Quid通过分析得到的图片导入到的PPT。


系统还可以将相同的聚类划分的公司结合成一个节点,每一个节点代表一个细分领域,节点的标签是细领域的名称。这里同样可以把分析节点导出成图片。该系统可以按照细分领域进行统计。散点图颜色代表细分领域,横轴为公司成立时间的中位数,纵轴为收到的投资总额,节点大小代表细分领域的公司数量,可以看出基础设施公司为新的应用提供了基础,在早期获得了大量投资,从2006年起推动媒体和营销公司然后开始高速发展,基础设施是先导,获取了基本的投资需求之后然后是营销、社交媒体。


5
关于知珠传媒

我们将公司、新闻、专利、文献这些公开信息爬去下来,然后根据实体、文档、事件、关系和属性进行结构化,然后让用户基于可是分析系统进行探索和发现。用户可以通过不同的数据,不同的方法去发现新的东西,然后再根据结论反馈到数据和方法上进行不断迭代。


这是我们初步总结的可能有用的统计方法,我们目前正在把它实现出来,放在前端展示,用户就可以采用这些方法对数据进行探索。


我们根据范式理论发展让用户更好掌握趋势的方法。“范式”大家可以简单理解成框架或者体系,也就是在大家认同的框架下对一些现象进行解释、研究、应用、开展经济活动。不仅科学有范式,技术也有范式,技术经济也有范式,这些都是一脉相承的。


表格里是未来导向、技术分析的一些方法,包括引言分析、专利分析的具体应用,可以对科学与技术范式的转移进行描述。我们希望结合行业数据发展出更多的方法对技术经济范式进行描述、或是预测。


我们目前处于技术经济范式转移的时期,从两个现象可以印证:1.从2015年到现在,大量的公司合并或是被收购;2.风险资本出海,技术经济范式在本国发展到一定程度是会向外扩散的,这也就是风险资本出海的本质。



这是我们构建的金融创业公司的相似度图谱,我们根据一千多家金融创业公司的标签去计算他们的相似度,构成一个复杂网络,然后对它进行布局和聚类划分。在这里我们用算法把细分领域直接划分出来。


如果把投资公司也考虑到金融领域来,我们就可以构建创业公司和投资公司的投融关系图谱。图谱里面红色是创业公司,绿色是投资公司。他们以投融资关系构建成网络。投融资网络是根据时间不断变化生长的,我们希望能在变化生长中有一些发现,于是我们做了一个简单的尝试,在网络的演化中我们计算了每个节点在不同时间中的重要程度,然后进行排序。



这个是投资公司在网络演化中重要性程度的排名变化,它能反应出某些投资公司在这个领域的关注程度。这张图完全是用Excel和线条拼接出来的。在做可视化的过程中,我们有数据,有分析目的,可以先做一些草图然后去设想呈现方式。我们找到了一个适合做排名可视化的模板,现在我们根据这张图去做排名可视化。这样大家就可以在前端看到更好的效果。

最后给大家介绍四本书:第一本是复杂性科学的入门读物,后面三本分别是在讲科学范式,技术范式和技术经济范式。最后一本书在宏观角度上讲金融和产业资本在技术范式不断变化的过程中是怎样相互互动的,我认为对投资和创业都有一定启发。


  Q&A  


Q第张图中实体的关系、属性是如何建立的?

郝:关于实体与实体的关系如何得到,这需要分情况:1.如果爬去的数据是结构化的,比如说在网页上的呈现就是一张表,我们爬下它的数据就是结构化的。2.如果是文本数据,半结构化或者非结构化的数据,可能会需要用到自然语言处理中的命令实体识别,或者关系抽取。


当然我们现在爬去的数据大多都是结构化或者半结构化的,因为实体识别和关系抽取还没有办法解决所有的问题。


Q:可视化分析有什么工具吗?


郝:说到工具,其实是把实体或者关系抽取出来,或者是去做情感识别,这些是有一些API可以提供的。比如说:玻森数据、腾讯文治提供的服务可以解决一部分问题。


Q之前有看到NLPIR在线系统 (语义分析系统)和您讲的有什么区别?从知识图谱上看,关键词提取是一样的?


郝:我想应该这样去理解这个区别。我们现在的系统是构建给分析师用的,比如行业分析师。语义分析系统显然不是给分析师用的。然后你讲的关键词提取,是不是就是把实体提取出来,如果是这样的话,那就都是是一样的,都是把半结构化数据或者非结构化数据把它结构化,甚至加上一些语义变成知识图谱,这些东西不管是你提到的语义分析系统还是我们的系统中这都是一样的。






OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

原创粉丝点击