语义网的红旗到底能打多久?

来源:互联网 发布:数据库 使用表 编辑:程序博客网 时间:2024/05/17 09:14
 

1) 语义网的头10年(2001-2011),是成功的10年,也是失败的10年。语义网的后一个10年,要强调实事求是、群众路线和“武装”斗争。

2)语义网的头10年是成功的,因为10年前除了在少数专业领域(比如医学和生物),几乎没有对广大Web用户有价值的数据集的存在。在10年中,各种标准语言,如OWL, SPARQL, RIF, SKOS, RDFa等被制定出来,并出现了数以百计的实现。专门从事语义网相关产业的公司有上百家,而主要的大IT公司和很多传统领域公司都有相关的团队进行语义网的应用或者预研。现在,有很多的开放域数据可供我们使用,例如DBPedia, Freebase, 和几百个Linked Data数据集。这些数据集,在提高某些问题解决方案(比如问答系统)的实践中,被证明是有价值的。数以千计的语义网的研究和技术人员被培养出来并进行各行各业,一些人已进入了决策阶层。

3)语义网的头10年是失败的,因为它发展的速度大大低于预期和Web本身。Web在1991年出现后,短短3、4年就为决策层高度重视,到2001年时,已经产生了百亿美元以上的市场,并几乎改变了IT和非IT产业的游戏规则。大约到2001年前后,目前意义上的社交网络(Social Web)开始形成(代表性事件是wikipedia的建立和blog进入主流);到2011年,已经出现了数以千计的各种Social Web公司,十亿以上的用户和百亿以上的市场。语义网的成功,与Web本身或者Social Web,还有两个以上数量级的差别。2001年《科学美国人》上的文章,目前还被看成一种科幻。

4)语义网发展的相对缓慢,从宏观上,很大程度上源于三个脱离:脱离现实,脱离群众,脱离市场。近年来,已经有很多工作来解决这三大问题,但到目前为止,还是初步的。

5)说语义网脱离现实,是因为早期的语义网推动力,高校和W3C,集中注意力于技术的发展和规范。但是,一些实验室的方法无法推广到实际的Web应用去,例如如下问题:

  • 认为推理能力是必要的,并强调推理的完备性和正确性。这使OWL使用描述逻辑DL作为建模基础
  • 认为Web是分散的从而本体也是分散的和自主的,可以使用本体映射的方法来做数据集成
  • 认为用户会使用本体编辑器或某些标注工具来提供元数据
  • 认为用户可以进行简单的本体建模,如区分概念、关系和实例,建立概念分类树
  • 现有的工具(如推理机和语义数据库)无法处理Web级的数据(这直到最近一两年才得到改观)
  • 认为表达力的限制是制约语义网发展的核心问题(从而制定了OWL2和RIF)

6)相对的,语义网的发展,应该实事求是。应当放弃逻辑推理为主的想法。语义网的实现,应当是多种技术的综合使用,比如信息检索、机器学习、数据库、自然语言处理、数据采集、可视化等。推理在其中,是起到一个辅助的而不是主要的地位。应当从问题出发,探索既有技术的集成和发展,而不是从主义出发,至上而下规划技术的发展。从问题出发,就要多开发如IBM的沃森系统和TripIT(建立和旅行相关的元数据)这样的系统,在解决具体问题的过程中发现问题,解决问题。从主义出发,就是象OWL 2的制定一样,先定下技术基调,再通过OWL ED这样“自己人”的小圈子来寻找应用案例,最后用技术的考虑(例如推理的完备性和最差时间复杂性)而不是实际应用的考虑来决定取舍。应当重视Web工程系统的复杂性和现实数据的低质量性。Web科学和Web工程,如同化学和化工的区别,要考虑各种实验室中不会出现的问题。用户会“犯错”,数据必然是杂乱和充满噪声的,90%的正确率在实验室中是很好的结果而在应用中往往不可接受;绝大多数程序员还不能接受传统语义网技术(如RDF和OWL)所要求的知识建模能力;语义网技术规范集的复杂性超过了许多中小企业和开发团队的接受能力。具体如何制定可行的技术路线,应当从实践中来,到实践中去,大兴调查研究之风,而不是本本主义。某些W3C的工作组,制定Web的规范而几乎一个大Web公司的代表都没有,这是闭门造车,结果十九是碰壁。

7)说语义网脱离群众,是因为早期的语义网的“用户”,过多集中于特殊行业用户,如制药、医学、出版等大型企业和研究机构。从这些特定用户、特定案例获得的经验,难以推广到数以十亿计的普通Web用户那里。如何从普通用户那里获得数据?如何使语义网数据可以造福普通用户?长久以来,人们在呼唤语义网的“杀手级应用”,到目前为止还没有出现。我认为很重要的原因,就是脱离对普通用户的需求的关注,着眼的数据集既不是从普通用户那里来,也不是普通用户所需要的,哪里能建立好的、普通用户喜欢的应用?

8)语义网要走群众路线,就是要急群众之所急,想群众之所想。普通Web用户需要什么?衣食住行,饮食男女。找工作,有找工作的数据;买房子,有买房子的数据;炒股,有炒股的数据。看电影是数据,打电话也是数据;买菜是数据;治病也是数据。先有了语义网的数据,才有了语义网的应用。先有了语义网的高质量数据,才有了语义网的高质量应用。Social Web之所以成功,一是它利用了Web Form,解决了数据输入的门槛;二是利用了社交粘性,解决了数据发布的即时回报效用。语义网的高质量数据,也要首先降低结构化数据输入的门槛,使数据在用户的自然活动中产生并被采集、提取,甚至不一定需要键盘、鼠标或者触摸屏的输入;其次,要使用户在发布数据的短期内就可以得到回报,保持其数据发布的意愿。一个杀手级应用,设计之初就应当面向百万之上的用户,而且与普通人的日常生活相结合。群众是要分两亩地不是要共产主义;群众是要搜仓老师的作品而不是仓老师的foaf。

9)说语义网脱离市场,是说早期的语义网推广路线,不是依赖Web公司循序渐进,而是企图至上而下,事先规划了行业的发展方向。语义网是一种革命,好的革命的路线要也要有人事的配合,也要有“武装”的支持——这里的武装,就是市场,具体就是投资。作为规划,既要有远期(3年以上)的蓝图,也要有近期(6-12个月)的规划。Google和Microsoft等大公司在语义网技术的采用上是谨慎的,当然并不是保守的。他们通过并购的方式吸纳语义网的小公司(如Freebase和Powerset),并试图消化语义网的团队技术到他们的主流产品中,这是一种渐进而稳妥的方式。我们期待更多的这种并购出现,比如在Facebook或者LinkedIn。

10)语义网要坚持“武装”斗争,就是要充分利用现有的产业平台,而不是另起炉灶。要先降低姿态,以初级阶段的语义网技术来辅助现有的产业平台来提高某些应用的性能,也许只能有几个百分点的提高。关键是通过关键应用(比如搜索、广告和推荐)的这几个百分点的提高,起到语义网技术的示范作用。要让语义网的技术沾满铜臭,然后才能有进一步的良性循环。

11)总结:我认为,语义网的三个(还有其他n个)未来应着眼的重点是

  • 实事求是:放弃实验室思维,重视工程实践
  • 群众路线:面向普通用户采集数据,为普通用户开发应用
  • “武装”斗争:从人事和资金上,加强利用现有产业平台(主要是大Web公司),渐进实现技术-市场的良性循环
P.S. (2011-06-17) 中国革命开始的设想,是工人城市暴动。这个方法不是很成功。首先,在社会的主要组成群体还是农民的时候,工人不与农民相结合,不能有大的作为。其次,革命的武装,其主要成员必然是农民;在革命的早期阶段,也要根植与农村,提出农民可以接受的、可以理解的口号和政策。语义网的今天,“农民”和“农村”就是现有的最广泛的、面向普通Web用户的应用。现有的大多数“应用”,无论是Protege, Swoogle, Sindice, NCBO Index (2010 SWC winner), TrialX (2009 SWC winner),都不是为普通用户设计的。这一点应该在不久的未来得到改变。
P.S.2 (2011-06-18) 文中提到的决策层,既包括政府,也包括商业和各种非营利组织的政策制定者。语义网技术从开始到现在最主要的支持者就是美国军方,从DARPA, IARPA到ARL(Army Research Lab)。Data.gov计划和英国政府数据计划都是在政府的大力支持下展开的;这些计划,是争取了包括英国首相和美国CIO在内的高级政府官员才得以展开。
原创粉丝点击