如何让用户直接获取想要的查询内容而不是一个个链接

来源:互联网 发布:锁定windows快捷键 编辑:程序博客网 时间:2024/04/28 19:14

 

问题摘要

用户通过搜索引擎检索信息时,存在一些问题:一方面可能搜索结果太多、信息泛滥,用户难以对检索内容形成直观、全面的了解;另一方面可能在搜索结果页的内容中,不直接包含用户所需要的答案,需要用户花更多精力去寻找、整理信息。

 

针对这样的情况,下面提出一种机器融合信息的概念,搜索结果不仅仅是直接的网页内容,还应该包含对众多搜索结果页的加工、融合、挖掘、推理,由机器生成一组页面,把信息更直观、全面、立体地展示给用户。

 

>> 问题背景

早期的网页内容,主要由各个网站工作人员编辑发布,信息量比较匮乏,很多时候用户找不到搜索问题的答案。随着用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户的发展,大量用户生成的内容极大地充实了互联网的信息量,但是也导致了如下的问题:一方面,信息泛滥,根据搜索引擎现有的排序、筛选技术,用户难以通过单一的查询,从众多搜索结果中形成对检索内容立体、全面的了解。

 

另一方面,在搜索过程中,用户的一些查询可能在互联网上任何一个网页都没有直接包含答案或不能全面覆盖答案,但通过数据挖掘、信息融合手段,能够通过现有网页整理出完整、全面的答案。

 

此外,一些网页对用户问题的答案可能存在不一致,这就需要系统具备自动过滤和甄别能力,把相对更准确的答案推荐给用户。

 

>> 当前的研究和技术现状

百度2009 年提出了框计算的概念——用户只要在“框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。这种高度智能的互联网需求交互模式,以及“最简单可依赖”的信息交互实现机制与过程,称之为“框计算”。框计算能够在搜索结果中直接展现用户想要的搜索结果。

 

经过这些年的发展,框计算已经在一些领域得到了实现,例如在百度搜索中输入天气,直接就可以在搜索中查看到当前的天气结果,而不需要点击链接再查看内容。当前框计算对一些热门的词条的展现效果较好,但是对其他的一些词条展现的不够立体。

 

当前有一些知识库构建技术,着眼于对于词条的各个属性字段进行扩展补充,形成对词条全面立体的诠释,但这种手段对知识来源的结构化程度要求较高,限制了知识库的规模。

 

>> 技术方案及关键点

使用机器融合信息(Machine Fused Information)的手段,对于一些需要立体展示信息的词条,建立智能知识库,不直接在知识库中记录全部内容,而是记录摘要并把相关搜索结果按照知识库字段进行分类。进而由机器自动生成一个信息融合页面,该页面能对与关键词相关联的各个属性有充分的说明。融合页可以作为一条搜索结果,和其它网页一样,在搜索结果列表中出现。

 

比如用户以名人的名字做检索关键词时,在信息融合页面中包含:该人物的生平、作品、图片、网上评价、搜索关注度等。在每条信息后面可以注释该信息的来源页面,用户可以点击进入信息来源页(设想图见附录中的图1)。如果该人是位娱乐明星,那么还可以融入音乐、视频、新闻等结果。如果用户以商品名称做检索关键词,机器生成的页面包括:产品参数、参考价格、销售情况、厂家信息、网友评论、评测文章、关注度及二手交易信息等(设想图见附录中的图2)。用户检索一个地名时,在信息融合页面中,包括:地图、周边设施、交通方式、网上评价等,根据该地名的类型,又可以有更多的栏目。对于楼盘名称,展示楼盘价格表、物管信息等;对于娱乐场所,可以展示消费水平等。

 

为了达成信息融合、建立智能知识库的目标,知识推理过程是必需的。知识推理过程需要以下技术:

 

1.  词条同一性分辨技术:在网页数据中,同一事物可能有多个名称(如缩略词、音译、地域称谓、年代纪元等),多个事物也可能有相同名称(如同名人物、同名作品、同名地理位置等)。需要通过周围信息进行判断,将不同名称、相同事物的相关描述,聚合到一起;把相同名称、不同事物的相关描述区分开来。

 

2. 网页结构化技术:分析网页反复出现的一些模式,与已知信息比对,通过已知信息在页面上的分布,解析网页的排版格式,理解某段文字或某个多媒体元素的含义。比如,通过表格元素与已知信息的比对,知道每一栏、每一列的含义;通过多个相似页面,发现网页某个位置的内容范畴。

 

3. 评价综合技术:

a. 感情色彩理解:通过一段用户评论的分析,理解用户对该事物是褒是贬,给出连续或二值褒贬分数,结合全网的评论,最终可得出所有网友对该事物综合评价;

b. 用户印象标签提取:综合与某事物共现得最多的描述性词条,得出网友对该事物的印象。

 

4. 相悖描述的甄别技术:搜索结果中可能存在完全相悖的答案,首先要能理解、发现搜索结果中对用户问题回答的不一致,其次根据各个网页的可信程度、包含答案的网页数量等,选择相对正确的答案,优先呈现给用户。

 

5. 逻辑顺序梳理技术:在同一页面中展示词条的相关信息时,需要把这些信息按一定顺序整理起来。比如,整合人物的生平事迹时,需要按时间先后顺序列出;展示地理信息的周边设施时,可以按照方位顺序呈现。

 

>> 实现后的价值

提供一种新的搜索结果呈现方式,把检索信息更立体、更清晰、更全面的展示给用户,使搜索结果对用户有更大的参考价值,让人们更加便捷地获取信息、找到所求。

原创粉丝点击