搜索引擎学习-概述

来源:互联网 发布:源码交易平台源码 编辑:程序博客网 时间:2024/05/18 02:52

定义

互联网上搜索,通过文本匹配,采取一些手段找到最好的信息

结果衡量

  • 相关性-结果与query的匹配,结果与用户需求的匹配
  • 权威性-结果被引用次数(超链),链接分析
  • 时效性-结果对用户是有用新鲜的
  • 多样性-根据用户行为返回丰富的结果(苹果?)
  • 个性化-地域、用户喜好
  • 反spam
可以抽象为1个打分公式:score = F(query, doc, user)

搜索步骤

数据的处理:
  1. 抓取网页(高效、实时)
  2. 建立网页库,存储数据(海量)
  3. 建立索引
  4. 信息抽取、特征生产
搜索的实现:
  1. query分析、切词
  2. 倒排索引
  3. 结果排序(相关性计算)
  4. 展现



问题

通过上面可以了解搜索引擎的基本流程和原理,但是具体实现并用于实际服务中,就会有各种问题需要解决:
  • 网页的发现、高效及时的抓取
  • 海量数据的存储和处理
  • 相关性的计算
  • query分析:
    • 基本分析(切词)- term重要性计算,查询模式,term紧密度分析;
    • 需求分析 - 需求扩展、时效性检查、需求类型识别
    • query变换
  • 对用户需求快速、稳定的响应
  • 丰富的展现
对于实现的介绍,见下篇文章。

2 0
原创粉丝点击