[笔记-0]写在最前+笔记大纲

来源:互联网 发布:焓湿图软件手机版 编辑:程序博客网 时间:2024/05/17 18:45

0. 废话

上这门课半学期了,从刚开始的一头雾水,到现在非常喜欢它,收获很大。

教授是在这个领域很有经验,课程设计很合理,讲得也很有条理很清晰。Jamie人也超可爱的~

打算最近把前半学期的内容按照Jamie给的系统示意图中的模块整理出来,避免考完了就还给他了…

好啦,不多讲啦,开始正题~

-----------------------------------------------------------------------------------------------------

1. 总述


上图是search的大纲。


一个信息检索过程(information retrieval process)中:

  • 先从文档端开始看:

 原文档根据一些表示规则,选取出具有代表性的词汇(terms)描述这篇文档;

 这些terms通过一系列处理后形成搜索引擎系统的索引对象(index object)

  • 再从用户端(左边)开始看:

 用户首先要有信息需求(information need), 通过一系列的规则,用query描述他的信息需求;

query只是对信息需求的大概描述,它们两个是不同的~

  • 根据一些规则(如VSM,BM25,Indri等),选取出满足query的documents(retrieved objects),返回给用户;
  • 根据对返回结果的评估和反馈,可以:

1)改进query

2)改进选取返回结果的规则

3)改进索引的内容/结构等

2. 课程章节

1. Course Overview

术语;

文本的统计特性

2. Introduction to search: Exact-match retrieval 

文档表示,主要讲基本数据结构(对应右边的Representation);

Exact match检索(comparison)

3. Introduction to search: Query processing 

Index - term dictionary (右边的Representation);

Query处理(Comparison);

Query Operators(左边的representation/Query/Comparison)

4. Introduction to search: QryEval 

5. Evaluating search effectiveness (Evaluation)

Cranfield methodology(一种评价搜索引擎的方法论)

简介;测试集;评价指标

6. Evaluating search effectiveness (Evaluation)

创建测试集

动态环境(dynamic environment)中的系统评估

7. Document representation (右边的Representation)

8. Best-match retrieval: VSM, BM25(Comparison)

VSM

BM25

9. Best-match retrieval: Language models 

language model简介

Query likelihood

Kullback-Leibler(KL)Divergence

Indri

10. Query structure: Information needs and queries (Information need/Query)

信息需求

查询和查询语言

查询处理和查询重构(reformulation)

11. Query structure: Relevance and pseudo relevance feedback (Feedback)

Relevance feedback

Pseudo Relevance Feedback

12. Index creation(Index)

在单个processor上简历倒排列表

倒排文件的压缩与优化

前向索引 

13. Index creation(Index)

文档结构的存储

14. Index creation (Index)

Web搜索:Web文档集特征和计算机集群;

分布式索引:

Partitioned index

Tiered index

index construction

15. Document structure (右边Representation)

Fields

Multiple representations of meaning

Hierarchical structure(XML documents)



原创粉丝点击