信息检索

来源:互联网 发布:不要说的秘密知乎 编辑:程序博客网 时间:2024/05/14 19:05

搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在Web上。
信息检索与数据库系统的差别:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构。
主题模型:一个文本文档集的主题可以用词汇表上的概率分布建模。

文件类型检测
语言检测
检测文件语言类型检测特定字符
使用split()对文本内容进行区分,区分不同词语,进行标记
标记化

倒排索引

0 0