全文检索数据挖掘
来源:互联网 发布:詹姆斯2016赛季数据 编辑:程序博客网 时间:2024/05/17 22:21
1.全文索引
全文检索(Full-text Search):先建立索引,再对索引进行搜索的过程,搜索结果为匹配文本
一般过程:索引创建(Indexing)和搜索索引(Search)
- 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
- 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
- 停词(stop word):英文中没有任何意义的词,不创建索引
2.数据挖掘与数据仓库
数据挖掘(DM)
传统的数据库分析数据量太大后效率低,产生数据挖掘和数据仓库等新技术。数据挖掘功能:
1.自动预测趋势和行为
2.关联分析
3.聚类
4.概念描述
5.偏差检测
http://os.51cto.com/art/201012/238194.htm
数据挖掘之分词器:
1.基于词典分词(目前主流的分词方法,解决70~80%的问题,二元以上分词后查找字典直到找不到为止):正向最大匹配、逆向最大匹配、双向最大匹配、最佳最大匹配
2.基于语义分词(还不成熟)
3.基于统计分词(优先高频词汇)
http://www.csdn.net/article/2014-09-11/2821642-data-mining-by-Lanceyan
数据仓库(DW)
数据仓库是一个环境,组成包括:
数据抽数据净化 数据载入
信息发布系统
操作型数据和外界数据
数据集市
报表,查询, EIS工具
OLAP 工具
数据挖掘工具
操纵平台
元数据
管理平台
3.网络爬虫
建立URL和分词元数据的键值对,提供全文检索URL
http://www.cnblogs.com/elaron/archive/2013/07/24/3213333.html
http://www.admin10000.com/document/5250.html
4.Lucene
开源的搜索引擎库,提供全文索引方法
反响索引:词-文章键值对
倒排索引:倒过来,文章作为key值
Lucene建立索引五大类:
Document、Field、Analyzer(分词器)、IndexWriter、Directory
Lucene搜索:
Query、Term、TermQuery、IndexSearcher、Hits
http://blog.csdn.net/ceclar123/article/details/10150839
http://www.cnblogs.com/xing901022/p/3933675.html
http://lucene.apache.org/core/4_2_1/core/overview-summary.html(lucene api)
词库素材:
词库在网上很多如,QQ拼音、搜狗拼音等词库都已加密,可以找一些未加密的词库,导入lucene词库管理工具
5.Solr
参考:
http://my.oschina.net/apdplat/blog/228615?p=1(word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估)
http://3dobe.com/archives/44/(IK分词器原理与源码分析)
http://www.th7.cn/Program/net/201212/117929.shtml(Lucene.net全文检索架构)
http://blog.csdn.net/liuweitoo/article/details/8124440(Lucene)
- 全文检索数据挖掘
- 全文检索、数据挖掘、推荐引擎系列1---技术架构
- 全文检索、数据挖掘、推荐引擎技术架构
- 全文检索、数据挖掘、推荐引擎系列1---技术架构
- 全文检索、数据挖掘、推荐引擎系列1---技术架构
- 全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
- 全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
- 全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
- 全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用1
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用3
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用4
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用5
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用6
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用1
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用7
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- iOS开发中,修改了Xcode里面的头文件的解决办法
- linux常用操作命令
- Mysqladmin Mysql 管理工具
- 究竟什么样的对象才会是null?
- PHP 和 Python实现Project Euler 1、2题
- 全文检索数据挖掘
- 创业者需要知道的50句话
- oracle 12c rac gi 安装检测有Node Connectivity Failed报错
- NOIP2014 day2第三题 解方程
- 微博案例
- Hbase 0.94(基于hadoop1)迁移数据到hbase 0.98(基于hadoop2)
- DMA驱动程序设计
- swift笔记(2)
- epoll_event(cp:http://simple1110.blog.163.com/blog/static/4803296120118195856410/)