django全文搜索学习心得(三)whoosh 篇
来源:互联网 发布:数据驱动安全2.0 编辑:程序博客网 时间:2024/06/04 18:52
转自:http://www.cnblogs.com/chang/archive/2013/01/10/2855321.html
上一篇是使用的solr,这篇主要介绍使用whoosh
基于djang-haystack,咱们可以自由切换搜索引擎了。
whoosh 的使用跟solr 基本一样 ,模板使用什么的都是一样的,主要是对whoosh 进行一些修改,让其支持中文。
settings.py 的配置
HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine', 'PATH': os.path.join(os.path.dirname(__file__), 'whoosh_index'), }, }
这里边使用主要参考http://blog.csdn.net/wenxuansoft/article/details/8170714 这篇文章,他给出了实际操作方法,很感谢啊。
创建中文分析ChineseAnalyzer.py,保存到haystack的安装文件夹\Lib\site-packages\haystack\backends里面。内容如下:
import jiebafrom whoosh.analysis import RegexAnalyzerfrom whoosh.analysis import Tokenizer,Tokenclass ChineseTokenizer(Tokenizer): def __call__(self, value, positions=False, chars=False, keeporiginal=False, removestops=True, start_pos=0, start_char=0, mode='', **kwargs): #assert isinstance(value, text_type), "%r is not unicode" % value t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs) seglist=jieba.cut(value,cut_all=True) for w in seglist: t.original = t.text = w t.boost = 1.0 if positions: t.pos=start_pos+value.find(w) if chars: t.startchar=start_char+value.find(w) t.endchar=start_char+value.find(w)+len(w) yield tdef ChineseAnalyzer(): return ChineseTokenizer()
然后将\Lib\site-packages\haystack\backends里面的whoosh_backend.py复制为whoosh_cn_backend.py,
打开whoosh_cn_backend.py进行修改。如下:
#在whoosh_cn_backend.py里面.........from ChineseAnalyzer import ChineseAnalyzer.............#然后找到build_schema函数处,这是一个构建分词模式的#找到schema_fields[field_class.index_fieldname] = TEXT(stored=True, analyzer=StemmingAnalyzer(), field_boost=field_class.boost)
将analyzer = StemmingAnalyzer() 更改为 analyzer = ChineseAnalyzer()
这样就算完工了。
运行
python manage.py rebuild_index 创建索引
python manage.py runserver 运行
打开浏览器 http://127.0.0.1:8000 搜索试试。
- django全文搜索学习心得(三)whoosh 篇
- django全文搜索学习心得(五) whoosh 精简版
- django全文搜索学习心得
- django全文搜索学习心得(一)haystack 篇
- django全文搜索学习心得(二)solr 篇
- django全文搜索学习心得(四)sphinx篇
- Django的全文检索功能(二):whoosh搜索引擎
- Django下用whoosh构建全文索引
- 实现Django的全文检索功能(一):选择Whoosh全文检索引擎
- 实现Django的全文检索功能(一):选择Whoosh全文检索引擎
- python全文搜索库Whoosh新手入门(一)安装教程
- python全文搜索库Whoosh新手入门(二)快速上手
- Django添加全文搜索功能入门篇
- Django添加全文搜索功能入门篇
- Django添加全文搜索功能入门篇
- Whoosh使用手册(Schema)(三)
- Django-haystack框架结合中文jieba分词和英文whoosh引擎实现全文检索功能
- Lucene全文搜索学习笔记(三)
- django全文搜索学习心得(二)solr 篇
- 如何让linux用户自定义的命令alias永久生效?
- WinUSB - 微软为所有 USB 设备提供的常规驱动程序
- spring data redis试用
- 搜索引擎技术介绍
- django全文搜索学习心得(三)whoosh 篇
- maven项目导入eclipse默认jre修改
- android EditText软键盘弹出控制
- django全文搜索学习心得(四)sphinx篇
- Java 单例模式探讨
- Oracle中删除外键约束、禁用约束、启用约束
- android调试初步(用eclipse 打断点调试 和使用logcat输出))(转)
- django全文搜索学习心得(五) whoosh 精简版
- Eclipse/My Eclipse 内存溢出解决方案