从搜索引擎说起
来源:互联网 发布:淘宝搜索是什么 编辑:程序博客网 时间:2024/05/17 06:55
推荐这本书http://book.douban.com/subject/4861766/
最近在看的书:《这就是搜索引擎 : 核心技术详解》、《儒林外史》、《了凡四训》、《资治通鉴》、《倾城之恋》。
最近在以ES为基础在年前写一个搜索引擎,希望能对搜索引擎的整个架构(自己在做搜索当然必须了解),流程有个整体的了解和把握。首先搭建ES搜索引擎,引入IK中文分词器进行分词,把它以插件的形式集成到搜索引擎中。
配置elasticsearch.yml的时候有一个坑,注意缩进!否则配置不生效。
参照http://my.oschina.net/xiaohui249/blog/228748进行配置。
配置好后安装IK,如果使用IK最好下载es2.0,IK支持不了最新的es。
配置elasticsearch.xml,参照http://www.tuicool.com/articles/mMZfu2。
安装IK的资料网上挺多的,在此不赘述了。
上线也挺麻烦的,以后要规范自己的开发流程,总结一些经验和教训,注意版本迭代和问题回溯,理解每一段自己写的代码,业务不清的一定要问清楚,重要的事说三遍,注释!注释!注释!一定要写,否则隔一段时间自己都忘了代码的意义。
使用pip安装libffi libffi-devel,安装Twisted,w3lib,scrapy
安装成功后,duang!duang!duang!
[root@iZ2582ih5oqZ soft]# scrapyScrapy 1.0.3 - no active projectUsage: scrapy <command> [options] [args]Available commands: bench Run quick benchmark test commands fetch Fetch a URL using the Scrapy downloader runspider Run a self-contained spider (without creating a project) settings Get settings values shell Interactive scraping console startproject Create new project version Print Scrapy version view Open URL in browser, as seen by Scrapy [ more ] More commands available when run from project directoryUse "scrapy <command> -h" to see more info about a command
接下来就是开始使用scrapy开发我的分布式爬虫了
0 0
- 从搜索引擎说起
- 从Object_oriented 说起
- 从AFX_MANAGE_STATE(AfxGetStaticModuleState())说起
- 从“芙蓉姐姐”现象说起
- 不知从何说起
- 从jira说起
- 从AFX_MANAGE_STATE(GetStaticModuleState())说起
- 从辞职说起
- 从"爱因斯坦圆"说起
- 从PDCA说起
- 从被点到说起......
- 从大乘“六度法”说起
- 从AFX_MANAGE_STATE(AfxGetStaticModuleState())说起
- 从Proxy.newProxyInstance说起
- 从中医经络说起
- 从jira说起
- 从揣摩他人说起
- 从jira说起
- sdut_oj_3068 为了相同的前缀-方程式计算
- java数据类型图
- JSON版无限折叠菜单
- SUID SGID STICKY理解
- 赶走百度沙盒IP
- 从搜索引擎说起
- hdu_2844_Coins
- Deep Learning(大二)
- 黑马程序员------set和TreeSet的使用和原理
- 引言一
- [Mac入门]如何在Mac下显示Finder中的所有文件
- java多线程学习(六)---Thread其它方法
- mac pro 环境变量的配置 (当不存在 .bash_profile 文件的时候)
- mac 关于向.bash_profile插入内容