从搜索引擎说起

来源：互联网发布：淘宝搜索是什么编辑：程序博客网时间：2024/05/17 06:55

推荐这本书http://book.douban.com/subject/4861766/

最近在看的书：《这就是搜索引擎 : 核心技术详解》、《儒林外史》、《了凡四训》、《资治通鉴》、《倾城之恋》。

最近在以ES为基础在年前写一个搜索引擎，希望能对搜索引擎的整个架构（自己在做搜索当然必须了解），流程有个整体的了解和把握。首先搭建ES搜索引擎，引入IK中文分词器进行分词，把它以插件的形式集成到搜索引擎中。

配置elasticsearch.yml的时候有一个坑，注意缩进！否则配置不生效。

参照http://my.oschina.net/xiaohui249/blog/228748进行配置。

配置好后安装IK，如果使用IK最好下载es2.0，IK支持不了最新的es。

配置elasticsearch.xml，参照http://www.tuicool.com/articles/mMZfu2。

安装IK的资料网上挺多的，在此不赘述了。

上线也挺麻烦的，以后要规范自己的开发流程，总结一些经验和教训，注意版本迭代和问题回溯，理解每一段自己写的代码，业务不清的一定要问清楚，重要的事说三遍，注释！注释！注释！一定要写，否则隔一段时间自己都忘了代码的意义。

使用pip安装libffi libffi-devel，安装Twisted，w3lib，scrapy

安装成功后，duang！duang！duang！

[root@iZ2582ih5oqZ soft]# scrapyScrapy 1.0.3 - no active projectUsage:  scrapy <command> [options] [args]Available commands:  bench         Run quick benchmark test  commands  fetch         Fetch a URL using the Scrapy downloader  runspider     Run a self-contained spider (without creating a project)  settings      Get settings values  shell         Interactive scraping console  startproject  Create new project  version       Print Scrapy version  view          Open URL in browser, as seen by Scrapy  [ more ]      More commands available when run from project directoryUse "scrapy <command> -h" to see more info about a command

接下来就是开始使用scrapy开发我的分布式爬虫了

0 0