Solr的入门开发应用

来源：互联网发布：传奇游戏源码是什么编辑：程序博客网时间：2024/05/17 21:49

简介

介绍：Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。

使用目的：让你的系统查询更给力更高效。

搭建环境：

1. JDK 1.6 ;

2. Tomcat 6;

3. Solr 3.6;

搭建步骤:

1.tomcat 和solr放到windows 下 D盘（随便放,我是放D盘了）先打开tomcat server.xml修改下请求配置

<Connectorport="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443"URIEncoding="UTF-8"/> 防止URL乱码 Solr请求是get方式。

2. 在apache-solr-3.6.0\dist目录下找到apache-solr-3.6.0.war把重命名为solr.war 并放到 tomcat/webapps下

3.在conf/Catalina/localhost文件夹下创建solr.xml

<?xml version="1.0" encoding="UTF-8"?>

</Context>

4.把apache-solr-3.6.0\example目录下的solr文件夹上传到D:/solr目录下.索引文件会默认会放到 tomca\solr\data下.

这里打D:/solr/conf/sorlConfig.xml

找到-><dataDir>${solr.data.dir:D:/solr/data}</dataDir>把solr.data.dir改成 D:/solr路径

5.重启tomcat 打开 http://localhost/solr/ 会看到Welcome to Solr ! 部署Solr服务器成功

solr 3.5与IKAnalyzer 3.2.8分词的整合

1.下载IKAnalyzer

http://ik-analyzer.googlecode.com/files/IKAnalyzer3.2.8%20bin.zip

2.添加IKAnalyzer3.2.8.jar

把IKAnalyzer3.2.8.jar放到tomcat\webapps\solr\WEB-INF\lib下;

3.Schema.xml 增加信息

进入目录编辑schema.xml文件，在<Types>下添加以下内容：（在D:/solr/conf下）配置分词fieldType类型

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

</fieldType>

4.然后在<fields>下添加

5.重新tomcat 在浏览器中输入： http://localhost/solr/analysis.jsp; 进去 solr admin 显示：

客户端开发 Solrj

Solr是搭建好的lucene服务器当然不可能完全满足一般的业务需求可能要针对各种的架构和业务调整这里就需要用到Solrj了

Solrj是Solr提供的api库可以进行Solr 的二次开发。

主要实现原理服务端利用httpClient发送Solr格式的HTTP请求到Solr服务器然后服务器根据请求去找索引（当然你要先针对数据源创建索引）最后返回SolrDocument. 然后你再进一步处理高亮排序等功能。

1. 创建连接

HttpSolrServer solrServer = SolrServiceConfiger.getInstance().getServer();

//这里创建的一个HTTP请求用的4.1的JAR Solr3.6之前用的CommonHttpSolrServer.新版改成这个类了创建一个单例服务。

2. 创建索引

/***

* 创建Solr索引通过指定的实体

public void create(T t) {

SolrEntityBinder binder = new SolrEntityBinder();//这里这个类是源码DocumentObjectBinder处理类这里为了实体转换改写了里面一些判断后面会讲到剩下没改过

SolrInputDocument doc = binder.toSolrInputDocument(t); //把你的实体对象转换成Solr输入文档对象

try {

solrServer.add(doc);//添加文档

solrServer.commit();//提交请求

} catch (SolrServerException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

3 .删除索引

/**

* 删除指定ID的索引

public void delete(PK id) {

try {

solrServer.deleteById((String)id );//直接根据ID删除 solrServer.deleteByQuery("*:*");删除所有

solrServer.commit();

} catch (SolrServerException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

4.修改索引

直接先删除后创建

5.查询索引

public Page<Demo> luceneSearch(String content,Page<Demo> page) {

String id = null;

try {

HttpSolrServer server = SolrServiceConfiger.getInstance().getServer();// 创建服务 */

SolrQuery sQuery = new SolrQuery(); // 创建solr查询对象

String para="";

if(StringUtils.isNotEmpty(content)){ // 拼接solr查询条件

para ="company:"+content;

}

if(!StringUtils.isNotEmpty(para)){

para="*:*";

}

sQuery.setQuery(para)

.setStart((page.getPageNo()-1)*page.getPageSize())

.setRows(page.getPageSize());

//设置高亮

sQuery.setHighlight(true); // 开启高亮组件

sQuery.addHighlightField("company");// 高亮字段

sQuery.setHighlightSimplePre("<font color='red'>");//标记，高亮关键字前缀

sQuery.setHighlightSimplePost("</font>");//后缀

sQuery.setHighlightSnippets(2);//结果分片数，默认为1

sQuery.setHighlightFragsize(1000);//每个分片的最大长度，默认为100

sQuery.setFacet(true).setFacetMinCount(1)

.setFacetLimit(5)//段

.addFacetField("company");//分片字段

//返回结果

QueryResponse response = server.query(sQuery);

//得到文档列表

SolrDocumentList list = response.getResults();

//得到总数设置

Integer counts=(int) list.getNumFound();

page.setTotalCount(counts);

//得到高亮数据

Map<String,Map<String,List<String>>> highlightMap=response.getHighlighting(); //得到高亮集合

//创建对象转换对象

DocumentObjectBinder binder = new DocumentObjectBinder();

//转换对象

List<Demo> demoList= binder.getBeans(Demo.class, list);

//设置高亮结果

for(Demo d :demoList){

id = d.getId();

List<String> companyList = highlightMap.get(id).get("company");

if(companyList!=null&&companyList.size()>0){

d.setCompany(companyList.get(0));

}

//返回结果

page.setResult(demoList);

} catch (Exception e) {

e.printStackTrace();

}

return page;

}

常见问题

1. org.apache.solr.client.solrj.SolrServerException:

Timeout occured while waiting response from server at: http://localhost/solr请求超时

解决方法：设置setConnectionTimeout和setSoTimeout为1分钟

2. org.apache.solr.common.SolrException: undefined field text

解决方法：设置solrConfig.xml <str name="df">id</str> 默认是text

3. org.apache.solr.common.SolrException: Invalid Date String时间格式化问题

主要是Solr使用的是标准的格林威治（GMT）时间这种（yyyy-MM-dd'T'HH:mm:ss.SSS'Z'）北京在东八区默认时间会-8小时

所以为了满足他这个减8 我的做法是在创建索引格式化日期类型的时候判断下把它时间+8 。

所以重新创建一个SolrEntityBinder类此类是完全copy的DocumentObjectBinder. 只修改了一处。

修改了类中toSolrInputDocument方法

//判断是否是日期-------------///

if(field.type==Date.class){

Date d = (Date)field.get(obj);

Calendar cal = Calendar.getInstance();

cal.setTimeInMillis(d.getTime());

cal.add(Calendar.HOUR, 8);

d = cal.getTime();

doc.setField(field.name,d,1.0f);

}else{

doc.setField(field.name, field.get(obj), 1.0f);

}