solr增加相关总结
来源:互联网 发布:淘宝蛋糕店哪个好 编辑:程序博客网 时间:2024/06/04 00:39
这例子是我查询增量导入数据的例子,增量导入语句deltaQuery:select id from article where cdate>'${dataimporter.last_index_time} ,此语句是先查询所有增量id然后在拼接到deltaImportQuery="select id,title,catid from article where id='${dataimporter.delta.id}' 查询增量的数据,按照官方这种写法没错,但是我查到多少id就会发起多少请求去拼接,影响相率,何不一次性查询全部增量数据呢于是对查询语句进行了改造
<dataConfig>
<dataSource driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/blog" user="root" password="admin"/>
<document>
<entity name="article" query="select id,title,catid from article" deltaImportQuery="select id,title,catid from article where id='${dataimporter.delta.id}'" deltaQuery="select id from article where cdate > '${dataimporter.last_index_time}'">
<field column="id" name="id" />
<field column="title" name="title" />
<field column="title" name="suggest"/>
<entity name="category" query="select catname from category where id=${article.catid}">
<field column="catname" name="catname"/>
</entity>
</entity>
</document>
< /dataConfig>
增量
可以改造成deltaQuery 查询时只查询一次 sql语句改成select -1 id from dual,改造成这样增量时获取id结果只有一条数据,然后按照全量方式去一次性获取增量的数据,deltaImportQuery改造为select id,title,catid from article where cdate > '${dataimporter.last_index_time}'
改造后的完整语句
<dataConfig>
<dataSource driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/blog" user="root" password="admin"/>
<document>
<entity name="article" query="select id,title,catid from article" deltaImportQuery="select id,title,catid from article where cdate > '${dataimporter.last_index_time}'" deltaQuery="select -1 id from dual">
<field column="id" name="id" />
<field column="title" name="title" />
<field column="title" name="suggest"/>
<entity name="category" query="select catname from category where id=${article.catid}">
<field column="catname" name="catname"/>
</entity>
</entity>
</document>
< /dataConfig>
Solr增量索引配置
一、开始增量索引前的准备工作。
1、认识data-config.xml中相关属性
<!-- transformer 格式转化:HTMLStripTransforme表示 索引中将忽略HTML标签 --->
<!-- query: 查询数据库表符合记录数据 --->
<!-- deltaQuery:增量索引 查询主键ID ---> 注意这个query只返回ID字段
<!-- deltaImportQuery:增量索引 查询导入的数据 --->
<!-- deletedPkQuery:增量索引 删除主键ID查询 ---> 注意这个只返回ID字段
最主要的是我们要知道这样一个事实: last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)
我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。
2、数据库配置注意事项
1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql)
2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以
3、dataimporter.properties / {corename}_dataimporter.properties
在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。
这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:
在data-config中添加如下配置信息。
- <dataConfig>
- <!--- 此段话配置的是一个MySQL的数据源,(数据源也可以配置在solrconfig.xml中) ---> <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>
- <document>
- <entity pk="ID" dataSource="activityDB" name="myentity"
- query="select * from myentity WHERE isdelete=0"
- deltaQuery="select ID from myentity where my_date >'${dih.last_index_time}'"
- deletedPkQuery="select ID from myentity where isdelete=1"
- deltaImportQuery="select * from myentity where ID='${dih.delta.id}">
- <!-- ID指定大写的,与上面语句中的对应起来---->
- <field column="ID" name="id"/>
- <field column="name" name="name"/>
- <field column="address" name="address"/>
- <field column="age" name="age"/>
- <field column="my_date" name="my_date"/>
- <field column="isdelete" name="isdelete"/>
- </entity>
- </document>
- </dataConfig>
说明:
- <!-- pk="ID" 必须,因为其中的增量索引查询主键ID时需要 -->
- <!-- dataSource="acitvityDB" 这个引用名字是引用上面数据源的名字 -->
- <!-- name="myentity" 存在多个实体时,这个名字必须唯一 -->
- <!-- query:用于全量导入而非增量导入
- query="select * from myentity WHERE isdelete=0
- query查询是指查询出表里所有的符合条件的数据,因为我测试的有删除业务,所以
- where后面有一个限定条件isdelete=0,意思为查询未被删除的数据
- -->
- <!-- deltaQuery : 用于增量导入且只返回ID
- deltaQuery="select ID from myentity where my_date >
- '${dih.last_index_time}'"
- deltaQuery的意思是,查询出所有经过修改的记录的ID
- 可能是修改操作,添加操作,删除操作产生的
- -->
- <!-- deletedPkQuery : 用于增量导入且只返回ID
- deletedPkQuery="select ID from myentity where isdelete=1"
- 此操作只查询那些数据库里伪删除的数据的ID(即isdelete标识为1的数据)
- solr通过它来删除索引里面对应的数据
- -->
- <!-- deltaImportQuery: 增量导入起作用,可以返回多个字段的值,一般情况下,都是返回所有字段的列
- deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'"
- deltaImportQuery查询是获取以上两步的ID,然后把其全部数据获取,根据获取的数据
- 对索引库进行更新操作,可能是删除,添加,修改
- -->
注:如果有必要,则可以在schema.xml中添加一个timestamp的field
<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />
做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:
http://localhost:8983/solr/dataimport?command=delta-import 去做增量索引。更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler
当然也可以用Solr自带的Scheduler来做增量索引:
http://wiki.apache.org/solr/DataImportHandler#Scheduling
在浏览器中输入命令:
全导入:
http://localhost:8085/solr/core0/dataimport?command=full-import&commit=ture
增量导入:
http://localhost:8085/solr/core0/dataimport?command=delta-import&clean=false&commit=ture
查看导入状态
http://localhost:8085/solr/core0/dataimport?command=status
D、处理CLOB字段
<entity name=”meta” query=”select id,filename,content,bytes from documents” transformer=”ClobTransformer”>
<field column=”ID” name=”id” />
<field column=”CONTENT” name=”CONTENT” clob=”true” />
</entity>
ClOB 字段的 column 必须大写!!
E、DIH内存溢出错误
在使用DIH时,容易报内存溢出错误。可以通过设置jvm大小来解决。设置方法如下:
在tomcat\bin\startup.bat 加入SET JAVA_OPTS=-Xms128m -Xmx1024m 配置 这里设置的是1024M,根据情况可以适量增大
F、自动全导入和自动增量导入
此功能可以自己写程序实现,也可利用apache-solr-dataimportscheduler-1.0.jar包完成此功能。配置如下:
修改solr.war中WEB-INF/web.xml, 在servlet节点前面增加:
<listener>
< listener-class>
org.apache.solr.handler.dataimport.scheduler.ApplicationListener
< /listener-class>
< /listener>
将apache-solr-dataimportscheduler-.jar 中 dataimport.properties 取出并根据实际情况修改,然后放到 solr.home/conf (不是solr.home/core/conf) 目录下面
具体配置可参考:http://code.google.com/p/solr-dataimport-scheduler/
- solr增加相关总结
- Solr相关
- solr相关
- Solr 总结
- solr 总结
- solr学习相关链接
- solr 相关资料地址
- solr相关文章汇总
- solr相关配置
- Solr SolrCloud相关概念
- solr相关配置翻译
- solr数据分片相关
- 【solr基础教程之一】Solr相关知识点串讲
- 【solr基础教程之一】Solr相关知识点串讲
- 【solr基础教程之一】Solr相关知识点串讲
- 在线给solr增加core的方法
- solr索引增加字段的步骤
- Apache Solr 增加IKAnalyzer分词器
- servlet/filter/listener/interceptor区别与联系
- Hive Order By操作
- 生活——好玩的网站收藏
- 【MySQL】MySQL与IO
- Java虚拟机-JVM各种参数配置大全详细
- solr增加相关总结
- MyBatis的动态SQL详解
- poj-2253 Frogger
- 基于MFC完整的OpenGL框架步骤
- ssh 登陆 amazon ec2 怎样不用密码
- handler分析
- C语言及程序设计初步例程-42 将数据输出到文本文件
- 基于MyBatis3.0.6的基本操作介绍
- CentOS安装基本库和开发环境