sphinx 其他的数据源

来源：互联网发布：tplink访客网络编辑：程序博客网时间：2024/05/16 09:52

有时候我们在开发的时候碰到的数据库不是  mysql  而是 mssql 或者 mongodb  等等。那么还能用 sphinx 。其实是可以的。俺公司遇到个就是要在  FB 系统下的sphinx 去索引 win 服务器下的mssql 。我是这样做的。废话不多讲了。给例子。。。。

核心单词： xmlpipe2 （通杀所有语言和数据库做sphinx 的问题）。  其实就是。你通过任何程序去  读取数据库信息然后构造一定格式的xml 文档让 sphinx 去建索引。就那么简单。

当时项目我用的是 python来实现。当然了 PHP 实现也很容易，为了预防返回的XML过大，所以PHP建议使用比较底层的xml解释器 :  xmlwriter 。

其实python 也有类似的库。叫： loxun 。是利用stringIO 来实现的。。

PHP 的请看官方推荐的办法：  http://jetpackweb.com/blog/2009/08/16/sphinx-xmlpipe2-in-php-part-ii/

python 的我就帖我写的  例子：  python -> mssql - > xml -> sphinx 。

# coding=utf-8
from loxun import XmlWriter
from StringIO import StringIO
import pymssql
conn = pymssql.connect(host=r'MySe2k', user='map', password='ci@com', database='CeMp',as_dict=True,charset='utf8')
cur = conn.cursor()
out = StringIO()
xml = XmlWriter(out)
xml.addNamespace("sphinx","http://www.beihai365.com")
#---docset
xml.startTag("sphinx:docset")
# --- schema
xml.startTag("sphinx:schema")
#--- field
xml.tag("sphinx:field",{"name":"content"})
#--- /field
xml.endTag()
#--- /schema
#-#--- wenwen--document
cur.execute('SELECT COUNT(*) FROM MapObjectInfo')
tj = cur.fetchone()[0]
pNum = 1000
cutSqlNum = pNum
_p = 1
zNum = 0
while True:
if (tj-zNum)<pNum:
cutSqlNum = tj-zNum
zNum = int(pNum * _p)
cur.execute('SELECT * FROM (select top %d* from (select top %d ID,Name from MapObjectInfo ORDER BY ID DESC)t1 ORDER BY ID)t2 ORDER BY ID DESC' % (cutSqlNum,zNum))
#print 'SELECT * FROM (select top %d* from (select top %d ID,Name from MapObjectInfo ORDER BY ID DESC)t1 ORDER BY ID)t2 ORDER BY ID DESC\n' % (cutSqlNum,zNum)
row = cur.fetchone_asdict()
while row:
if row['ID'] == 0:
row = cur.fetchone_asdict()
continue
xml.startTag("sphinx:document",{"id":row['ID']})
xml.startTag("content")
xml.text(row['Name'])
xml.endTag()
xml.endTag()
row = cur.fetchone_asdict()
_p = _p + 1
if zNum > tj:
break
#---#--- /wenwen /document
conn.close()
xml.endTag()
#--- /docset
xml.close()
print out.getvalue()

复制代码

然后在看下 sphinx 这边建索引配置(只是简单的测试例子，如果要用在生产环境，还需要做增量和区段查询等。。。。。 -_-!不过呢这个例子小站也可以用了~)：

source testxml
{
type = xmlpipe2
xmlpipe_command = python /tmp/testx.py
}
index testxml
{
source = testxml
path = /data/sphinx/testxml
docinfo = extern
morphology = none
min_word_len = 1
charset_type = utf-8
min_prefix_len = 0
html_strip = 1
charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
ngram_len = 1
ngram_chars = U+3000..U+2FA1F
}
indexer
{
mem_limit = 128M
}
searchd
{
port = 4412
log = /data/log/sphinxsearch/searchd.log
query_log = /data/log/sphinxsearch/query.log
read_timeout = 5
max_children = 30
pid_file = /data/log/sphinxsearch/searchd.pid
max_matches = 1000
seamless_rotate = 1
preopen_indexes = 0
unlink_old = 1
}

复制代码

那么有点同学问: 那 mongodb 和 sphinx 怎么弄？
这回童鞋们应该明白了吧。。如果还不明白当我没说过。。哈哈