圣经经文搜索定位功能的考虑

来源:互联网 发布:免费的中国象棋软件 编辑:程序博客网 时间:2024/03/29 20:53

自己的圣经不熟,很多经文章节只知道大概,不知道确切怎么说,另外也记不住到底是在那卷书哪张哪节。因此需要电子版圣经搜索工具。

神同在网址( http://godwithus.cc/sites/)的“圣经查经”分类目录下现在收录了31个圣经相关的网站。自己常用的有bbintl.org,速度快,但是只支持但关键词搜索。bible.fhl.org,有原文字型和多语言对比,www.fuyincn.com有原文编号和引用,http://www.zhenlifuyin.com支持多关键词搜索(小于3个关键词),http://www.bodani.cn/
有很多的研经资料,REN弟兄的yawill.com更是非常的全和支持多关键词搜索(可以大于三个关键词),就是访问速度比较慢。

我尝试使用谷歌定制搜索进行圣经经文的模糊搜索定位godwithus.cc/bible,发现效果并不好。

因此再考虑。

前段时间看过关于分词技术,全文搜索,他要提高效率,但是汉语分词过于复杂且不准,其实谷歌定制搜索就是使用了这个技术的。

对搜索圣经工具的需求,我个人想有4个,

1 多关键词精确搜索 (bbintl.org只支持单关键字,不方便)。我经常是大概记得有句经文,但是忘记在哪里,也不确切的记得内容。

2 经文模糊搜索。

3 多关键词跨章节节搜索。这个有一定的需求,但是不高。

4 去除标点符号。例如”是就说是“,圣经中有两处,雅各说的是 ”是就说是“,但是耶稣说的是”是,就说是“,多了个逗号。

 

汉字虽然GB2312只有6763个双字节字和682个其他字型,GBK更多21003个双字节CJK汉字和883个图形符号,GB13030编码的字就更多,27484个汉字,但是汉语词汇量却大得惊人。

汉语一部普通的《新华字典》所收单字(含繁体、异体)是一万一千一百个左右,清初所编的《康熙字典》所收汉字是四万七千多个,最近出的《汉语大字典》所收汉字也才五万六千个。

第五版现代汉语词典收录词汇 全书收词约65000条。

而基督教词汇,通过整理基督教输入法的词汇,目前我有5千条(5091条),这5千条跟那65千条应该基本上不重合,因此如果要做主内全文搜索,要做分词,词库要至少7万条记录。

而圣经章节总共只有3万条(31102个记录)。

 

每一节平均算20个字,如果使用UTF-8编码,大概60个字节(每个字按照3个字节算)。

当然索引关键词所在存储空间会很小,但是,因为这些词会在很多地方被引用,比如平均被引用10次,每一次每个ID按照4个字节算,那么每个索引记录的字节大概50字节左右。

 

因此我觉得从效率上讲,对于单个关键词查询全文索引和LIKE应该差不多。

 

如果是对于多关键词查询,对于全文搜索,他还是要所有7万条记录,而对于LIKE,我只要从第一次查询的子集里嵌套查询即可,记录数应该可以减小到1000以下。

第三个关键字,更是这样。

所以多关键字查询,反倒是LIKE效率更高。

另外分词技术有很多难题还没解决,比如新词的考虑。

所以对于圣经经文定位功能,我觉得精确搜索更好。

当然如果不是圣经经文定位,查询百科博客主页空间论坛等,是要使用分词技术的。

原创粉丝点击