提高增量搜索速度-制作可学习词库

来源:互联网 发布:windows 行为监控软件 编辑:程序博客网 时间:2024/05/02 17:49

前几天我发了有关数据库增量搜索的相关文章.但是其中还有不少的问题.例如当数据量达到一定数量后,对每个关键词的第一次搜索速度都是相当慢的.如果在存储过程中未处理好的话就会出现超时的现象,如何解决这个问题呢...
使用预搜索技术.
所谓的预搜索,是指用我们自己的程序把已知的关键词先通过程序搜索一遍,.就像我们在事先对信息进行了索引,知道每个关键词因该是那些信息,这样其他用户再次搜索的时候速度将会大大提升,那么我们怎么知道客户要搜索那些词汇呢?一个是用现有的词库,另一种是自己制作自己的词库.但是已有的词库可能很多词是我们没有用或者里面不包含的也可能是专业术语.所以我们就非常需要一个自己的词库,那么一个简单的词库如何制作呢?这个问题夜困扰本人了很长时间,但是这却是非常好解决的.只是我们谁也没有想到.
词库-需要包含我们常用的关键词,而这些词常常会包含在用户发布信息的标题之中,所以我们要对我们已有数据的标题进行处理,或者制作一个类似网络爬虫似的程序,从各种相关网站上"爬"回来相关信息以备处理,然后我们要使用分词组建对标题尽心分词,这样我们会得到很多的关键词,然后对这些关键词进行相关删除,比如"的,个,座"等这样无关紧要的词等等进行处理.为了关键词不重复,我们还要把已有的词库加载到一个哈希表中(为了加快处理速度),对先前处理好的词进行二次处理,将没有出现过的词添加到词库中,这样不断的积累,而且可以做成程序在服务器上定时提取些标题,这样词库会自己学习新的关键词.这样我们能针对自己已有的信息关键词进行词库的制作,而且词库不断的增加.如果加上程序自动的对词库中词的轮番搜索,我想这样能对"首次"搜索的陌生关键词数量大大减少,同时减少了服务器在用户使用高峰期的数据压力.

 
原创粉丝点击