利用Lucene制作中文搜尋應用[摘]
来源:互联网 发布:排球扣球 知乎 编辑:程序博客网 时间:2024/05/17 02:10
之前討論過想要有自行組合新聞的BLOG軟件,這種軟件最重要的部份就是搜尋和相似度統計的功能。要自行制作一個功能完整又效能高的搜尋器絕不容易,幸好早有開放源碼的軟件替我們做此工作。
Apache Lucene
Apache Lucene是一個開放源碼的搜尋器引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。Lucene的最主要工作是替文件的每一個作索引,索引讓搜尋的效率比傳統的逐字比較大大提高,試想想google怎樣可以瞬即自全世界的文件中找到有關鍵字的網頁,但傳統的Windows檔案搜索卻常常要花半小時? Lucen提供一組解讀、過濾、分析文件、編排和使用索引的API,它的強大之處除了高效和簡單外,最重要的是使用者可以隨時應自己需要自訂其功能。
分析器
要為應用提高搜尋效率,不同語言,甚至不同類型的文章都需要特別的分析器(Analyzer)。Lucene 的分析器由分解器(Tokenizer)和過濾器(TokenFilter)組成,前者分割文字、找出文件中的最少單位(Token),後者過濾和改變輸入去方便處理。英語的文字分割簡單直接,但對於中文來說要有意義地分割則困難得多了。 雖然Lucene Sandbox Project下己有兩個可以分析中文的分析器 ChineseAnalyzer和CJKAnalyzer,但因為他們策略太簡單,各有不盡理想的地方。
中文詞語分割
以簡單句子為例:「我是中國人」,ChineseTokenizer會將之分割為五個中文字:「我、是、中、國、人」,CJKTokenizer則會將之分割為「我是、是中、中國、國人」四個二節的詞。前者的問題是沒有考慮中文詞語的問題,如搜尋「國中」一樣搜尋到「我是中國人」。後者的問題則是制做了大量沒意義的詞如「是中」「國人」,讓索引沒必要地增大、降低搜尋效率。理想的方法是按詞語分割,如「我、是 、中國人」,但要完美地分割中文卻很困難,多年以來直到現在都有無數的研究都在想有效的新方法。
如何研究更好的方法是一回事,實作一個足夠應用的分析器又是另一回事,要是不滿足於ChineseTokenizer和CJKTokenizer的簡單,又不想花時間研究,可以參考和應用前人所作的解決方案。
實作
管理線上中文工具網站的 Erik Peterson 開發了一個基於詞語的中文分割器。它的算法很簡單:準備一本中文詞典,將輸入的文章的每一字逐字和詞典比較,順序地找文章中可以對應詞語。例如「中國人」,首先找到「中」、找著找到「中國」、再找到「中國人」,分割器就會返回「中國人」作為Token。這種算法簡單但有效,字典用Tree實作的話效能也相當好,Eric的實作包括Perl和Java版本的程式。
怎樣應用這個分割器去制作Lucene的Tokenizer呢?當然我們可以研究它的算法自行寫一個實作Tokenizer介面的Segmenter Class,這樣效率最高但必須重寫整個程式。為了重用已有的資源,我的方案是先準備好輸入字串、經過segmenter分割成有空格的中文字,再用跟英文字一樣的用空格分割方法。
實作時發現以下一些問題(和解決方法):
- Segmenter要將整本字典放進記憶體的樹結構中,視電腦速度而定需要3秒到30秒準備,為了避免重覆這漫長過種使用了Singleton去產生Segmenter的實體,同時使用serialize的方法讓第二次執行時不用重新制作樹
- 原裝的StandardTokenizer設計以英語系為目標,原以為只要輸入有空格的中文即可分割中文,不過發現原來它對中日韓字體另有處理,它跟ChineseTokenizer一樣會把每個中文字當成一個token。幸好StandardTokenizer是使用JavaCC (類似YACC,是JAVA版的語言編譯器) 制作,只要更改原本StandardTokenizer.jj中的語法,把中文當作一般英文字母去處理就能達到原先的目標了。 (更改了的CStandardTokenizer.jj)
完成的Segmenter所造的index比CJK Analyzer或者Chinese Analyzer更少,但要注意由於要載入一個佔記憶體3M以上的大字典所以記憶體方面更求更高,而在分析少量文件時預載字典的overhead隨時比分析少,只有大量使用才會見到它的優點。
相關檔案:
- 源碼 (文字檔)
- 源碼和Ant的build檔
相關連結:
- Apache Lucene
- Lucene Tutorial
- Lucene的語彙分析與其擴充方式
- Chinese Word Segment @ google
- Lucene中的基本概念
- Lucene学习笔记(1)
- 在应用中加入全文检索功能
- lucene与搜索引擎技术
- 利用Lucene制作中文搜尋應用[摘]
- 利用Lucene制作搜索模块的思路及代码说明
- lucene中文索引初探
- Lucene中文分词
- Lucene中文分词“庖丁解牛”
- Lucene中文分词
- Lucene 2.3 中文分词
- Lucene中文分词
- Lucene中文分词
- lucene-NGram中文分词
- lucene-JE中文分词
- lucene 搜索不到中文
- GTAnalyzer-lucene中文分词
- lucene 分词处理中文
- Lucene整理--中文分词
- lucene中文分词
- Lucene与中文分词
- Lucene中文分词介绍
- 我对XNA发布的一些评论和看法
- 《程序员》第9期智慧擂台题目——高频词汇提取
- ASP.NET中为DataGrid添加单选框
- Windows2000/XP系统服务列表及说明
- CSDN style blue
- 利用Lucene制作中文搜尋應用[摘]
- Asp.net(C#)实现验证码功能
- asp.net 性能---asp.net performance
- JFreeChart 开发
- 常用单词
- 深度阅读(评点中国共享软件产业)
- 拿什么拯救你,我的爱人!?(内有粗口,慎入!)
- ToString 参数使用.
- 北大牛人跻身投行经历zz--生活:依然奔跑在路上——Tow的求职之旅(合集)