词干提取算法Porter Stemming Algorithm解读

来源:互联网 发布:怎样注册卖家淘宝账号 编辑:程序博客网 时间:2024/04/27 17:53

转自:http://www.131x.com/zhaosq/BBSShow.aspx?id=1720

词干提取算法Porter Stemming Algorithm解读ClickNum:199|ReplyNum:2

  Lucene里面的分词器里面有一个PorterStemFilter类,里就用到了著名的词干提取算法。所谓Stemming,就是词干,在英语中单词有多种变形。比如单复数加s,进行时加ing等等。在分词的时候,如果能够把这些变形单词的词根找出了,对搜索结果是很有帮助的。Stemming算法有很多了,三大主流算法是Porter stemming algorithmLovins stemming algorithmLancaster (Paice/Husk) stemming algorithm,还有一些改进的或其它的算法。这个PorterStemFilter里面调用的一个PorterStemmer就是Porter Stemming algorithm的一个实现。 其主页为http://tartarus.org/~martin/PorterStemmer/,也可查看其论文http://tartarus.org/~martin/PorterStemmer/def.txt。通过以下网页可以进行简单的测试:Porter's Stemming Algorithm Online[http://facweb.cs.depaul.edu/mobasher/classes/csc575/porter.html]。

     网上找了好久,才找到一个对此算法解释的文章,它用的是Java版的代码,这里我改成用.net版的。主要是把里面的函数作了一下注释,个人没做什么分析,本身是想的,结果看着就头痛。下面的东西都是来自这篇博文波特词干算法,我只是把这里的代码改成了.net的。

     接下来,是一系列工具函数。首先先介绍一下它们:

  • cons(i):参数i:int型;返回值bool型。当i为辅音时,返回真;否则为假。
/// <summary>/// cons(i) 为真 <=> b[i] 是一个辅音/// </summary>private bool cons(int i){switch (b[i]){case 'a':case 'e':case 'i':case 'o':case 'u':return false;case 'y':return (i == k0) ? true : !cons(i - 1);//y开头,为辅;否则看i-1位,如果i-1位为辅,y为元,反之亦然。default:return true;}}

m():返回值:int型。表示单词b介于0和j之间辅音序列的个度。现假设c代表辅音序列,而v代表元音序列。<..>表示任意存在。于是有如下定义;
  • <c><v>          结果为 0
  • <c>vc<v>       结果为 1
  • <c>vcvc<v>    结果为 2
  • <c>vcvcvc<v> 结果为 3
  • ....
/// <summary>/// m() 用来计算在0和j之间辅音序列的个数/// </summary>/// <returns></returns>private int m(){int n = 0;//辅音序列的个数,初始化int i = k0;//偏移量while (true){if (i > j)//如果超出最大偏移量,直接返回nreturn n;if (!cons(i))//如果是元音,中断break;i++;//辅音移一位,直到元音的位置}i++;//移完辅音,从元音的第一个字符开始while (true)//循环计算vc的个数{while (true)//循环判断v{if (i > j)return n;if (cons(i))break;//出现辅音则终止循环i++;}i++;n++;while (true)//循环判断c{if (i > j)return n;if (!cons(i))break;i++;}i++;}}

vowelinstem():返回值:bool型。从名字就可以看得出来,表示单词b介于0到i之间是否存在元音。

/// <summary>/// vowelinstem() 为真 <=> 0,...j 包含一个元音/// </summary>/// <returns>[To be supplied.]</returns>private bool vowelinstem(){int i;for (i = k0; i <= j; i++)if (!cons(i))return true;return false;}
doublec(j):参数j:int型;返回值bool型。这个函数用来表示在j和j-1位置上的两个字符是否是相同的辅音。

/// <summary>/// doublec(j) 为真 <=> j,(j-1) 包含两个一样的辅音/// </summary>/// <param name="j"></param>/// <returns></returns>private bool doublec(int j){if (j < k0 + 1)return false;if (b[j] != b[j - 1])return false;return cons(j);}

cvc(i):参数i:int型;返回值bool型。对于i,i-1,i-2位置上的字符,它们是“辅音-元音-辅音”的形式,并且对于第二个辅音,它不能为w、x、y中的一个。这个函数用来处理以e结尾的短单词。比如说cav(e),lov(e),hop(e),crim(e)。但是像snow,box,tray就辅符合条件。

/* cvc(i) is 为真 <=> i-2,i-1,i* 有形式: 辅音 - 元音 - 辅音* 并且第二个c不是 w,x 或者 y.* 这个用来处理以e结尾的短单词。* e.g. cav(e), lov(e), hop(e), crim(e),* 但不是 snow, box, tray. */private bool cvc(int i){if (i < k0 + 2 || !cons(i) || cons(i - 1) || !cons(i - 2))return false;else{int ch = b[i];if (ch == 'w' || ch == 'x' || ch == 'y') return false;}return true;}

ends(s):参数:String;返回值:bool型。顾名思义,判断b是否以s结尾。

private bool ends(string s){int l = s.Length;int o = k - l + 1;if (o < k0)return false;for (int i = 0; i < l; i++)if (b[o + i] != s[i])return false;j = k - l;return true;}

setto(s):参数:String;void类型。把b在(j+1)...k位置上的字符设为s,同时,调整k的大小。

// setto(s) 设置 (j+1),...k 到s字符串上的字符, 并且调整k值void setto(string s){int l = s.Length;int o = j + 1;for (int i = 0; i < l; i++)b[o + i] = s[i];k = j + l;dirty = true;}

r(s):参数:String;void类型。在m()>0的情况下,调用setto(s)。

void r(string s) { if (m() > 0) setto(s); }

接下来,就是分六步来进行处理的过程。

第一步,处理复数,以及ed和ing结束的单词。

private void step1(){if (b[k] == 's'){if (ends("sses")) k -= 2;//以“sses结尾”else if (ends("ies")) setto("i");//以ies结尾,置为ielse if (b[k - 1] != 's') k--;//两个s结尾不处理}if (ends("eed"))//以“eed”结尾,当m>0时,左移一位{if (m() > 0)k--;}else if ((ends("ed") || ends("ing")) && vowelinstem()){k = j;if (ends("at")) setto("ate");else if (ends("bl")) setto("ble");else if (ends("iz")) setto("ize");else if (doublec(k))//如果有两个相同辅音{int ch = b[k--];if (ch == 'l' || ch == 's' || ch == 'z')k++;}else if (m() == 1 && cvc(k))setto("e");}}

第二步,如果单词中包含元音,并且以y结尾,将y改为i。代码很简单:

//如果单词中包含元音,并且以y结尾,将y改为iprivate void step2(){if (ends("y") && vowelinstem()){b[k] = 'i';dirty = true;}}

第三步,将双后缀的单词映射为单后缀。

/* step3() 将双后缀的单词映射为单后缀。* 所以 -ization ( = -ize 加上 -ation) 被映射到 -ize 等等。* 注意在去除后缀之前必须确保 m() > 0. */private void step3(){if (k == k0) return; /* For Bug 1 */switch (b[k - 1]){case 'a':if (ends("ational")) { r("ate"); break; }if (ends("tional")) { r("tion"); break; }break;case 'c':if (ends("enci")) { r("ence"); break; }if (ends("anci")) { r("ance"); break; }break;case 'e':if (ends("izer")) { r("ize"); break; }break;case 'l':if (ends("bli")) { r("ble"); break; }if (ends("alli")) { r("al"); break; }if (ends("entli")) { r("ent"); break; }if (ends("eli")) { r("e"); break; }if (ends("ousli")) { r("ous"); break; }break;case 'o':if (ends("ization")) { r("ize"); break; }if (ends("ation")) { r("ate"); break; }if (ends("ator")) { r("ate"); break; }break;case 's':if (ends("alism")) { r("al"); break; }if (ends("iveness")) { r("ive"); break; }if (ends("fulness")) { r("ful"); break; }if (ends("ousness")) { r("ous"); break; }break;case 't':if (ends("aliti")) { r("al"); break; }if (ends("iviti")) { r("ive"); break; }if (ends("biliti")) { r("ble"); break; }break;case 'g':if (ends("logi")) { r("log"); break; }break;}}

第四步,处理-ic-,-full,-ness等等后缀。和步骤3有着类似的处理。

/* step4() deals with -ic-, -full, -ness etc. similar strategy to step3. *///处理-ic-,-full,-ness等等后缀。和步骤3有着类似的处理。private void step4(){switch (b[k]){case 'e':if (ends("icate")) { r("ic"); break; }if (ends("ative")) { r(""); break; }if (ends("alize")) { r("al"); break; }break;case 'i':if (ends("iciti")) { r("ic"); break; }break;case 'l':if (ends("ical")) { r("ic"); break; }if (ends("ful")) { r(""); break; }break;case 's':if (ends("ness")) { r(""); break; }break;}}

第五步,在<c>vcvc<v>情形下,去除-ant,-ence等后缀。

//step5() takes off -ant, -ence etc., in context <c>vcvc<v>.//在<c>vcvc<v>情形下,去除-ant,-ence等后缀。private void step5(){if (k == k0) return; /* for Bug 1 */switch (b[k - 1]){case 'a':if (ends("al")) break;return;case 'c':if (ends("ance")) break;if (ends("ence")) break;return;case 'e':if (ends("er")) break; return;case 'i':if (ends("ic")) break; return;case 'l':if (ends("able")) break;if (ends("ible")) break; return;case 'n':if (ends("ant")) break;if (ends("ement")) break;if (ends("ment")) break;/* element etc. not stripped before the m */if (ends("ent")) break;return;case 'o':if (ends("ion") && j >= 0 && (b[j] == 's' || b[j] == 't')) break;/* j >= 0 fixes Bug 2 */if (ends("ou")) break;return;/* takes care of -ous */case 's':if (ends("ism")) break;return;case 't':if (ends("ate")) break;if (ends("iti")) break;return;case 'u':if (ends("ous")) break;return;case 'v':if (ends("ive")) break;return;case 'z':if (ends("ize")) break;return;default:return;}if (m() > 1)k = j;}

第六步,也就是最后一步,在m()>1的情况下,移除末尾的“e”。

// step6() removes a final -e if m() > 1.//也就是最后一步,在m()>1的情况下,移除末尾的“e”。private void step6(){j = k;if (b[k] == 'e'){int a = m();if (a > 1 || a == 1 && !cvc(k - 1))k--;}if (b[k] == 'l' && doublec(k) && m() > 1)k--;}
在了解了步骤之后,我们写一个stem()方法,来完成得到词干的工作。

public bool stem(int i0){k = i - 1;k0 = i0;if (k > k0 + 1){step1(); step2(); step3(); step4(); step5(); step6();}// Also, a word is considered dirty if we lopped off letters// Thanks to Ifigenia Vairelles for pointing this out.if (i != k + 1)dirty = true;i = k + 1;return dirty;}

最后要提醒的就是,传入的单词必须是小写。关于Porter Stemmer的实现就是这些.

需要测试数据这里是样本文件。而相应的输出文件在这里。更多内容请参考官方网站。

另外,波特词干算法有第二个版本,它的处理结果要比文中所介绍的算法准确度高,但是,相应地也就更复杂,消耗的时间也就更多。本文就不作解释,详细参考官方网站The Porter2 stemming algorithm。

这里有一个关于此算法的应用:WordCloud - A Squarified Treemap of Word Frequency

以上的解释转自前面所说的博客,你可以在本文最后的参考资料中找到链接.

这是整个PorterStemmer类的代码:

View Code

参考资料:

1.Porter stemming algorithm

2.波特词干算法

3.Lucene源码及自带的注释




0 0