模式匹配的匿名函数

来源:互联网 发布:js 二维数组下表赋值 编辑:程序博客网 时间:2024/06/05 10:59

注:本文的例子来自http://danielwestheide.com/blog/2012/12/12/the-neophytes-guide-to-scala-part-4-pattern-matching-anonymous-functions.html,根据自己的理解改动了部分代码并记录下来。

1.二元组序列去掉词频太高或者太低的词

Word Count是大数据版的Hello World,实际项目中我们也有类似的需求。例如有如下的序列(本人比较懒,就沿用例子中的数据了):

val wordFrequencies : List[(String ,Int)] = ("habitual", 6) :: ("and", 56) :: ("consuetudinary", 2) :: ("additionally", 27) :: ("homely", 5) :: ("society", 13) :: Nil

如果我们想去掉高频词(大于25)与低频词(小于3),保留中频词,然后输出词本身,可以使用filter+map:

val res = wordFrequencies.filter(wf => wf._2 > 3 && wf._2 < 25).map(_._1)

这么做能够达到我们的目的。但是这样做不太好的地方就是访问元素的那一堆代码不太好看。尤其是_._1这种代码,可读性很差,让人摸不着头脑。

2.模式匹配匿名函数(Pattern Matching Anonymous Functions)

如果我们能解析出元祖中的那些字段,代码的可读性会强很多。scala里面提供了一种定义匿名函数的替代方法:模式匹配匿名函数是由一些case组成的以花括号包含的代码块作为函数体,不过代码块前面不带match关键字。我们用模式匹配匿名函数的方式来实现上面的功能:

    def wordFreFilter(wordFrequencies: Seq[(String, Int)]) : Seq[(String)] = {        wordFrequencies.filter { case (_, f) => f > 3 && f < 25 }.map { case (w, _) => w }    }

需要注意的是,里面的参数必须指定数据类型。因为scala编译器没有足够的消息来推断模式匹配匿名函数的类型。如果我们将后面Seq[(String, Int)去掉,IDE会直接提示:Missing type annotation for parameter:wordFrequencies。

上面有两个匿名函数,如果我们将两个两个匿名函数赋值给常量,会比较清楚得到他们的数据类型:

val predicate: (String, Int) => Boolean = { case (_, f) => f > 3 && f < 25 }val transformed: (String, Int) => String = { case (w, _) => w }

另外需要注意的一点是,定义类似的匿名函数并且将它们传递给其它函数,像我们的例子一样,你必须要确保针对所有可能的输入,你的匿名函数中必须有一个case能被匹配到并返回值,否则运行时可能抛出MatchError。