使用Spark MLlib 完成新闻自动分类
来源:互联网 发布:乐陵淘宝客服 编辑:程序博客网 时间:2024/06/16 22:21
写在前面
最近学习了一点文本挖掘相关知道,刚刚接触到一点皮毛,刚好学了点Spark,所有就找个了小例子玩了一下,算法和实现都不太难,比较适合看公式一脸蒙逼,无聊想来点实际性Demo玩一下
基本流程
如图所示为新闻自己分类的基本流程,其中主要包含以下几点
语料
分类语料库用搜狗实验室http://www.sogou.com/labs/的数据,语料库中共10个分类,总计50多万条记录,每条记录由对应的分类编号加对应关键词组成,语料库中格式如下
0,苹果 官网 苹果 宣布 ...1,苹果 梨 香蕉 ...其中0 汽车1 财经2 IT3 健康4 体育5 旅游6 教育7 招聘8 文化9 军事
TF-IDF
TF-IDF这个特征算法是比较简单的,用来简单提取特征值学习一下还是可以的,具体算法可以百度一下,Spark 官网也有介绍:中文,英文,博客
朴素贝叶斯分类器
朴素贝叶斯分类器主要根据贝叶斯概率公式计算事件之间的概率,基本算法原理可以参考博客
Spark 教程 英文 ,中文
新闻数据
这里的新闻数据是用来分类的,可以从互联网上爬取,我里我自己准备了点数据,数据以JSON格式存储,格式如下
{"topicurl":"http://zzhz.zjol.com.cn/system/2017/06/08/021530999.shtml","is_topic":"0","newsid":"021530999","sub_title":"http://xinpan.zzhz.zjol.com.cn/zhhq/20170604/","pub_time":"2017-06-08 14:53","source":"","title":"点评:6月4日,杭州主城区商品房共成交69套。截至4日22:00,主城区可售房源为40325套。"}{"topicurl":"http://zzhz.zjol.com.cn/system/2017/06/08/021530997.shtml","is_topic":"0","newsid":"021530997","sub_title":"http://xinpan.zzhz.zjol.com.cn/zhhq/20170607/","pub_time":"2017-06-08 14:49","source":"","title":"7日:主城区成交200套 余杭萧山富阳315套"}{"topicurl":"http://zzhz.zjol.com.cn/system/2017/06/08/021530996.shtml","is_topic":"0","newsid":"021530996","sub_title":"http://xinpan.zzhz.zjol.com.cn/zhhq/20170606/","pub_time":"2017-06-08 14:49","source":"","title":"6日:主城区成交208套 余杭萧山富阳243套"}
文章预处理
这里主要是针对从网上爬过来的新闻数据进行格式转换和分词操作,分词器使用ansj_seg GitHub地址 https://github.com/NLPchina/ansj_seg
经过预处理后,新闻数据就成了一个由关键词组成的文档
主要代码
主流程代码
def main(args: Array[String]): Unit = { //创建sparkSession val sparkSession = SparkSession.builder .config("spark.sql.warehouse.dir", "D:\\WorkSpace\\spark\\spark-learning\\spark-warehouse") .master("local") .appName("spark session example") .getOrCreate() val trainRdd = sparkSession.sparkContext.textFile("E:\\file\\res\\allType.txt").map(x => { val data = x.split(",") (data(0), data(1)) }) //IT-IDF val trainTFDF = toTFIDF(sparkSession, trainRdd) //标示点 var trainPoint = trainTFDF.map { x => LabeledPoint(x._1.toDouble, Vectors.dense(x._3.toArray)) } //训练模型 val model = NaiveBayes.train(trainPoint) //保存模型数据 // model.save(sparkSession.sparkContext,"E:\\model") // val model=NaiveBayesModel.load(sparkSession.sparkContext,"E:\\model") //加载新闻数据 val testData = loadTestData(sparkSession, "E:\\zjol\\21531000.json") //TF-IDF val testDataTFIDF = toTFIDF(sparkSession, testData) //测试分类 val res = testDataTFIDF.map({ x => { (x._1, model.predict(Vectors.dense(x._3.toArray))) } }) //新闻ID,分类 res.foreach(x => println(x._1 + " " + x._2)) }
特征提取
/** * 对RDD新闻进行TF-IDF特征计算 * @param rdd * @return */ def toTFIDF(sparkSession: SparkSession, rdd: RDD[Tuple2[String, String]]) = { val df = rdd.map(x => { Row(x._1, x._2) }) val schema = StructType( Seq( StructField("category", StringType, true) , StructField("text", StringType, true) ) ) //将dataRdd转成DataFrame val srcDF = sparkSession.createDataFrame(df, schema) srcDF.createOrReplaceTempView("news") srcDF.select("category", "text").take(2).foreach(println) //将分好的词按空格拆分转换为DataFrame var tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words") var wordsData = tokenizer.transform(srcDF) wordsData.select("category", "text", "words").take(2).foreach(println) val hashingTF = new HashingTF(Math.pow(2, 18).toInt) val tfDF1 = wordsData.rdd.map(row => { val words = row.getSeq(2) (row.getString(0), row.getString(1), hashingTF.transform(words)) }) val tfDF = wordsData.rdd.map(row => { val words = row.getSeq(2) hashingTF.transform(words) }) val idf = new IDF().fit(tfDF) val num_idf_pairs = tfDF1.map(x => { (x._1, x._2, idf.transform(x._3)) }) num_idf_pairs.take(10).foreach(println) num_idf_pairs }
数据预处理
/** * 加载测试json新闻数据 * @param sparkSession * @param path * @return */ def loadTestData(sparkSession: SparkSession, path: String) = { val df = sparkSession.read.json(path) df.printSchema() df.createOrReplaceTempView("news") val sql = "select author,body,is_topic,keywords,newsid,pub_time,source,sub_title,title,top_title,topicurl from news" val rdd = sparkSession.sql(sql).rdd.map(row => ( row.getString(4).substring(1).toLong, row.getString(8), getTextFromTHML(row.getString(6)) ) ).filter(x => (!x._2.equals("") && !x._3.equals("") && x._3.length>200 )) val newsRdd = rdd.map(x => { val words = ToAnalysis.parse(x._3).getTerms var string = "" val size = words.size() for (i <- 0 until size) { string += words.get(i.toInt).getName + " " } (x._1.toString, string) }) newsRdd } /** * 抽取HTML中文字 * @param htmlStr * @return */ def getTextFromTHML(htmlStr: String): String = { val doc = Jsoup.parse(htmlStr) var text1 = doc.text() // remove extra white space val builder = new StringBuilder(text1) var index = 0 while ( { builder.length > index }) { val tmp = builder.charAt(index) if (Character.isSpaceChar(tmp) || Character.isWhitespace(tmp)) builder.setCharAt(index, ' ') index += 1 } text1 = builder.toString.replaceAll(" +", " ").trim text1 }
结果
结果数据以文章ID加分类编号组成
21530024 7.021530023 6.021530022 7.021530021 3.021530019 7.021530018 8.021530017 5.021530016 3.021530015 3.0
21530021 这篇新闻分类为3.0(健康),新闻如下 :
计算正确率
val testRdd = sparkSession.sparkContext.textFile("E:\\file\\res\\test.txt").map(x => { val data = x.split(",") (data(0), data(1)) }) //IT-IDF val testrainTFDF = toTFIDF(sparkSession, testRdd) //测试分类 val res = testrainTFDF.map({ x => { (x._1, model.predict(Vectors.dense(x._3.toArray))) } }) //新闻ID,分类 res.foreach(x => println(x._1 + " " + x._2)) //新闻总数 val allCount=res.count() //分类正确数量 val find=res.filter(x=>x._1.toDouble.equals(x._2)); find.foreach(x=>println(x._1+" "+x._2)) //8856 11533 println(find.count()+" "+allCount)
正确率为 76.9%
训练数据及测试数据 链接:http://pan.baidu.com/s/1skKR1GL 密码:qgn2
阅读全文
1 0
- 使用Spark MLlib 完成新闻自动分类
- 【Spark Mllib】分类模型——各分类模型使用
- spark mllib 相关使用
- Spark MLlib NaiveBayes 贝叶斯分类器
- spark/MLlib分类与回归、聚类
- Spark MLlib 1.6 -- 分类和回归篇
- Spark MLlib之分类模型源码分析
- spark MLlib之分类和回归
- spark mllib之分类和回归
- 基于Spark Mllib的文本分类
- 使用Spark MLlib的逻辑回归(LogisticRegression)进行用户分类预测识别
- 使用spark mllib 随机森林算法对文本进行多分类
- spark厦大----决策树分类器--spark.mllib
- Spark MLlib
- spark MLlib
- Spark MLLib
- Spark MLlib
- 使用spark mllib识别LED数字
- binder 2 用户空间数据结构间关系
- 滚动监听
- keepalived VS zookeeper
- spring集成mongodb
- x264编码----码率控制
- 使用Spark MLlib 完成新闻自动分类
- JSP shiro标签
- 响应式图片列表鼠标经过放大效果样式代码
- LeetCode:Edit Distance
- 求大神帮忙
- 两个链表数字相加
- ROC曲线-阈值评价标准
- Activity通知Fragment刷新列表获取控件为空的问题
- x264参数介绍(-,帧类型和码率控制)