使用SparkSQL分析CSDN泄露的用户数据[top-n]
来源:互联网 发布:楼体亮化设计软件 编辑:程序博客网 时间:2024/05/21 08:41
说明
CSDN泄露的用户数据的格式如下:
aaaaaaa # bbbbbb # xxxxxx@hotmail.comaaaaaaa # bbbbbb # xxxxxx@hotmail.comaaaaaaa # bbbbbb # xxxxxx@hotmail.comaaaaaaa # bbbbbb # xxxxxx@hotmail.com___csdn_1aaaaaaa # bbbbbb # xxxxxx@hotmail.com
格式为:用户名、 密码、邮箱,字段之间使用" # “(星两边各有一个空格)进行分隔。
分析最多人使用的TOPn个密码
1 2 3 4 5 6 7 8 9101112131415161718
case class User(username: String, password: String, email: String)var filePath = "/data/www.csdn.net.sql"var linesRDD = sc.textFile(filePath)var partsRDD = linesRDD.map(l => l.split(","))var csdnRDD = partsRDD.map(r => User(username=r(0), password=r(1), email=r(2)))var csdnDF = csdnRDD.toDF()csdnDF.printSchema()csdnDF.count()csdnDF.registerTempTable("csdn")var pwdSet = sqlContext.sql("SELECT password,COUNT(password) AS password_cnt FROM csdn GROUP BY password ORDER BY password_cnt DESC LIMIT 50")pwdSet.map(r => "Password: " + r(0) + " Count: " + r(1)).collect().foreach(println)csdnDF.groupBy("password").count().show()
0 0
- 使用SparkSQL分析CSDN泄露的用户数据[top-n]
- 使用SparkSQL 分析日志中IP数、流量等数据
- Spotfire使用经验-自定义饼图中显示的数据量(Top N分析,排名分析)
- TOP-N分析
- Oracle-Top-N分析
- CSDN泄露数据引发的思考
- SparkSql 函数的使用
- sparksql的基本使用
- Top-N Recommendation——基于用户的推荐实验
- CSDN用户资料泄露事件
- CSDN用户数据库泄露事件给我们的启示
- SparkSQL读HBase的数据
- Oracle_视图/Top-N分析
- Android N中SurfaceView泄露的问题分析
- Spark RDD算子/SparkSQL分别实现对电影数据集的简单数据分析
- mysql的top n
- hive的top n
- sparkSQL中UDF的使用
- C++内存分布之虚函数和虚表
- 开源流媒体云视频平台EasyDarwin中EasyCMS服务是如何进行命令转发和消息路由的
- 华为OJ 初级:自首数
- SIM卡运营商信息整理
- TabLayout和ViewPager以及Fragment实现超级简单导航栏
- 使用SparkSQL分析CSDN泄露的用户数据[top-n]
- Android中JNI使用详解(2)---Android Studio中NDK环境配置
- Android 2016的一些新东西
- stagefright框架下的awesomeplayer播放准备阶段
- 洛谷 P1330 封锁阳光大学
- u3d honey hex framework 代码解读记录(二)
- Spring05
- Spring学习笔记
- (15.1.18)为什么Android开发者应该使用FlatBuffers替代JSON?