搜狗引擎查询日志的数据入库(Mysql…
来源:互联网 发布:java木马 编辑:程序博客网 时间:2024/05/13 20:43
为了进行hive与spark的开发,所以想以某个大规模数据集进行测试,找到了搜狗引擎的日志数据,网上公开的应该有一个月的数据,差不多为5000多万条,做测试应该是满足要求的。
搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。(网址为:http://www.sogou.com/labs/dl/q.html)
在百度云盘上找到了一个分享,于是转载到自己云盘里,也在这边分享一下:链接:http://pan.baidu.com/s/12VPue密码:jn39。
做数据入库到mysql,由于一直在ubuntu环境上做实验,于是采用eclipse +java来开发,虽然效率比较低,但是将就用吧。下附主要代码。其中由于日志采用文本行的方式来处理,对文本的切割有些地方会报错,因此采取一些简单的策略直接滤掉一些不满足要求的。并迁移到hive做下实验,效率还是挺高的。
public static void main(String [] args) {
// Stringinsertsql = "INSERT INTO sougouquery(visitTime,userID,visitKeyword,rankIndex,clickIndex,clickUrl)"
// + "values(?,?,?,?,?,?)";
//
// FileOutputStream fos = newFileOutputStream(newfileName);
// OutputStreamWriter osw = newOutputStreamWriter(fos, "GB2312");
// BufferedWriter bufferedWriter = newBufferedWriter(osw);
// bufferedWriter.write(newdatestring +" "+line);
// System.out.println(newdatestring +""+line);
// bufferedWriter.newLine();
// break;
// preparedStmt =con.prepareStatement(insertsql);
// preparedStmt.setDate(1,sdf.parse(newdatestring+""+parts[0]));
// preparedStmt.setString(2,parts[1]);
// preparedStmt.setString (3,parts[2]);
// preparedStmt.setInt(4,Integer.parseInt(parts[3]));
// preparedStmt.setInt(5,Integer.parseInt(parts[4]));
// preparedStmt.setString (6,parts[5]);
// // Alwaysclose files.
// // Always close files.
// bufferedWriter.close();
// bufferedWriter.write("Hello there,");
// bufferedWriter.write(" here is sometext.");
// bufferedWriter.newLine();
// bufferedWriter.write("We are writing");
// bufferedWriter.write(" the text to thefile.");
0 0
- 搜狗引擎查询日志的数据入库(Mysql…
- mysql查询最近7天入库数据
- mysql 入库数据乱码
- 游戏日志数据入库总结
- DWG数据的入库
- Qgis 数据的入库
- 监听器监听日志,实时读取日志文件,把读取到的数据入库
- 日志数据文件Json字段数据入库处理
- 搜狗用户查询日志(SogouQ)数据
- Mysql数据引擎的选择
- mysql的通用查询日志
- mysql的慢查询日志
- 打开mysql的查询日志
- MySQL的查询日志操作
- MySQL日志--查询日志
- mysql的数据查询
- MySQL登陆方式、数据类型、数据引擎及SQL查询语句,注意的问题.
- 通过awk对日志文件每天统计并入库到MySQL的过程讲解
- PowerDesigner的Table视图同时显示Code和Name的方法
- oracle索引简介2
- SparkV1.5源码编译版通过
- Tachyon 0.7.1源码的编译
- Sqoop源码编译与分析(V1.4.6)
- 搜狗引擎查询日志的数据入库(Mysql…
- Kafka源码的编译(0.8.2.1)
- Hive V1.2.1源码的解译
- 矩阵重排序(基于d3.js)
- ubuntu环境下R统计环境的安装与igr…
- 矩阵重排序及其应用
- Ubuntu R中安装devtools的步骤
- Spark R安装成功的步骤
- IOS面试题归总