上亿条数据(GB级)文件去重解决方案
来源:互联网 发布:e.abchina.com js 编辑:程序博客网 时间:2024/06/03 05:07
1.准备待处理的文件
2.随便一个文件都有100000000条数据库,如果直接去重非常麻烦
3.一段php代码解决问题
define('FileIn', $argv[1]);$time_start = microtime(true);$count = 0;function dump($data){ echo "<pre>"; var_dump($data); echo "</pre>"; die();}function order_ByF(){ $list = fopen(FileIn, "r"); while(! feof($list)){ $line= fgets($list); $index = substr($line, 0, 1); /*file_put_contents("OutData/{$index}.txt",$line.PHP_EOL,FILE_APPEND);*/ file_put_contents("OutData/{$index}.txt",$line,FILE_APPEND); $count++; echo "{$count}:{$index}:{$line}"; }}order_ByF();
4.使用方法
#php orderByF.php s.txt
5.使用后会按首字母生成多个文件,然后再按每个单独的文件去重
阅读全文
0 0
- 上亿条数据(GB级)文件去重解决方案
- 上万条数据插入和去重
- scrapy_redis去重优化(已有7亿条数据),附Demo福利
- Oracle数据去重(不是distinct)
- 关于数据去重(distinct)
- 词典去重数据
- hadoop-数据去重
- hive 去重数据
- SQL数据去重
- 数据去重
- 数据去重
- 数据去重程序
- mysql数据去重
- Hadoop 数据去重
- 数据库数据去重
- SQL数据去重
- 数据去重
- Hive数据去重
- 干货 | DDD实战:基于洋葱模型的分层代码架构设计
- 阅读 netmap: a novel framework for fast packet I/O 文章总结
- js 方法-判断身份证号
- Eclipse报错:Tomcat version 7.0 only supports J2EE 1.2, 1.3, 1.4, and Java EE 5 and 6 Web modules
- spring-mvc-mybatis web.xml文件
- 上亿条数据(GB级)文件去重解决方案
- easyui datagrid 更改url
- 108. Convert Sorted Array to Binary Search Tree
- 面试题
- VisualSVN Manager控制台关闭后如何打开
- GBDT算法原理深入解析
- 代理模式
- .gitignore文件失效,rm与rm --cached有什么区别?
- js实现加密