5G的文本TXT文件,按行存放URL,去重
来源:互联网 发布:桌面软件 编辑:程序博客网 时间:2024/05/16 15:04
== 问题
-- 问题:5G的文本TXT文件,按行存放URL,设计去重
-- 条件:1G内存的机器
-- 布隆过滤器,做过爬虫的程序员,会立马想到;
这里如果按常规方式,该如何入手呢
先说思想解决,不说实际代码实现;
1. 内存1G,所以大文件首先要分割;如分割为20个文件,那么每个可以做到接近250M左右
2. 拿前面的3个文件做案例:
A B C 3个文件,每个250M;首先做到加载没有问题
1.A 文件读取到SetA中,此时集合中A的URL不重复
2.B文件读取到SetB中;
3.SetA 和SetB比较,将集合A和B中相同项都剔除;
4.清空SetB;
5.加载C文件;SetA 和SetC比较,将集合A和C中相同项都剔除;
6.前三个文件A比较完成,生成和B,C文件完全不重复的A1文件
依次类推:
总拿前面的一个文件内容和后面文件对比,对比一轮完成的那个文件;
就绝对是完全不重复的内容了
阅读全文
0 0
- 5G的文本TXT文件,按行存放URL,去重
- java读多个TXT文件、去重、合并
- 编写一个程序,将文件old.txt从第10行起存放到new.txt 中去
- 不简单的URL去重
- 不简单的URL去重
- 不简单的URL去重
- 不简单的URL去重
- 不简单的URL去重
- python3.4.3下逐行读入txt文本并去重
- Python文本去重
- 文本去重simhash
- URL去重
- url去重
- URL去重思路
- url去重
- URL去重思路
- 文本去重第一步:基于内容的文本相似性计算
- java读取txt文件内容,存放到list的方法
- Java使用HttpUrlConnection实现多线程断点下载
- Spring Aop
- Python3文件读写,I/O函数
- bzoj1191 [HNOI2006]超级英雄Hero(二分图最大匹配)
- pcl与c11出现 Segmentation fault (core dumped) Problem,编译通过运行出错
- 5G的文本TXT文件,按行存放URL,去重
- Java中负数的二进制如何计算
- 响应式布局
- 字符串赋值与初始化
- 自定义View:左右两边显示 text 的 TextView(RightAndLeftTextView)
- SQL_无法绑定由多个部分组成的标识符
- C3P0连接池参数解释
- 104驱动protocol_proc流程图
- Linux安装JDK