网络爬虫中高效率的URL索引 更新支持千万条数据
来源:互联网 发布:上海软件协会网站 编辑:程序博客网 时间:2024/04/30 16:45
网络爬虫中高效率的URL索引
http://blog.csdn.net/chinafe/article/details/7816878
中使用数组方式 保存,但数组是有限制的,这里改进一下方式,使用向量 vector来实现 ,实现千万条数据没问题,测试时一千万的索引文件为9m
完整实现代码如下没
#include <stdio.h>#include <windows.h>#include <vector>using std::vector;void main(){vector<bool> vints(10000000, bool(0));//创建一个包含10000000个bool类型数据的vector,并且都初始化为0:DWORD dw_len=vints.size()*sizeof(bool);printf("write vints len:%d\n",dw_len);vints.at(10)=1;//随便写一条数据DWORD dwWrite;HANDLE hFileWrite=CreateFile("c:\\index.txt",GENERIC_WRITE,FILE_SHARE_READ,NULL,OPEN_ALWAYS,0,0);//保存索引文件if(hFileWrite==INVALID_HANDLE_VALUE) {CloseHandle(hFileWrite);return ;}WriteFile(hFileWrite,(char*)vints.begin(),dw_len,&dwWrite,0);CloseHandle(hFileWrite);vints.clear();vector<bool> vints_read(10000000, bool(0));//创建一个包含10000000个bool类型数据的vector,并且都初始化为0:HANDLE hFileRead=CreateFile("c:\\index.txt",GENERIC_READ,FILE_SHARE_READ,NULL,OPEN_EXISTING,0,0);////读取索引文件if(hFileRead==INVALID_HANDLE_VALUE)return;DWORD ret=0;if(!ReadFile(hFileRead,(char*)vints_read.begin(),dw_len,&ret,0)){MessageBox(0,"read","read index error",MB_OK);return;}CloseHandle(hFileRead);if (ret!=dw_len){MessageBox(0,"read","read index error",MB_OK);return;}printf("read vints len:%d\n",ret);if (vints_read.at(10)==1)//测试读取的结果{printf("sucess\n");}return ;}
- 网络爬虫中高效率的URL索引 更新支持千万条数据
- 网络爬虫中高效率的URL索引
- mysql 插入更新多条数据的效率问题
- PICC中高效率的循环
- 指定URL的网络爬虫。。
- 支持JavaScript的网络爬虫
- 网路爬虫--url索引
- 支持千万条记录分页访问的存储过程
- Altium designer 在原理图及PCB中高亮某一条网络的三种方法
- 删除2千万条数据
- mySQL存储千万条数据
- 提升数据的查询效率----索引
- 提高mysql千万级大数据SQL查询优化30条经验(Mysql索引优化注意
- 工作中高效率的pdf转word格式的方法
- 数据库设计中高效率的分类算法介绍
- 网络爬虫-URL去重
- 网络爬虫URL去重
- 网络爬虫-URL去重
- java.lang.Thread.State类详解
- Android 快捷方式
- 正则验证
- scala
- Extjs 自定义函数,外部调用
- 网络爬虫中高效率的URL索引 更新支持千万条数据
- 解决 Jquery 弹出层 获取不到值(iframe)相关
- sicily--1040. Polly Nomials
- ANDROID 常见死机LOG分析
- 新手必读:session和cookie的区别
- php file_exists无效解决办法
- IOS开发之---网络应用
- ubuntu的账户密码算法
- Introduction to Face Detection and Face Recognition