尝试写个爬虫(4)
来源:互联网 发布:随身带着淘宝去异界 编辑:程序博客网 时间:2024/05/16 11:45
系统架构
在实际的系统实现时,系统要采用多线程技术,在这里,用户可以通过手动的方式,指定采集线程的数目。因此可分为以下模块:
1.主控制模块:
提供命令输入端口;
2.采集模块:
采用http下载方式,对用户指定的网址进行动态下载,采用多线程,用户在采集前需要配置采集线程数,采集的初始网址信息;
在html脚本中,URL通常表示,注意后面分析。
3.网页分析模块:
对采集到的网页进行分析,查找所有符合规则的URL信息,并判断该URL信息是否已被采集到,若未被采集到,则加入缓存集合,否则丢弃;
用到map的数据结构
4.存储模块:
利用MySQL提供的API,将采集到的URL缓存信息写入数据库。
基本步骤:
(1)配置连接参数,如用户名,密码,数据库名等;
(2)连接MySQL,连接成功则转向(3),否则退出;
(3)获得要存储的URL信息;
(4)格式化SQL语句,并执行。
- 尝试写个爬虫(4)
- 尝试写个爬虫(1)
- 尝试写个爬虫(2)
- 尝试写个爬虫(3)
- 尝试写第二个QOpenGLWidget程序 (未完成)
- 写了个小爬虫
- 随手写个node爬虫
- 5个教程教你学会写爬虫!(Python)
- 【爬虫】手把手教你写网络爬虫(4)
- python写一个爬虫(4)改进
- 自己写个网络爬虫玩玩
- 写的第一个爬虫……
- 用Swing写个scrapy爬虫图形界面
- 写个爬虫获取全国地区数据
- 我写的第一个图片爬虫
- 写了个简单的爬虫
- Scrapy爬虫的尝试
- 初步尝试python爬虫
- Web性能压力测试工具之ApacheBench(ab)详解
- mysql group by 处理方式的异同
- 如何在Windows的命令行cmd中运行vbs和js脚本文件
- 使用XML自定义控件(Custom Control Designed by XML)
- x86 cpu 寄存器 初始值
- 尝试写个爬虫(4)
- mysql5.5主从配置
- 结构体前向申明的小细节
- 同步控制 EvenGenerator
- android车机
- 函数指针与指针函数
- 用两个栈实现一个队列
- SVN 文档
- 井场数据采集系统的架构演化