大规模定向抓取系统

来源:互联网 发布:有网点纸软件 编辑:程序博客网 时间:2024/05/05 16:42
--设计:通用爬虫+爬取规则
  --配置式定义爬取规则
    -鼠标选取式定义数据结构
    -分页
    -参数
    -认证
    -动态ip
    -验证码
    -https
  --分布式爬虫运行平台
    -调度-定时、暂停、继续、停止-job、task
    -队列
    -去重-bloomfilter
    -网页存储-异步
    -建索引-异步
  --爬虫管理监控
  --数据仓库管理
   -原始数据
   -结构化数据
   -索引库
  --搜索引擎
    -实时索引
    -批量重建索引
  --中文分词
    -词库集中管理
    -词库更新
0 0