构造 分布式爬虫 四步

来源:互联网 发布:ecshop导入淘宝数据包 编辑:程序博客网 时间:2024/04/30 12:34
简单爬虫修改成分布式爬虫步获取动态允许的域
1.接收参数
2.将参数中domain字符串弹出 如果没有弹出空 即‘ ’
3.将domain变量的字符串切割,用filter过滤,如果有none,0,' '等空的东西直接过滤 得到结果为真是的表内的值,自己的写的时候list转换一下,这里得到的是一个列表
4.用super方法调用父类的方法
原创粉丝点击