Python反爬虫系列方法
来源:互联网 发布:windows消息机制 编辑:程序博客网 时间:2024/05/20 14:18
如何反爬虫
cookies池,更换cookie意味着更换用户
proxies池,更换proxy意味着更换IP
header中伪装浏览器,加入User-Agent及Referer
设置延迟,time.sleep(1)
几个基本需求来讲:1.抓取py的urllib不一定去用,但是要学,如果你还没用过的话。比较好的替代品有requests等第三方更人性化、成熟的库,如果pyer不了解各种库,那就白学了。抓取最基本就是拉网页回来。如果深入做下去,你会发现要面对不同的网页要求,比如有认证的,不同文件格式、编码处理,各种奇怪的url合规化处理、重复抓取问题、cookies跟随问题、多线程多进程抓取、多节点抓取、抓取调度、资源压缩等一系列问题。所以第一步就是拉网页回来,慢慢你会发现各种问题待你优化。2.存储抓回来一般会用一定策略存下来,而不是直接分析,个人觉得更好的架构应该是把分析和抓取分离,更加松散,每个环节出了问题能够隔离另外一个环节可能出现的问题,好排查也好更新发布。那么存文件系统、SQLorNOSQL数据库、内存数据库,如何去存就是这个环节的重点。你可以选择存文件系统开始,然后以一定规则命名。3.分析对网页进行文本分析,提取链接也好,提取正文也好,总之看你的需求,但是一定要做的就是分析链接了。可以用你认为最快最优的办法,比如正则表达式。然后将分析后的结果应用与其他环节:)4.展示要是你做了一堆事情,一点展示输出都没有,如何展现价值?所以找到好的展示组件,去show出肌肉也是关键。如果你为了做个站去写爬虫,抑或你要分析某个东西的数据,都不要忘了这个环节,更好地把结果展示出来给别人感受。
- Python反爬虫系列方法
- 【Python】反爬虫
- 一.python 反爬虫
- Python-爬取音悦台MV列表以及反爬虫方法
- Python -bs4反爬虫解决方法
- python 爬虫系列
- python爬虫系列
- Python爬虫系列:1
- python爬虫系列文章
- Python爬虫学习系列
- Python爬虫系列博客
- Python 爬虫系列教程
- Python爬虫系列:开端
- Python爬虫系列教程
- python:爬虫系列-01
- python:爬虫系列-02
- python爬虫系列一
- python爬虫系列二
- 静态工具类中使用注解注入service 空指针
- linux基础命令(二)文件寻址和正则表达式
- String to Integer (atoi)
- PhpStorm中快捷键总结,附详细使用说明
- 文章标题
- Python反爬虫系列方法
- 回数是指从左向右读和从右向左读都是一样的数,例如 12321 , 909 。请利用 filter() 滤掉非回数
- docker 搭建php环境 初学笔记
- test
- table显示n条记录,每三行换一次颜色,即1,2,3用红色字体,4,5,6用绿色字体,7,8,9用红色字体
- Java多线程编程-(4)-线程间通信机制的介绍与使用
- Hadoop权威指南(第三版)学习笔记之一初识Hadoop
- xshell或者putty远程连接阿里云服务器出现connection failed错误
- 基于ubuntu构建高可用ZooKeeper集群