Python爬虫准备
来源:互联网 发布:pci串行端口驱动下载 编辑:程序博客网 时间:2024/06/04 18:55
0.工具
语言:python3.6
需要的库:requests 和 beautifulsoup4
安装库的过程:
到pip所在目录下打开cmd通道
输入 pip install requests即可
beautifulsoup也是一样的
1.HTTP简介
一般我们爬取的对象都是网页,所以要对HTTP有一些了解
http://blog.csdn.net/haoaiqian/article/details/72811224?locationNum=2&fps=1
2.requests简介
requests的主要方法及其作用:
**kwarges:控制访问参数,均是可选的
params:字典或字节序列,作为参数增加到url中
data:字典、字节或文件对象,作为Request的内容
//第1个get访问的是https://www.so.com/s?ie=utf-8&src=hao_360so_b&shb=1&hsid=4b12b97aae29706c
//第2个get相当于访问
https://www.so.com/s?ie=utf-8&src=hao_360so_b&shb=1&hsid=4b12b97aae29706c&q=4399
json:json格式的数据,作为Requset的内容
headers:字典,HTTP定制头
cookies:字典或CookieJar,Request中的cookie
auth:元组,支持HTTP认证功能
files:字典类型,传输文件
timeout:设定超时时间,秒为单位
proxies:字典类型,设定访问代理服务器,可以增加登录认证
allow_redirects:布尔类型,允许重定向开关,默认为true
stream:布尔类型,获取内容立即下载开关,默认为true
verify:布尔类型,认证SSL证书开关,默认为true
cert:本地SSL证书路径
requests对象的常用属性:
status_code: HTTP请求的返回状态,200表示连接成功,其他都表示失败(比如404not found)
text: HTTP响应的字符串形式,和右击网页查看源代码的内容是一样的
encoding: 当你访问r.text 之时,Requests会使用其推测的文本编码。你可以找出Requests使用了什么编码,并且能够使用 r.encoding 属性来改变它(从header中猜测响应内容的编码方式)
apparent_encoding: 从内容中分析响应内容的编码方式
content: 相应内容的二进制形式(下载图片的时候可以用到)
3.beautifulsoup4简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
http://blog.csdn.net/eastmount/article/details/44593165
- python爬虫准备
- Python爬虫准备
- python开发简单爬虫:准备篇
- python爬虫,知识结构/路线图/环境工具准备
- python爬虫环境准备-安装anaconda
- python爬虫之简介以及前期准备
- Python爬虫手机新浪主页,为登录做准备
- 机器编曲准备--爬虫
- Python学习笔记-Dictionary 【python 3】//为继续学习爬虫准备-00
- Python学习笔记-List基本操作【python 3】//为继续学习爬虫准备-01
- Python学习笔记- 廖雪峰教程【python 2】//为继续学习爬虫准备-02 [待完善]
- Python实现爬虫统计学校BBS男女比例(一)前期准备、方案分析
- python实现爬虫统计学校BBS男女比例(一)前期准备、方案分析
- python爬虫-->爬虫基础
- [爬虫] Python爬虫技巧
- 爬虫系列一:准备知识
- Python爬虫
- python 爬虫
- Pat 数素数(20)
- HDOJ 1229 还是A+B(水题)
- 新的开始
- Java为什么要设置环境变量、JAVA_HOME
- 轻松实现Fragment监听返回键,回退ViewPager双击退出
- Python爬虫准备
- Linux内核事件通知链(Linux Notifier Chains)简介
- StreamToString
- C程序的学习
- Node.js安装
- JavaScript闭包
- 2017-11-2
- Linux下如何获取网络设备MAC地址
- Spring Boot学习之旅:(十五)使用JdbcTemplate