Python爬虫准备

来源:互联网 发布:pci串行端口驱动下载 编辑:程序博客网 时间:2024/06/04 18:55

0.工具

语言:python3.6
需要的库:requests 和 beautifulsoup4
安装库的过程:
到pip所在目录下打开cmd通道
打开cmd通道
输入 pip install requests即可
安装requests
beautifulsoup也是一样的
安装beautifulsoup4

1.HTTP简介

一般我们爬取的对象都是网页,所以要对HTTP有一些了解
http://blog.csdn.net/haoaiqian/article/details/72811224?locationNum=2&fps=1

2.requests简介

requests的主要方法及其作用:
requests的主要方法
**kwarges:控制访问参数,均是可选的
params:字典或字节序列,作为参数增加到url中
data:字典、字节或文件对象,作为Request的内容
data使用例子
//第1个get访问的是https://www.so.com/s?ie=utf-8&src=hao_360so_b&shb=1&hsid=4b12b97aae29706c
//第2个get相当于访问
https://www.so.com/s?ie=utf-8&src=hao_360so_b&shb=1&hsid=4b12b97aae29706c&q=4399

json:json格式的数据,作为Requset的内容
headers:字典,HTTP定制头
cookies:字典或CookieJar,Request中的cookie
auth:元组,支持HTTP认证功能
files:字典类型,传输文件
timeout:设定超时时间,秒为单位
proxies:字典类型,设定访问代理服务器,可以增加登录认证
allow_redirects:布尔类型,允许重定向开关,默认为true
stream:布尔类型,获取内容立即下载开关,默认为true
verify:布尔类型,认证SSL证书开关,默认为true
cert:本地SSL证书路径

requests对象的常用属性:
status_code: HTTP请求的返回状态,200表示连接成功,其他都表示失败(比如404not found)
text: HTTP响应的字符串形式,和右击网页查看源代码的内容是一样的
encoding: 当你访问r.text 之时,Requests会使用其推测的文本编码。你可以找出Requests使用了什么编码,并且能够使用 r.encoding 属性来改变它(从header中猜测响应内容的编码方式)
apparent_encoding: 从内容中分析响应内容的编码方式
content: 相应内容的二进制形式(下载图片的时候可以用到)

3.beautifulsoup4简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
http://blog.csdn.net/eastmount/article/details/44593165

原创粉丝点击