Python爬虫准备

来源：互联网发布：pci串行端口驱动下载编辑：程序博客网时间：2024/06/04 18:55

0.工具

语言：python3.6
需要的库：requests 和 beautifulsoup4
安装库的过程：
到pip所在目录下打开cmd通道

输入 pip install requests即可
安装requests
beautifulsoup也是一样的
安装beautifulsoup4

1.HTTP简介

一般我们爬取的对象都是网页，所以要对HTTP有一些了解
http://blog.csdn.net/haoaiqian/article/details/72811224?locationNum=2&fps=1

2.requests简介

requests的主要方法及其作用：

**kwarges：控制访问参数，均是可选的
params:字典或字节序列，作为参数增加到url中
data:字典、字节或文件对象，作为Request的内容
data使用例子
//第1个get访问的是https://www.so.com/s?ie=utf-8&src=hao_360so_b&shb=1&hsid=4b12b97aae29706c
//第2个get相当于访问
https://www.so.com/s?ie=utf-8&src=hao_360so_b&shb=1&hsid=4b12b97aae29706c&q=4399

json:json格式的数据，作为Requset的内容
headers:字典，HTTP定制头
cookies:字典或CookieJar，Request中的cookie
auth:元组，支持HTTP认证功能
files:字典类型，传输文件
timeout:设定超时时间，秒为单位
proxies:字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects:布尔类型，允许重定向开关，默认为true
stream:布尔类型，获取内容立即下载开关，默认为true
verify:布尔类型，认证SSL证书开关，默认为true
cert:本地SSL证书路径

requests对象的常用属性：
status_code: HTTP请求的返回状态，200表示连接成功，其他都表示失败(比如404not found)
text: HTTP响应的字符串形式，和右击网页查看源代码的内容是一样的
encoding: 当你访问r.text 之时，Requests会使用其推测的文本编码。你可以找出Requests使用了什么编码，并且能够使用 r.encoding 属性来改变它(从header中猜测响应内容的编码方式)
apparent_encoding: 从内容中分析响应内容的编码方式
content: 相应内容的二进制形式(下载图片的时候可以用到)

3.beautifulsoup4简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
http://blog.csdn.net/eastmount/article/details/44593165

阅读全文

1 0