爬虫-python基础篇

来源:互联网 发布:大智慧软件使用说明 编辑:程序博客网 时间:2024/06/05 15:21

1.2 python
1.2.1 第三方库
Requests
BeautifulSoup
1.2.2 重要知识点

1.2 python
1.2.1 第三方库

Requests

python开源了很多第三方库,在写爬虫抓取数据的时候,一般会用第三方库:requests,使用import,导入包之后就可以调用了。

Requests:可以用来发送网络请求,如图:
这里写图片描述
此外,还有很多高级的操作,如:
传递参数:如果要手工构建URL,那么数据会以健值对的形式放在URL中,跟在一个问号后面,这在写爬虫的时候会非常方便,如图:
这里写图片描述
注:字典为None的值不会传到URL里

定制请求头:若想要自己的爬虫更加强壮,不被封掉,可以简单传递一个字典给headers,让自己伪装得更好。

此外,还可以以字节的方式访问请求响应体,同时request还内置了json解码器,可以处理JSON数据。

BeautifulSoup

BeautifulSoup解析页面
见代码 Beautiful_basic.ipynb
这里写图片描述
prettify函数可以把标签美化,变成典型的层级结构

BeautifulSoup把html转换成复杂的树形结构,每个节点都是python对象,所有对象可以归纳为四种: Tag, NavigableString, BeautifulSoup, Comment

Tag
只要加上标签名,就可以获取对应的标签。
注:这样获取的是第一个符合内容的标签
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

1.2.2 重要知识点

变量
使用变量,可以大幅提升代码的效率,也利于函数之间传递。
如10 + 3 = 13,2 + 10 = 12,10 – 16 = -6.
这三个表达式都使用了10这个数值,这时候可以命名一个变量x= 10,就可以写成:x + 3 = 13, 2 + x = 12, x – 16= -6。
注:变量命名可以包括字母,数字,下划线,但不能以数字开头。

字符串
字符串和数字一样,也是一个值,但字符串需要以’’或””包起来。多个字符串可以用 + 拼接起来。
字符串的常用函数有:
len(‘huang’) :输出5,获得字符串中的元素个数
str.strip() :去除字符串的首尾空白符
str.replace :替换字符
str.split(‘i’) :根据字母i切分字符

这里写图片描述

列表
列表是一种有序的集合,可以随时添加或删除里面的元素,列表中的每个元素都对应着一个索引号,索引从0开始。
这里写图片描述

字典
字典的重要组成部分是键(key)和值(value),key是字典的索引,因而它一定是唯一的。
这里写图片描述

文件读写:必备技能
这里写图片描述

将文本内容写到某个文件中,path表示文件路径;
mode表示读或者写,mode=’w’表示写,mode = ‘r’表示读;
fp为文件对象;
fp.write表示调用write方法,并写入字符串;
最后关闭。

原创粉丝点击