使用python爬虫(一)
来源:互联网 发布:随身wifi网络链接异常 编辑:程序博客网 时间:2024/06/15 20:37
先简单的讲下爬虫的业务逻辑:
- 访问网站
- 获取内容的目录页面
- 获取总页数
- 解析目录页面并提取每个url地址
- 重复第4步直到把每一页的URL都获取
- 访问获取的url进入详情页
- 解析详情页并记录需要的数据
- 重复第7步直到把所有详情页爬去完
初步逻辑就是这样这是最理想的情况,这里没有考虑反爬虫情况。
下面讲讲我自己怎么用python爬虫
首先是python的环境搭建,我现在使用的是2.7版本的,开发软件是pycharm,然后安装一些Python的库:
- requests–用于网页请求
- lxml–用于页面解析
- beautifulsoup4–用于页面解析
储存通过redis和TXT组合使用
先上代码块
以爬取百度为例
r = requests.get('https://www.baidu.com/')print r.text
这样就返回了一个网站的源码页面,当然如果需要爬列表需要加上页码一页几条,这个需要根据具体情况分析,之后是解析获取的文本
soup = BeautifulSoup(html,"lxml")
把获取的html转化成soup格式,通过对内容解析获取数据。
这是一个整体的思路流程在后面的我会具体讲解对requests和beautifulsoup的使用
阅读全文
0 0
- 使用python爬虫(一)
- 使用python进行爬虫学习(一)
- Python爬虫(一)
- Python爬虫(一)
- python爬虫(一)
- Python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- Python 爬虫(一)
- python 爬虫(一)
- python爬虫(一)
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- python爬虫系列(一):爬虫简介
- python爬虫(一)urllib库基本使用
- Python从零开始写爬虫(一)requests库使用
- Maven学习总结(一)——Maven入门
- java并发-线程安全与共享资源(4)
- swift 接入 swjsdk
- TC SRM568,奇妙的题目
- xamarin学习笔记A19(安卓AIDL)
- 使用python爬虫(一)
- Spring配置文件<context:property-placeholder>标签使用漫谈
- 将项目导入到git中
- 【异常】Hadoop分布式集群搭建之zookeeper故障
- Setting property 'source' to '' did not find a matching property.
- HTML:HTML基础
- 实体店也可以代办?外卖市场还需严加监管
- C++中的::运算符
- Oracle基础知识2 : 单表查询2(内置函数)