使用python爬虫(一)

来源:互联网 发布:随身wifi网络链接异常 编辑:程序博客网 时间:2024/06/15 20:37

先简单的讲下爬虫的业务逻辑:

  1. 访问网站
  2. 获取内容的目录页面
  3. 获取总页数
  4. 解析目录页面并提取每个url地址
  5. 重复第4步直到把每一页的URL都获取
  6. 访问获取的url进入详情页
  7. 解析详情页并记录需要的数据
  8. 重复第7步直到把所有详情页爬去完

初步逻辑就是这样这是最理想的情况,这里没有考虑反爬虫情况。

下面讲讲我自己怎么用python爬虫

首先是python的环境搭建,我现在使用的是2.7版本的,开发软件是pycharm,然后安装一些Python的库:

  1. requests–用于网页请求
  2. lxml–用于页面解析
  3. beautifulsoup4–用于页面解析

储存通过redis和TXT组合使用


先上代码块
以爬取百度为例

r = requests.get('https://www.baidu.com/')print r.text

这样就返回了一个网站的源码页面,当然如果需要爬列表需要加上页码一页几条,这个需要根据具体情况分析,之后是解析获取的文本

soup = BeautifulSoup(html,"lxml")

把获取的html转化成soup格式,通过对内容解析获取数据。

这是一个整体的思路流程在后面的我会具体讲解对requests和beautifulsoup的使用

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 新车汽油泵坏了怎么办 墓地的树枯死了怎么办 大车尿素不烧了怎么办 不烧尿素限扭怎么办 汽车首保过期了怎么办 假体隆鼻后透光怎么办 熊猫血有抗体了怎么办 rh阴性血怀二胎怎么办 熊猫血怀二胎了怎么办 rh阴性血要二胎怎么办 全血粘度都偏高怎么办 血脂高血粘度高怎么办 全血粘度值1偏高怎么办 全血粘度3偏高怎么办 血粘度高的症状怎么办 粉瘤感染化脓了怎么办 乌药剂量用大了怎么办 水卡消磁了怎么办妙招 电卡消磁了怎么办妙招 入园磁卡消磁了怎么办 透析中静脉压高怎么办 腰间盘突出压迫神经腿疼怎么办 肺热引起的发烧怎么办 肺热引起的痘痘怎么办 冰箱压条的霉点怎么办 白色的布鞋变黄怎么办 白鞋橡胶变黄了怎么办 肝功能检查总胆汁酸高怎么办 吃丹参滴丸尿血怎么办 胰酶消化过久怎么办 抗凝血酶活性低怎么办 抗凝血酶3偏低怎么办 抗凝血酶ⅲ低 怎么办 抗凝血酶3抗原高怎么办 孕32周血压高怎么办 智齿血凝块掉了怎么办 入职体检alt偏高怎么办 剖腹产后crp值高怎么办 超敏c反应蛋白偏高怎么办 孕妇c反应蛋白高怎么办 婴儿超敏crp偏高怎么办