程序博客网 > 随身wifi网络链接异常

使用python爬虫（一）

来源：互联网发布：随身wifi网络链接异常编辑：程序博客网时间：2024/06/15 20:37

先简单的讲下爬虫的业务逻辑：

访问网站
获取内容的目录页面
获取总页数
解析目录页面并提取每个url地址
重复第4步直到把每一页的URL都获取
访问获取的url进入详情页
解析详情页并记录需要的数据
重复第7步直到把所有详情页爬去完

初步逻辑就是这样这是最理想的情况，这里没有考虑反爬虫情况。

下面讲讲我自己怎么用python爬虫

首先是python的环境搭建，我现在使用的是2.7版本的，开发软件是pycharm，然后安装一些Python的库：

requests–用于网页请求
lxml–用于页面解析
beautifulsoup4–用于页面解析

储存通过redis和TXT组合使用

先上代码块
以爬取百度为例

r = requests.get('https://www.baidu.com/')print r.text

这样就返回了一个网站的源码页面，当然如果需要爬列表需要加上页码一页几条，这个需要根据具体情况分析，之后是解析获取的文本

soup = BeautifulSoup(html,"lxml")

把获取的html转化成soup格式，通过对内容解析获取数据。

这是一个整体的思路流程在后面的我会具体讲解对requests和beautifulsoup的使用

阅读全文

0 0

随身wifi网络链接异常

随身wifi网络链接异常

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子新车汽油泵坏了怎么办墓地的树枯死了怎么办大车尿素不烧了怎么办不烧尿素限扭怎么办汽车首保过期了怎么办假体隆鼻后透光怎么办熊猫血有抗体了怎么办 rh阴性血怀二胎怎么办熊猫血怀二胎了怎么办 rh阴性血要二胎怎么办全血粘度都偏高怎么办血脂高血粘度高怎么办全血粘度值1偏高怎么办全血粘度3偏高怎么办血粘度高的症状怎么办粉瘤感染化脓了怎么办乌药剂量用大了怎么办水卡消磁了怎么办妙招电卡消磁了怎么办妙招入园磁卡消磁了怎么办透析中静脉压高怎么办腰间盘突出压迫神经腿疼怎么办肺热引起的发烧怎么办肺热引起的痘痘怎么办冰箱压条的霉点怎么办白色的布鞋变黄怎么办白鞋橡胶变黄了怎么办肝功能检查总胆汁酸高怎么办吃丹参滴丸尿血怎么办胰酶消化过久怎么办抗凝血酶活性低怎么办抗凝血酶3偏低怎么办抗凝血酶ⅲ低怎么办抗凝血酶3抗原高怎么办孕32周血压高怎么办智齿血凝块掉了怎么办入职体检alt偏高怎么办剖腹产后crp值高怎么办超敏c反应蛋白偏高怎么办孕妇c反应蛋白高怎么办婴儿超敏crp偏高怎么办