python爬虫系列二
来源:互联网 发布:java软件工程师培训班 编辑:程序博客网 时间:2024/06/05 02:40
# encoding: utf-8from bs4 import BeautifulSoupimport urllib2import redef header (url): user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36' header = {'User-Agent':'user_agent'} re = urllib2.Request(url,headers=header) respone = urllib2.urlopen(re,'html.parser') htmlcode = respone.read() return htmlcodedef file_save(filename,text): f = open(filename,'w') f.write(text) f.close()def load_url(url,begin_page,end_page): #拼接url for i in range(begin_page,end_page+1): zcurl = url + str(i) zc_html_code = header(zcurl) st_html(zc_html_code)def st_html(text): soup = BeautifulSoup(text,'html.parser') find_html = soup.find_all(attrs={'target':'_blank'}) for i in find_html: print i.get_text()
重点:print i.get_text()----获取i里面的string字符串
print i.['href']---可以获取url
阅读全文
0 0
- python爬虫系列二
- 爬虫系列二:认识爬虫
- Python 网络爬虫系列(二) --- 伪装成浏览器访问
- 用Python写网络爬虫系列(二)------数据获取
- Python爬虫请求与响应过程系列之二
- python爬虫系列之爬取百度文库(二)
- python 爬虫系列
- python爬虫系列
- Python爬虫系列:1
- python爬虫系列文章
- Python爬虫学习系列
- Python爬虫系列博客
- Python 爬虫系列教程
- Python爬虫系列:开端
- Python爬虫系列教程
- python:爬虫系列-01
- python:爬虫系列-02
- python爬虫系列一
- 【C语言】删除一个节点(仅一个)(单向物理链式结构)
- IntelliJ IDEA 2017激活的正确姿势
- Servlet、Struts1、Struts2、SpringMVC运行原理
- RecyclerView 中adapter.notifyDataSetChanged()无效的问题
- 条款05:了解C++默默编写并调用哪些函数
- python爬虫系列二
- 用IDEA和命令行进行nodejs项目搭建
- 第一篇文章
- 单点登录实现原理
- 条款06:若不想使用编译器自动生成的函数,就该明确拒绝
- 数据库视频| 关系图
- 长连接和短连接
- 数组 | 数组遍历 | 排序 | 多维(二维)数组
- java求最大值,当用户输入end的时候显示刚才输入数字中的最大值