Python网络爬虫与信息提取(一) requests库
来源:互联网 发布:专家系统原理与编程 编辑:程序博客网 时间:2024/05/22 00:33
Request库入门
import requests #引入requests库 r = requests.get("http://www.baidu.com") #构造一个向服务器请求资源的Request对象,r是返回一个包含服务器资源的Response对象r.status_coder.text
爬取网页的通用框架
import requestsdef getHtmlText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() #如果状态码不是200,引发HTTPError异常 r.encoding = r.apparent_encoding return r.text except: return("访问异常")if __name__ == "__main__": url = "http://www.baidu.com" print (getHtmlText(url))
HTTP协议和requests库的主要方法
http协议对资源的操作
异常处理
修改表头:
kv = {"user-agent" : "Mozzila/5.0" }r = requests.get(url,header = kv)
通过传递关键字爬取百度搜索的结果
import requestskeyword = input("input your searching keyword:")def getHtmlText(url): try: kv = {"wd" : keyword} r = requests.get(url,timeout = 30,params = kv) r.raise_for_status() #如果状态码不是200,引发HTTPError异常 r.encoding = r.apparent_encoding return r.text except: return("访问异常")if __name__ == "__main__": url = "http://www.baidu.com/s" #记得加上/s print (getHtmlText(url))
将结果保存到文件,利用r.iter_content()
with open(filename, 'wb') as fd: for chunk in r.iter_content(chunk_size): fd.write(chunk) #传递headers headers = {'user-agent': 'my-app/0.0.1'} r = requests.get(url, headers=headers)
阅读全文
0 0
- Python网络爬虫与信息提取(一) requests库
- Python网络爬虫与信息提取-Day5-Requests库网络爬取实战
- Python网络爬虫与信息提取(一)
- Python网络爬虫与信息提取-Day1-requests库(1)
- Python网络爬虫与信息提取-Day2-requests库(2)
- Python网络爬虫与信息提取-Day3-requests库(3)
- Python 网络爬虫与信息获取(一)—— requests 库的网络爬虫
- [mooc]python网络爬虫与信息提取(实例一)
- Python网络爬虫与信息提取(一)
- Python网络爬虫与信息提取(一):网络爬虫之规则
- Python网络爬虫与信息提取-Day6-Beautiful Soup库
- Python网络爬虫与信息提取(二) BeautifulSoup库
- Python网络爬虫与信息提取 网络爬虫之规则
- MOOC-Python网络爬虫与信息提取-第二周 BeautifulSoup库入门与信息提取方法
- Python网络爬虫和信息提取(一)
- 中国大学MOOC·Python网络爬虫与信息提取(一)
- 中国大学MOOC·Python网络爬虫与信息提取_思考小结(一)
- Python网络爬虫与信息提取(二):网络爬虫之提取
- VS 2015 with update安装失败(kb2829760)解决方案
- Effctive_Java--笔记&心得
- 点(0,0)是否在三角形内
- Django模板进阶
- matlab基础操作快速上手教程
- Python网络爬虫与信息提取(一) requests库
- 转轮盘游戏(WheelDiscGame)
- HDU-1238
- 【Coursera】SeamCarver算法
- 文件字符串的替换
- HDU-1358
- 网络编程1-URL相关的处理
- linux nginx启动 重启 关闭命令
- 关于 hibernate的 学习