Python3 爬虫--网页get和post
来源:互联网 发布:写代码软件 编辑:程序博客网 时间:2024/05/22 03:41
爬取网页信息必须清楚网页结构,今天分析网页的两种访问方式get和post
关于两种访问方式,具体参见:—HTTP 方法:GET 对比 POST—
认识get与post
两种 HTTP 请求方法:GET 和 POST
在客户机和服务器之间进行请求-响应时,两种最常被用到的方法是:GET 和 POST。
GET - 从指定的资源请求数据。
POST - 向指定的资源提交要被处理的数据
在浏览器访问网页的时候可以使用F12访问网页源码,便于调试。我们可以再次调试模式下看到网页结构。
我们以有道翻译为例,在有道翻译官网翻译“中华人民共和国”:
get
上图中可以看到,服务器给我们传递过来的信息,包括ip地址及访问的网址。
post
post Form Data
Form Data是用户提交给服务器的数据,从中可以看到我们输入的带翻译内容:中华人民共和国
post User-Agent
这个是用户身份的验证,这里信息为浏览器信息,如果用python语言编写爬虫,则User-Agent内容为:Python+版本号,所有伪装身份可以改变User-Agent信息。
python 连接有道翻译
import urllib.requestimport urllib.parseimport jsoncontent = input('请输入需要翻译的内容:')url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc'data = {}# 输入data数据,来自post网页的Form datadata['i'] = contentdata['type'] = 'AUTO'data['doctype'] = 'json'data['xmlVersion'] = '1.8'data['keyfrom'] = 'fanyi.web'data['ue'] = 'utf-8'data['action'] = 'FY_BY_CLICKBUTTON'data['typoResult'] = 'true'# 对data内容进行编码(unicode -> utf-8)data = urllib.parse.urlencode(data).encode('utf-8')response = urllib.request.urlopen(url,data)# html是json格式的str,使用json.loads 转换为dicthtml = response.read().decode('utf-8')target = json.loads(html)# print(html)# print(type(target))# print(target)# print(target['translateResult'])# print(target['translateResult'][0][0])src = target['translateResult'][0][0]['src']res = target['translateResult'][0][0]['tgt']print('需要翻译的内容:'+content )print('翻译结果:%s' %res)
运行结果:
阅读全文
0 0
- Python3 爬虫--网页get和post
- python-网络爬虫初学一:获取网页源码以及发送POST和GET请求
- python3爬虫post请求
- Python爬虫中的Get和Post方法
- python3爬虫get请求
- python3 动态网页爬虫
- J2EE网页乱码GET和Post
- HttpClient的Post和Get访问网页
- python爬虫get和post方法的使用以及cookie
- python爬虫笔记<一:POST和GET数据传送>
- python3 网络爬虫(三)利用post请求获取网页的动态加载数据
- python3.3网页图片爬虫
- python3爬虫--抓取网页信息
- Python3爬虫【壹】静态网页
- Python3+Scrapy实现网页爬虫
- python3爬虫(网页下载)
- python3 网络爬虫(二)利用get请求获取网页的动态加载数据
- 网页提交方式post和get的区别和联系
- 3517: 翻硬币
- 实验 5.2.8 解锁/锁定文件 1. 实现对指定文件的锁定和解锁。 1. 实现对指定文件的锁定和解锁。
- bug的处理流程
- 异常安全编程
- Linux系统编程——线程同步与互斥:POSIX无名信号量
- Python3 爬虫--网页get和post
- 实验 5.2.8-3 对文件的任意部分加锁 1. 用 fcntl()对文件进行锁操作。 2. 完善课件中的示例程序,给出程序运行结果及分析。 给b.txt中的前10个字节加写锁
- 变态跳台阶
- 偏方:十转二,判断整数位数
- 实验 5.2.2-1 文件描述符的复制 1. 编写程序测试函数 dup()和 dup2()。 2. 给出运行结果及分析。
- 欧拉图浅析及模板
- 好久没有玩博客了,正式宣布我又来了
- 实验 5.3.2 scandir 1. 用 scandir()读取目录内容。只显示以字母开头的文件
- intellij idea svn 切换分支