萌新爬虫瑟瑟发抖1
来源:互联网 发布:关于大数据的例子 编辑:程序博客网 时间:2024/04/27 14:46
爬取真实网站:TripAdvisor
境外旅游网
1.了解Request 和 Response原理
如何控制通信数据
当Web容器收到一个Http请求时,通信数据由Web容器赋值封装和提供
这些信息被解释成两个对象,请求数据对应的HttpServletRequest和响应对应的HttpServletResponse类型对象
HttpServletRequest对象代表客户端的请求,客户端通过HTTP协议访问服务器时,请求中所有消息都封装在这个
对象中,通过这个对象的相关方法可以获取请求数据
作用:-读取和写入HTTP请求数据
-取得和设置Cookies
-去的路径信息
-标识HTTP会话
-实现请求转发
HttpServletResponse对象代表提供给客户端的响应,封装了HTTP的响应数据。通过这个对象可设置
状态行、消息头、实体内容。
作用:
-设置对客户端的输出内容
-设置响应的状态吗
-设置浏览器解码方式
-设置Cookies
-实现重定向
2.明白Request库中的Get方法怎么用
GET /page_one.html HTTP/1.1
Host:www.xxx.com
推荐两位大佬:
http://blog.csdn.net/lihao21/article/details/51857385
https://www.cnblogs.com/honglingjin/p/6508445.html
3.定位元素位置(找唯一特征)
例:imgs = soup.select('img[width="160"]')
4.使用headers,假装人类(Orz)
headers = {
'User-Agent':'',
'Cookie':‘’
}
5.可连续爬取多页内容
6.利用手机页面进行反反爬取(mdzz)
阅读全文
0 0
- 萌新爬虫瑟瑟发抖1
- 萌新爬虫瑟瑟发抖1(脚本)
- 萌新瑟瑟发抖
- 培训#1 欧拉函数&费马小定理(萌新瑟瑟发抖的来写一篇)
- 小萌新初来咋到瑟瑟发抖
- 瑟瑟发抖……
- 谷歌搜索放出大招,弹窗广告瑟瑟发抖
- 群主吓得瑟瑟发抖?再不用怕了:群主对群成员言行担责纯属误读
- 爬虫-scrapy安装(新)
- 爬虫新的方法----中级
- 萧萧雨落情未绝,瑟瑟风起愁又涌
- 萧萧雨落情未绝,瑟瑟风起愁又涌
- 萧萧雨落情未绝,瑟瑟风起愁又涌
- 萧萧雨落情未绝,瑟瑟风起愁又涌
- 萧萧雨落情未绝,瑟瑟风起愁又涌
- Ajax应用的新“爬虫”机制
- 爬虫1
- 爬虫1
- Cyberlink YouCam Deluxe (摄像头特效软件)官方中文破解版V7.0.3529.0下载 | youcam7豪华破解版 | youcam摄像头软件
- 最小乘法次数
- 【JZOJ 5496】 Tree
- git常用命令
- Linux下的重要目录和命令以及安装编译环境
- 萌新爬虫瑟瑟发抖1
- Android在ListView中移除某个Item条目
- win10环境+pycharm+anaconda+python3.6+OpenCV3.3安装,ImportError: DLL load failed: 找不到指定的模块
- Linux(centos 7.3)中建SVN服务器
- MyBatis
- UITextfield
- 正则表达式——抓取网页中的http及网络图片
- 基于腾讯视频影视作品数据分析
- tcp三次握手四次挥手