萌新爬虫瑟瑟发抖1

来源:互联网 发布:关于大数据的例子 编辑:程序博客网 时间:2024/04/27 14:46

爬取真实网站:TripAdvisor

境外旅游网

1.了解Request 和 Response原理

如何控制通信数据

当Web容器收到一个Http请求时,通信数据由Web容器赋值封装和提供

这些信息被解释成两个对象,请求数据对应的HttpServletRequest和响应对应的HttpServletResponse类型对象


HttpServletRequest对象代表客户端的请求,客户端通过HTTP协议访问服务器时,请求中所有消息都封装在这个

对象中,通过这个对象的相关方法可以获取请求数据

作用:-读取和写入HTTP请求数据

-取得和设置Cookies

-去的路径信息

-标识HTTP会话

-实现请求转发


HttpServletResponse对象代表提供给客户端的响应,封装了HTTP的响应数据。通过这个对象可设置

状态行、消息头、实体内容。

作用:

-设置对客户端的输出内容

-设置响应的状态吗

-设置浏览器解码方式

-设置Cookies

-实现重定向


2.明白Request库中的Get方法怎么用
GET /page_one.html HTTP/1.1
Host:www.xxx.com

推荐两位大佬:
http://blog.csdn.net/lihao21/article/details/51857385
https://www.cnblogs.com/honglingjin/p/6508445.html

3.定位元素位置(找唯一特征)
例:imgs = soup.select('img[width="160"]')

4.使用headers,假装人类(Orz)

headers = {

    'User-Agent':'',

   'Cookie':‘’

}


5.可连续爬取多页内容


6.利用手机页面进行反反爬取(mdzz)

原创粉丝点击