scrapy shell的settings user_agent问题

来源:互联网 发布:大麦盒子直播软件 编辑:程序博客网 时间:2024/04/30 06:34

scrapy shell http://weibo.com
scrapy shell 调试,使用xpath表达式返回不了想要的结果。
还是要修改useragent,要改成浏览器才行。要不有些伪装的好的网站虽然
response返回的200没有问题,
但是可以用response.text查看response的文本,完全不是爬取的那个网页的文本,这就是服务器知道你是爬虫,就骗你,返回了个不一致的网页,所以你在浏览器上用xpath表达式没有问题的地方,在shell窗口中就会出现问题。