爬虫的一些问题汇总

来源:互联网 发布:什么软件租房子最靠谱 编辑:程序博客网 时间:2024/05/26 12:59


一、查看用账户登录的网站的cookie

1.在浏览器的地址栏输入:javascript:alert(document.cookie)  (不区分大小写),就会弹出你在当前网页登录的cookie信息。


注意:你把以上复制进入地址栏后会发现,“javascript”字符串消失不见,不管“javascript里面哪一个字母被大写或小写,只要识别为“javascript”就会自动被过滤隐藏消失。

你应该复制下面这个到地址栏(粘贴到地址栏后再把前面的“1”去掉):

1javascript:alert(document.cookie) 


2.按F12进入浏览器的开发者模式——console——在命令行输入javascript:alert(document.cookie),再回车


二、pip错误:TypeError: parse() got an unexpected keyword argument 'transport_encoding'


好像是因为安装了tensorflow,解决办法:

conda install pip



三、爬虫网页内容时候,提示错误:'gbk' codec can't encode character '\U0001f621' 


解决办法,十分简单:在f = open('a.txt','a+',encoding='utf-8') 里加上encoding='utf-8'这个参数就行了。


出错的原因是网页及python的编码都是utf-8,在写进txt时Windows默认转码成gbk,遇到某些gbk不支持的字符就会报错。在打开文件时就声明编码方式为utf-8就能避免这个错误。


原创粉丝点击