python爬虫:网址无法请求和某一特定链接求取方法
来源:互联网 发布:淘宝兼职美工怎么收费 编辑:程序博客网 时间:2024/06/07 14:41
首先说一下,我开这个博客,写博客主要是为了记录自己平时学习研究过程中的重点问题,可能格式,表达什么的都会很乱。当然,如果我的问题对大家有所帮助那就更好了,因为我也是一个新人。
很多人在用python爬虫时可能会遇到网址无法请求,这是因为很多网页都是加密的,所以我们需要设定特定的headers。
res = requests.get("http://www.qichacha.com/search?key=%E6%B1%9F%E8%8B%8F%E4%B8%9C%E7%BD%91%E4%BF%A1%E6%81%AF%E7%
A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8')" 当你get 这么一个网址的时候可能在print res时发现返回的是405,这就表明get请求不行,而有人可能会用别的post什么的请求,
但是我找到了设置headers的方法:headers={ 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)
AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20' })
加上这段代码会发现返回200正确。 这个设定值好像是匹配浏览器的,基本都能用,如果不能用那你就重新找:
如上图,你想获取a href后面这一个链接怎么办?很多人可能用BeautifulSoup,正则什么的都可以获得,但是我找了很久还是没有找到很有效简明的方法,所以我还有我那个webdrivr,
代码如下:results = driver.find_element_by_xpath("//tr[2]//td/a[@class='ma_h1']").get_attribute('href')
#可以获取此路径下的一个链接(是点进去之后的网址的链接,所以是完整的和当前源代码中的有差别),
注意这里是element没有s其他对应链接修改路径均可获得。
- python爬虫:网址无法请求和某一特定链接求取方法
- python爬虫学习网址
- python爬虫和http请求协议
- Python爬虫(二、urllib2的urlopen方法和Request请求对象)
- 【python 爬虫】python中url链接编码处理方法
- 获取某一特定Activity实例的方法
- python链接爬虫案例
- Python 链接爬虫
- 特征值和特征向量的求取方法
- Python爬虫中的Get和Post方法
- 定时请求某一网址,每两小时执行一次
- 跟踪链接实现python爬虫
- python爬虫入门-发送请求
- python爬虫之GET请求
- python爬虫之post请求
- WSWP(用python写爬虫)笔记二:实现链接获取和数据存储爬虫
- Python爬虫程序学习资料网址
- Python 爬虫 URL中存在中文或特殊符号无法请求的解决方法
- http介绍
- java用正则表达式判断字符串中是否仅包含英文字母、数字和汉字
- 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。
- 各种Hash函数和代码
- QTCreator 更改代码高亮主题为 VS+VA助手 风格
- python爬虫:网址无法请求和某一特定链接求取方法
- Control HDU
- 909422229_Linux连接外网问题解决
- spring Boot整合mybatis
- Java IO系列之初始IO
- 说一说CAS
- leetcode--Container With Most Water
- SIM800系列模块共支持6路链接。从模块开机到建立TCP链接
- 栈和队列 —— 1