Python网络爬虫的网站实例
来源:互联网 发布:赛博朋克2077 知乎 编辑:程序博客网 时间:2024/06/05 12:41
1.通过爬取网页源代码
import requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: return "产生异常"if __name__=="__main__": url="http://www.sdust.edu.cn" print(getHTMLText(url))
2.爬取京东商品的源代码
import requestsurl="https://item.jd.com/5181380.html"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")
3.爬取亚马逊商品的源代码
import requestsurl="https://www.amazon.cn/gp/product/B071SDP8PC"try: kv={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=kv) r.raise_for_status r.encoding=r.apparent_encoding print(r.text[24440:25145])except: print("爬取失败")
4.百度、360搜索关键词
import requestskeyword="Python"url="https://wwww.baidu.com/s"try: kv={'wd':keyword} r=requests.get(url,params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))except: print("爬取失败")
import requestskeyword="Python"kv={'q':keyword}url="http://www.so.com/s"try: r=requests.get(url,params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))except: print("爬取失败")
5.网络图片的爬取与下载
import requestsimport osurl="http://image.nationalgeographic.com.cn/2017/0730/20170730125917668.jpg"root="E://Python//wordplace//getHTMLText//picture//"path=root + url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(root) if not os.path.exists(path): r=requests.get(url) with open(path,'wb') as f: f.write(r.content) f.close() print("文件保存成功") else: print("文件已存在")except: print("爬取失败")
6.查询IP地址
import requestsurl="http://m.ip138.com/ip.asp?ip="try: r=requests.get(url+'202.204.80.112') r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[-500:])except: print("爬取失败")
阅读全文
0 0
- Python网络爬虫的网站实例
- python 网络爬虫实例
- 基于Python、PyQuery实现的一个网络爬虫实例
- 【Python爬虫9】Python网络爬虫实例实战
- python网络爬虫-采集整个网站
- [python]简单的网络爬虫
- python网络爬虫的记录
- Python 2 的网络爬虫
- [记录]Java网络爬虫基础和抓取网站数据的两个小实例
- Java网络爬虫基础和抓取网站数据的两个小实例
- Python 网络爬虫--简单的爬取一些防爬取的网站
- 【Python网络爬虫学习02】爬取有效的网站验证码
- Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
- Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
- 解决《用Python写网络爬虫》中示例网站访问不了的问题
- 《用Python写网络爬虫》示例网站访问不了导致的系列问题解决办法
- [Python]网络爬虫(四):Opener与Handler的介绍和实例应用
- [Python]网络爬虫(四):Opener与Handler的介绍和实例应用
- atom前端向插件
- 软交换之争:OVS VS LINUX BRIDGE
- 整理Ubuntu下secureCRT的安装和USB端口权限问题
- 返回表中的属性值
- Codeforces835A Key races
- Python网络爬虫的网站实例
- java中冒号:的用法
- mysql for mac tar安装
- Codeforces Round #427 (Div. 2) C. Star sky
- Logstash详解之——input模块
- Android工具类库
- 360插件化Replugin爬坑之路
- RVM算法的matlab实现
- Spring IOC控制反转