python爬虫第一步
来源:互联网 发布:java mongo distinct 编辑:程序博客网 时间:2024/06/05 19:14
首先,我们需要拿到一个网页的全部内容
例如:
url = 'http://example.webscraping.com/'# 1from urllib import requesthtml = request.urlopen(url)print(html.read())# 2from requests import gethtml = get(url)print(html.text)# 3from pyquery import PyQuery as pqhtml = pq(url)print(html)
这3种方法都可以简单地拿到一个网页的内容,urllib是python3自带的库,requests和pyquery是第三方库,需要安装(pip install requests/pyquery)一般来讲,新手推荐使用自带的urllib,根据一些大神的测试,requests库的效率会比urllib高,另外pyquery虽然可以拿到网页内容,但一般是用来作为解析工具所以个人建议使用urllib和requests库
阅读全文
0 0
- Python 爬虫第一步
- python 爬虫第一步
- python爬虫第一步
- python爬虫-第一步,获取页面
- Python爬虫第一步之获取网页源代码
- 简单爬虫原理第一步
- Python第一步
- python 第一步
- Python第一步
- Python 第一步
- 爬虫第一步:scrapy-安装教程
- requests库,爬虫的第一步
- python第一步:安装ipython
- python的第一步
- python采集第一步
- python第一步,安装
- 学习python第一步
- 学习python第一步
- Bootstrap Confirmation之我得
- vue之watch用法
- ZOJ--1095:Humble Numbers
- CodeM美团点评编程大赛初赛A轮 数列互质
- JNI-NDK开发小问题集锦
- python爬虫第一步
- UWA GOT | 三分钟带你玩转Unity性能优化!
- css学习笔记-盒子的阴影
- 安卓学习
- Aliware-MQ消息队列技术架构与最佳实践
- linux下网络socket编程(一)
- 热脸贴冷屁股解析
- 直三棱柱的表面展开图是什么形状的?
- 【Calendar】为什么我的DAT_OF_MONTH输出来的不是当前月份的日期,而是5?