python爬虫第一步

来源：互联网发布：java mongo distinct 编辑：程序博客网时间：2024/06/05 19:14

首先，我们需要拿到一个网页的全部内容

例如：

url = 'http://example.webscraping.com/'# 1from urllib import requesthtml = request.urlopen(url)print(html.read())# 2from requests import gethtml = get(url)print(html.text)# 3from pyquery import PyQuery as pqhtml = pq(url)print(html)

这3种方法都可以简单地拿到一个网页的内容，urllib是python3自带的库，requests和pyquery是第三方库，需要安装（pip install requests/pyquery）一般来讲，新手推荐使用自带的urllib，根据一些大神的测试，requests库的效率会比urllib高，另外pyquery虽然可以拿到网页内容，但一般是用来作为解析工具所以个人建议使用urllib和requests库

阅读全文

0 0

Python 爬虫第一步
python 爬虫第一步
python爬虫第一步
python爬虫-第一步，获取页面
Python爬虫第一步之获取网页源代码
简单爬虫原理第一步
Python第一步
python 第一步
Python第一步
Python 第一步
爬虫第一步：scrapy-安装教程
requests库，爬虫的第一步
python第一步：安装ipython
python的第一步
python采集第一步
python第一步，安装
学习python第一步
学习python第一步
Bootstrap Confirmation之我得
vue之watch用法
ZOJ--1095：Humble Numbers
CodeM美团点评编程大赛初赛A轮数列互质
JNI-NDK开发小问题集锦
python爬虫第一步
UWA GOT | 三分钟带你玩转Unity性能优化！
css学习笔记-盒子的阴影
安卓学习
Aliware-MQ消息队列技术架构与最佳实践
linux下网络socket编程（一）
热脸贴冷屁股解析
直三棱柱的表面展开图是什么形状的？
【Calendar】为什么我的DAT_OF_MONTH输出来的不是当前月份的日期，而是5？