python爬虫第一步

来源:互联网 发布:java mongo distinct 编辑:程序博客网 时间:2024/06/05 19:14

首先,我们需要拿到一个网页的全部内容

例如:

url = 'http://example.webscraping.com/'# 1from urllib import requesthtml = request.urlopen(url)print(html.read())# 2from requests import gethtml = get(url)print(html.text)# 3from pyquery import PyQuery as pqhtml = pq(url)print(html)

这3种方法都可以简单地拿到一个网页的内容,urllib是python3自带的库,requests和pyquery是第三方库,需要安装(pip install requests/pyquery)一般来讲,新手推荐使用自带的urllib,根据一些大神的测试,requests库的效率会比urllib高,另外pyquery虽然可以拿到网页内容,但一般是用来作为解析工具所以个人建议使用urllib和requests库

原创粉丝点击