自学爬虫程序-1、最简单爬虫代码

来源:互联网 发布:c语言随机数 编辑:程序博客网 时间:2024/06/14 22:23

爬取一个网页内的信息
1、通过F12开发员工具分析网页内的内容,找到需要爬取内容的位置
可以拓展:

1.1  用什么浏览器的开发人员工具最好,现在用的是360浏览器,基本能满足功能

1.2 怎么找到你要爬取信息的位置,现在要爬取的是新闻内容,基本在doc里面的第一个网页

后续可能会有js、css、ajax等,这些信息要学习


2、正式写程序

2.1、 定义要用到的控件


from bs4 import BeautifulSoup
import requests


2.2   通过requests将内容下载下来


res=requests.get('http://news.china.com/international/1000/20170915/31421852.html')


2.3 定义编码


res.encoding='utf-8'


2.4 将内容放入soup内
soup=BeautifulSoup(res.text,'html.parser')

2.5 提取所需的网页内信息,假设为新闻标题
titleNews=soup.select('h1')[0].text

是看结果
print (titleNews)

原创粉丝点击