自学爬虫程序-1、最简单爬虫代码
来源:互联网 发布:c语言随机数 编辑:程序博客网 时间:2024/06/14 22:23
爬取一个网页内的信息
1、通过F12开发员工具分析网页内的内容,找到需要爬取内容的位置
可以拓展:
1.1 用什么浏览器的开发人员工具最好,现在用的是360浏览器,基本能满足功能
1.2 怎么找到你要爬取信息的位置,现在要爬取的是新闻内容,基本在doc里面的第一个网页
后续可能会有js、css、ajax等,这些信息要学习
2、正式写程序
2.1、 定义要用到的控件
from bs4 import BeautifulSoup
import requests
2.2 通过requests将内容下载下来
res=requests.get('http://news.china.com/international/1000/20170915/31421852.html')
2.3 定义编码
res.encoding='utf-8'
2.4 将内容放入soup内
soup=BeautifulSoup(res.text,'html.parser')
2.5 提取所需的网页内信息,假设为新闻标题
titleNews=soup.select('h1')[0].text
是看结果
print (titleNews)
阅读全文
0 0
- 自学爬虫程序-1、最简单爬虫代码
- 一个最简单的爬虫-调度程序
- 爬虫自学1
- 简单的爬虫程序
- 简单网络爬虫程序
- python简单爬虫程序
- 最简单的python爬虫
- python最简单的爬虫
- 最简单的python 爬虫
- 最基础的爬虫代码
- spider简单的爬虫程序
- 简单的java爬虫程序
- spider简单的爬虫程序
- 简单的java爬虫程序
- python简单网络爬虫程序
- 简单的爬虫程序2
- 简单的php爬虫程序
- 简单的Python爬虫程序
- Lintcode123 Word Search solution 题解
- IE11开发者工具
- 【Leetcode】Median of Two Sorted Arrays
- Spring中集合(List,Set,Map)的配置和简单使用(一)
- 内存泄漏
- 自学爬虫程序-1、最简单爬虫代码
- 【Leetcode】 Longest Palindromic Substring
- MQ消息队列应用
- DehazeNet读后总结
- hash的基本原理与实现
- Android系统服务之LightsService实现架构
- 开始我的程序员之路
- 去掉字符串前后空白
- 五种方式让你在java中读取properties文件内容不再是难题