Python数据抓取(3) —抓取标题、时间及链接
来源:互联网 发布:软件测试是什么意思 编辑:程序博客网 时间:2024/04/30 04:01
本次分享,jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来
(一)观察元素抓取位置
- 网页的原始码很复杂,我们必须找到特殊的元素做抽取,怎么找到特殊的元素呢?使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔,我们可以知道可以透过dl-item提取一个一个的列表,既然知道我们要存储的位置在 dl-item下,我们就可以把dl-item下的结构拓展出来,我们接下来就可以根据不同的标签取得不同的内容,我们把一个个的dl-item列出来
(二)爬虫撰写
import requestsfrom bs4 import BeautifulSoupresponse = requests.get('http://www.yicai.com/data/')response.encoding = 'utf-8'soup = BeautifulSoup(response.text,'html.parser')for news in soup.select('.dl-item'): print(news.select('h3'))
- 去掉要抓取内容中的中括号[0]
for news in soup.select('.dl-item'): print(news.select('h3')[0])
- 取得里面的文字内容
for news in soup.select('.dl-item'): print(news.select('h3')[0].text)
- 抓取a 下的链接,发布来源及发布时间
for news in soup.select('.dl-item'): h3 = news.select('h3')[0].text a = news.select('a')[0]['href'] h4 =news.select('h4')[0].text print(h4,h3,a)
阅读全文
1 0
- Python数据抓取(3) —抓取标题、时间及链接
- Python简单抓取新浪某网页新闻链接及标题
- 数据抓取常用:python时间转换
- Python抓取网页链接
- Python抓取网页链接
- python抓取数据例子
- python抓取数据步骤
- Python Scrapy抓取数据
- python数据抓取
- python 抓取网页数据
- Python, 数据抓取
- python 抓取搜房网数据
- python抓取动态数据
- python 抓取数据相关
- Python数据抓取
- Python网络数据抓取
- Python抓取网页中的链接
- Python 抓取google链接代码
- win7、virtualbox、docker间的文件夹共享
- 列选择原则
- svn下载maven父子工程
- jBootstrapPage修改可以返回第一页<<和>>最后一页问题
- 机器学习入门
- Python数据抓取(3) —抓取标题、时间及链接
- 为什么世界上没有安全的工作?
- android logcat 终端调试应用
- UnityCoroutineEX
- 句柄
- vscode 1.19.0安装找不到git路径解决
- 读取,编辑和执行文件
- 设计模式学习(三)
- 第一篇博文,记录自己的研究生学习历程