爬虫之爬取163网页

来源：互联网发布：正能量软件编辑：程序博客网时间：2024/05/20 20:47

源码

import requestsfrom bs4 import BeautifulSoupres=requests.get('http://www.163.com/')#res.encoding='utf-8'  好像网易的编码不是utf-8soup=BeautifulSoup(res.text,'html.parser')  #用BeautifulSoup解析结果集for news in soup.select('.cm_fb'):     #在FireFox中用Firebug检查发现新闻放在class为cm_fb的div下    a = news.select('a')[0].text    a_href = news.select('a')[0]['href']    print(a,a_href)

结果

本来想爬取时间，后来发现时间都隐藏在网页的链接中不容易爬取，遂放弃。

############这只是一部分的内容###############胜战之问：如何提高军队打胜仗能力 http://news.163.com/17/0803/08/CQTD8CJ7000189FH.html中方称印度边防部队人数降至40 印辩称:没少 http://news.163.com/17/0803/09/CQTFFIU4000187V9.html为捍卫这3块领土 中国外交部3次发文表明立场 http://news.163.com/17/0803/00/CQSGNBI70001875N.html湖南破特大网络传销案 嫌疑人家中搜出7000万 http://news.163.com/17/0803/10/CQTJ1F8I0001875P.html胜战之问：如何提高军队打胜仗能力 http://news.163.com/17/0803/08/CQTD8CJ7000189FH.html中方称印度边防部队人数降至40 印辩称:没少 http://news.163.com/17/0803/09/CQTFFIU4000187V9.html为捍卫这3块领土 中国外交部3次发文表明立场 http://news.163.com/17/0803/00/CQSGNBI70001875N.html湖南破特大网络传销案 嫌疑人家中搜出7000万 http://news.163.com/17/0803/10/CQTJ1F8I0001875P.html

内文爬取

采用一样的requests方法获得页面标题、内容以充实数据。

阅读全文

0 0