数据采集(三):用XPath爬取腾讯新闻
来源:互联网 发布:淘宝发货地可以改吗 编辑:程序博客网 时间:2024/05/29 07:49
需要导入的库
import requestsfrom lxml import etree
先用requests.get()方法请求页面
result=requests.get("http://news.qq.com/")encode=result.encodingcontent=result.contentencode
'GB2312'
注意指定解析器的编码格式
selector=etree.HTML(content,parser=etree.HTMLParser(encoding=encode))
腾讯新闻首页上每条新闻的标题以及超链接,对应html源码有如下结构:
<a target="_blank" class="linkto" href="http://news.qq.com/a/20170720/019981.htm">辽宁舰过航台湾海峡遭美军驱逐舰跟踪 国防部回应</a>
用Xpath解析新闻的标题及url
samples=selector.xpath('//a[@class="linkto"]')for sample in samples: title=sample.text.strip() print title url=sample.attrib['href'] print url
辽宁舰过航台湾海峡遭美军驱逐舰跟踪 国防部回应http://news.qq.com/a/20170720/019981.htm“七下八上”主汛期将至:北方多雨 周末华北“退烧”http://news.qq.com/a/20170720/019390.htm巴西众院弹劾总统案获通过 罗塞夫政党承认落败http://news.qq.com/a/20160418/023091.htm腾讯股价拆股后首次达300港元 今年累计涨幅超55%http://tech.qq.com/a/20170720/016568.htm美国参议员麦凯恩被诊断出脑癌 曾参选美国总统http://news.qq.com/a/20170720/009125.htm人社部:36种高价刚需药纳入医保 最高降幅达70%http://news.qq.com/a/20170720/012923.htm人民日报海外版:印度推进“大国梦”急不可耐http://news.qq.com/a/20170720/001930.htm万达融创富力集体高开 三者签约637亿元并购案http://stock.qq.com/a/20170720/015276.htm苹果可能真的在造车,在中国秘密开发动力电池http://tech.qq.com/a/20170720/010845.htm开发商毁约夺地 将4S店砸成废墟http://news.qq.com/a/20170719/058897.htm苹果股价连涨9天创纪录 iPhone 8延迟上市也挡不住http://tech.qq.com/a/20170720/016469.htm印军在克什米尔地区对巴方“无故”开火 巴军方回击http://news.qq.com/a/20170720/001479.htm男孩独自乘机出国被逐下航班 航空公司:托管儿童超额http://news.qq.com/a/20170720/001745.htm地产三巨头60分钟魔幻剧:富力背景板“进出”大戏http://finance.qq.com/a/20170719/061523.htm范冰冰亏4400万又如何?投房地产葡萄酒收获颇丰http://ent.qq.com/a/20170720/005916.htm刘亦菲获专人撑伞 长发白裙却穿拖鞋http://ent.qq.com/a/20170720/005185.htm袁泉带女儿现身 小姑娘推行李超自立http://ent.qq.com/a/20170720/007934.htm美股三大指数齐创收盘纪录新高 纳指九连涨http://stock.qq.com/a/20170720/001560.htm神锋驾到!切尔西官方宣布莫拉塔加盟http://sports.qq.com/a/20170720/001226.htm京东与唯品会否认合并传闻 周三开盘股价双双上涨http://tech.qq.com/a/20170719/061676.htm农业部再发两个进口转基因生物安全证书:均为玉米http://finance.qq.com/a/20170719/060784.htm不延迟了!iPhone 8会在9月底推出http://tech.qq.com/a/20170720/003257.htm世锦赛-女子10米台中国双保险丢冠 马来西亚夺历史首金http://sports.qq.com/a/20170720/001150.htm亚马逊推出自己的社交网络 不过目前只针对iOS用户http://tech.qq.com/a/20170719/065360.htm美国宣布对涉伊核中国民企和个人单边制裁 中方回应http://news.qq.com/a/20170719/052073.htmIBM连续21季度营收下滑为何仍能实现盈利?http://stock.qq.com/a/20170719/066938.htm港媒:菲律宾捣破一以中国人为首绑架匪帮 拘捕45人http://news.qq.com/a/20170719/061172.htm环法第17赛段 荷兰乐透车队罗格利奇夺冠http://sports.qq.com/a/20170719/066844.htm寒门出贵子!双胞胎兄弟全都考进名校http://news.qq.com/a/20170719/045395.htm深圳积分入户放开学历限制 港媒:中小城市或效仿http://news.qq.com/a/20170720/001173.htm白银案被告人高承勇庭审鞠躬道歉现场http://news.qq.com/a/20170719/065456.htm朴槿惠以健康不佳为理由 再次拒绝为李在http://news.qq.com/a/20170719/053842.htm
阅读全文
0 0
- 数据采集(三):用XPath爬取腾讯新闻
- 腾讯新闻评论数据爬取
- 腾讯新闻评论数据爬取
- 腾讯新闻评论数据爬取
- 数据采集(二):腾讯新闻网,新闻标题和内容爬取
- 数据采集(四):用XPath爬取链家网房价数据
- python爬虫之爬取腾讯新闻
- nodejs 采集新闻数据
- nodejs 采集新闻数据
- java 采集新闻数据
- 实战 利用Xpath爬取网页数据
- python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
- python爬虫实战(2)——爬取腾讯新闻
- webmagic爬取腾讯nba数据
- 爬取腾讯视频网站数据
- htmlcleaner+xpath爬取
- xpath 爬取图片
- 对Xpath爬取网页数据的理解
- JavaSE_面向对象4
- HTML 5+ SDK Android平台离线打包分享插件配置 微信分享
- java代码在图片上画框
- 常见排序算法之冒泡排序
- No compiler is provided in this environment. Perhaps you are running on a JR
- 数据采集(三):用XPath爬取腾讯新闻
- HBuilder 热更新后JS没有更新
- appium 演示代码
- 决策树
- 几种常见的ubuntu源
- HDU 1233-还是畅通工程(经典的最小生成树, Kruskal和prim算法)
- IOS开发-基于WebDriverAgent代理服务,实现iOS手机app自动化测试的框架搭建
- CDOJ1061-秋实大哥与战争 线段树区间合并问题(求最长连续区间长度)
- 网易 | 数据结构和算法 | 学习笔记01:绪论