BeautifulSoup 提取某个tag标签里面的内容
来源:互联网 发布:双色球算法公式技巧 编辑:程序博客网 时间:2024/06/01 08:08
用的版本是BeautifulSoup4,用起来的确要比 re 好用一些,不用一个个的去写正则表达式,这样还是挺方便的。
比如我要获取高匿代理IP页面上的IP和端口,网址这里:点击打开链接,它的组织方式是这样的,如下图:
IP和端口 tr.td 标签里面,tr有class属性,属性有两种情况的值,对于这点我们可以用正则表达式来匹配下。当提取某一个标签里的具体内容时,可以用bs的 .string属性,注意:用 .string 属性来提取标签里的内容时,该标签应该是只有单个节点的。比如上面的 td 标签那样。下面直接上代码了。
import requestsfrom bs4 import BeautifulSoupimport reimport os.pathuser_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5)'headers = {'User-Agent': user_agent}session = requests.session()page = session.get("http://www.xicidaili.com/nn/1", headers=headers)soup = BeautifulSoup(page.text,'lxml') #这里没有装lxml的话,把它去掉用默认的就好#匹配带有class属性的tr标签taglist = soup.find_all('tr', attrs={'class': re.compile("(odd)|()")})for trtag in taglist: tdlist = trtag.find_all('td') #在每个tr标签下,查找所有的td标签 print tdlist[1].string #这里提取IP值 print tdlist[2].string #这里提取端口值
结果如下:
124.88.67.248061.224.239.718080113.3.78.124811861.227.228.1418080222.130.171.588118123.57.190.517777183.61.71.1128888120.25.171.18380801.164.146.918080101.201.235.1418000121.193.143.24980118.180.15.1528102124.88.67.1980。。。。。。。
0 0
- BeautifulSoup 提取某个tag标签里面的内容
- BeautifulSoup的Tag提取html内容
- beautifulsoup提取所有<a>标签内容 Python
- BeautifulSoup插入标签tag的方式
- BeautifulSoup 选择某个tag,顺序
- Python使用BeautifulSoup提取特定HTML标签内容
- 使用struts2的标签,将setAttribute里面的内容直接在页面提取
- 正则表达式 提取 html 标签的内容
- jQuery获取某个标签的内容
- PHPCMS 2008中tag内容标签的解析过程
- java获取excel里面的内容(点提取)
- Oracle 里面如何实现只回滚某个事务的一部分内容?
- 获取 html里面 某个标签 id 的个数
- js获取外层标签(排除标签里面的内容)
- html去掉标签 提取内容
- 屏蔽 logcat中某个tag的方法 tag:^(?!TAG)
- beautifulsoup 提取html 页面的数据
- 用Beautifusoup提取某个标签下的只包含子标签的节点
- csu 1105 NBUT1108 打怪升级
- JS横向循环滑动也可移动性切换
- 开源项目circular-progress-button源码分析
- Intent四个重要属性
- 【Leetcode】36. Valid Sudoku
- BeautifulSoup 提取某个tag标签里面的内容
- RTSP流媒体花屏
- 《thinking In UML》读书笔记(四)模型的关系表示
- QT中QTableWidget的使用
- uva10305-拓扑排序
- ArrayList 集合的应用
- QTableWidget 点击标题栏 设置排序
- linux内核 策略路由之基本结构
- AJAX学习笔记