程序博客网 > 九州园艺三角梅淘宝店

python处理HTML和XML

来源：互联网发布：九州园艺三角梅淘宝店编辑：程序博客网时间：2024/05/20 15:58

处理HTML

HTMLParser模块的HTMLParser类

在Python中可以使用HTMLParser模块处理HTML,获取页面感兴趣的内容。HTMLParser模块提供了对HTML标记处理的方法。在使用HTMLParser模块处理HTML时，首先应继承HTMLParser模块中的HTMLParser类，然后重载相关的处理方法。

feed(data)

其中data为传递的数据
当向HTMLParser对象传递数据后，其就开始对数据进行处理

colse()

强制处理feed方法存在在缓冲区中的数据

reset()

重新设置对象实例

getpos()

获得当前处理的行号和偏移位置

handle_starttag(tag,attrs)

其中tag:HTMLParser遇到的标记

attrs:标记的属性

遇到某些标记或者数据时调用

handle_startendtag(tag,attrs)

其中tag:HTMLParser遇到的标记
arrts:标记的属性
当HTMLParser遇到类似于<br/>的标记时调用

handle_endtag(tag)

其中tag：HTMLParser遇到的结束标记
当HTMLParser遇到结束标记时调用

handle_data(data)

其中：data为标记间的数据
处理标记间的数据

hand_comment(data)

其中：data为注释内容
遇到HTML中的注释

htmllib模块的HTMLParser类

anchor_bgn(href,name,type)
anchor_end()

处理超链接

handle_image(source,alt,ismap.align,width,height)

处理图片

0 0

九州园艺三角梅淘宝店

九州园艺三角梅淘宝店

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子派的笔顺派潭镇派潭镇旅游沈阳派特森价格派特森国际英语派特森英语派特森沈阳派特森英语学校派特森英语学校怎么样新东方和派特森哪个好沈阳英语巧口英语沈阳英语培训班沈阳口语培训沈阳英语培训沈阳雅思培训派特灵怎么用派特灵说明书派特灵多少钱派特灵价格派特灵服务中心中科院派特灵中科派特灵派特灵图片 2018派特灵服务中心靠谱吗特派灵派特灵用过后的效果森泽理纱派悦坊蛋糕怎么样派悦坊生日蛋糕派悦坊创始人派悦坊电话阿瑞匹坦胶囊阿瑞匹坦胶囊多少钱一盒意美阿瑞匹坦胶囊价格意美阿瑞匹坦胶囊派瑞松软膏派瑞松派瑞松软膏的作用派瑞松乳膏派瑞松和达克宁