创建爬虫----复杂HTML解析
来源:互联网 发布:删除数据表的sql语句 编辑:程序博客网 时间:2024/05/21 10:48
BeautifulSoup的find()和findAll()
可通过标签的不同属性轻松的过滤HTML页面,查找需要的标签组或单个标签
#findAll(tag,attributes,recursive,text,limit,keywords)#find(tag,attributes,recursive,text,keywords)#爬取大众点评的一页信息from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen("http://www.dianping.com/shop/2484325/review_more_5star?pageno=1")bsObj=BeautifulSoup(html)nameList=bsObj.findAll("div",{"class":"J_brief-cont"})for name in nameList: print(name.get_text())
#相关小知识#1.递归参数recursive是一个布尔变量,recursive=true,会查找标签参数的所有子标签,以及子标签的子标签。recursive=false,只查找文档的一级标签。 2.nameList=bsObj.findAll(text="the prince") print(len(namelist))#查找网页包含"the prince"内容的标签数量; 3.find等价于findall的limit=1的情形 4.关键参数keyword,选择那些具有指定属性的标签。 eg. allText=bsObj.findAll(id="text") print(allText[0].get_text()) 等价于:allText=bsObj.findAll("",{"id":"text"})allText=bsObj.findAll(class_="green")等价于:allText=bsObj.findAll("",{"class":"green"})
阅读全文
1 0
- 创建爬虫----复杂HTML解析
- python网络爬虫-复杂HTML解析
- HTML解析,网络爬虫
- HTML解析,网络爬虫
- 解析爬虫, Document解析html
- 复杂HTML代码深度解析
- 复杂HTML代码深度解析
- 【解析HTML】HTML解析,网络爬虫
- python爬虫之html解析
- 爬虫之pyquery 解析html
- 第二章 复杂的HTML解析
- 第2章复杂HTML解析
- 爬虫相关(2)---- 解析HTML源码
- BeautifulSoup 解析html方法(爬虫)
- 网络爬虫2----JSoup解析HTML
- php解析html类库simple_html_dom(爬虫相关)
- Python爬虫之正则 & BeautifulSoup4解析HTML
- php解析html类库simple_html_dom(爬虫相关)
- 成功之人,必定有一个好的习惯!
- IBatis-学习-2
- 第一次使用Android Studio时你应该知道的一切配置(转载)
- 链表求和
- 搜索框缓存搜索记录
- 创建爬虫----复杂HTML解析
- Android性能优化之Profile GPU Rendering
- unity3d 为什么清晰的图片会变模糊
- 美团CODEM 黑白树 思维,拓扑DP
- android WebView加载不出Html的问题
- 微信第三平台全网发布小结
- BZOJ 2060: [Usaco2010 Nov]Visiting Cows 拜访奶牛 树形dp
- Android中Wifi未开启情况下获取Mac地址
- 完全式分布安装