python抓取京东商品颜色&beautifulsoup的一些常用函数
来源:互联网 发布:js清除浏览器history 编辑:程序博客网 时间:2024/05/21 11:13
python爬虫抓取京东上商品时,大部分商品有颜色的选项,所以想把不同颜色的商品都爬取的时候,需要获得这个商品的url
首先要找到商品颜色的那个地方,不知为何用浏览器看是显示javascript,然是用requests下载下来的时候就是用url的,尝试抓了一天点击的js去请求都没抓到,坑
于是写了一个返回当前商品所有颜色的url数组的函数,如果只有一种颜色,那么就返回一个只有当前url的数组
import requestsfrom bs4 import BeautifulSoupdef getItemUrl(url): r = requests.get(url) soup = BeautifulSoup(r.content,'html.parser') try: tmpHref = [item.find('a') for item in soup.find(id='choose-color').find_all(class_='item')] href = [] for h in tmpHref: if h != None: href.append('http:'+h.get('href')) except: href = [url] return hrefif __name__ == '__main__': for item in getPage('http://item.jd.com/1076647290.html'): print item#http://item.jd.com/1739587109.html这个是只有一种颜色的,上面那个是有多种颜色的
另外beautifulsoup的一些常用函数
- find() :一般用于找某个id或者class,用法find(id=’xxx’)或者find(class_=’xxx’)
get() :一般用于获取当前标签下的某项属性
例子:如a href = ‘xxx’这样的先用find(‘a’)找到,再用get(‘href’)获得它的url
0 0
- python抓取京东商品颜色&beautifulsoup的一些常用函数
- BeautifulSoup常用的函数
- python beautifulsoup抓取京东商品名称和价格
- 京东商品数据抓取
- python 抓取网页--用BeautifulSoup
- 使用Python+selenium+BeautifulSoup抓取动态网页的关键信息
- python爬虫,抓取新浪科技的文章(beautifulsoup+mysql)
- BeautifulSoup中一些函数的用法归纳
- Python中BeautifulSoup的常用操作
- BeautifulSoup库的常用的函数
- 使用golang抓取京东商品数据
- python一些常用函数
- python beautifulsoup多线程分析抓取网页
- BeautifulSoup+正则+Python 抓取网页数据
- python beautifulsoup 抓取网页正文内容
- python beautifulsoup多线程分析抓取网页
- Python结合BeautifulSoup抓取知乎数据
- python用BeautifulSoup抓取知乎小药丸
- JS日期加减,日期运算
- android Launcher文件夾功能分析
- python的threading和multiprocessing模块初探
- JavaScript(二)
- 卷积神经网络及其在图像处理中的应用
- python抓取京东商品颜色&beautifulsoup的一些常用函数
- IDEA快捷键汇总
- java异常-The type javax.servlet.http.HttpServletRequest cannot be resolved. It is indirectly reference
- 解决The connection was refused when attempting to contact localhost
- MFC的 CImage 解析
- NDIS 6 Filter
- MyEclipse中配置maven,入门操作!
- 关于字体适配的那些事
- "launching delegate..." 停在 27%...