python抓取京东商品颜色&beautifulsoup的一些常用函数

来源:互联网 发布:js清除浏览器history 编辑:程序博客网 时间:2024/05/21 11:13

  python爬虫抓取京东上商品时,大部分商品有颜色的选项,所以想把不同颜色的商品都爬取的时候,需要获得这个商品的url

  首先要找到商品颜色的那个地方,不知为何用浏览器看是显示javascript,然是用requests下载下来的时候就是用url的,尝试抓了一天点击的js去请求都没抓到,坑

  于是写了一个返回当前商品所有颜色的url数组的函数,如果只有一种颜色,那么就返回一个只有当前url的数组

import requestsfrom bs4 import BeautifulSoupdef getItemUrl(url):  r = requests.get(url)  soup = BeautifulSoup(r.content,'html.parser')  try:      tmpHref = [item.find('a') for item in soup.find(id='choose-color').find_all(class_='item')]      href = []      for h in tmpHref:          if h != None:              href.append('http:'+h.get('href'))  except:      href = [url]  return hrefif __name__ == '__main__':    for item in getPage('http://item.jd.com/1076647290.html'):        print item#http://item.jd.com/1739587109.html这个是只有一种颜色的,上面那个是有多种颜色的

  另外beautifulsoup的一些常用函数

  • find() :一般用于找某个id或者class,用法find(id=’xxx’)或者find(class_=’xxx’)
  • get() :一般用于获取当前标签下的某项属性

    例子:如a href = ‘xxx’这样的先用find(‘a’)找到,再用get(‘href’)获得它的url

0 0