Python入门
来源:互联网 发布:淘宝助手打印快递单 编辑:程序博客网 时间:2024/05/29 09:56
python入门
前几天自己看了一下ptyhon的语法,根据网上的教程自己写了一个小小的爬虫,可以爬出淘mm的展示图片,然后自动保存到目录,
import randomimport sysreload(sys)import requestsimport urllibfrom bs4 import BeautifulSoupimport timedef gDownloadWithFilename(url,savePath,file): #参数检查,现忽略 try: urlopen=urllib.URLopener() fp = urlopen.open(url) data = fp.read() fp.close() file=open(savePath + file,'w+b') file.write(data) file.close() except IOError, error: print "DOWNLOAD %s ERROR!==>>%s" % (url, error) except Exception, e: print "Exception==>>" + e returnurl='https://mm.taobao.com/json/request_top_list.htm?page=3'headerss = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400',}data = requests.get(url, headers=headerss)soup = BeautifulSoup(data.text, 'lxml')count=0import timefor img in soup.find_all(class_="lady-avatar"): print img.get('href') src_1="http:"+img.get('href') data2 = requests.get(src_1,headers=headerss) soup2=BeautifulSoup(data2.text,'lxml') fo= open("list_img_taobao.txt","a") fo.write("====="+str((soup.find_all(class_="lady-avatar")).index(img))+"============") fo.close() for imgg in soup2.find_all("img"): print imgg.get('src') fo= open("list_img_taobao.txt","a") time.sleep(1) jpg_url ="http:"+imgg.get('src') fo.write("第"+str(count)+" "+jpg_url+"\n") gDownloadWithFilename(jpg_url,"./img/",str(count)+".jpg") count+=1 fo.close()
有这样几个问题
一个是python的冒号我经常忘掉
另外下载之前似乎应该检查一下下载的后缀,为jpg才应该下载,然后保存可以在优化一下,分为几个文件夹保存,最后,下载下来的图片有时候莫名其妙的大小就是5m固定的,有可能我因为我网络不好的问题,在另存为一下就好了。
阅读全文
1 0
- Python入门
- python入门
- Python入门
- Python入门
- Python入门
- Python入门
- python入门
- Python入门
- Python 入门
- Python入门
- python入门
- Python入门
- python入门
- python入门
- Python入门
- python 入门
- python入门
- python入门
- Code force 195A—Let's Watch Football
- 冒泡排序
- [LeetCode]476. Number Complement
- Entity Framework无法将更改同步到数据库的问题
- python爬虫一:必应图片(从网页源代码中找出图片链接然后下载)
- Python入门
- 一个简化版的SSH后端框架demo,支持接口、页面开发
- 【Away3D代码解读】(一):主要类及说明
- 人工智能要闻: 沃尔玛用机器人取代数千岗位, 腾讯开AI加速器, 猎户星空获微软人脸识别有限制类第一名
- tcp协议_mss
- Git 一些错误的解决方法 Pull is not possible because you have unmerged files.
- java导出csv文件
- 121. Best Time to Buy and Sell Stock
- hdu2222(AC自动机)