百思不得姐视频爬取
来源:互联网 发布:sql去重复查询余一条 编辑:程序博客网 时间:2024/04/30 00:45
# -*- coding:utf-8 -*-from Tkinter import *from ScrolledText import ScrolledTextimport urllib,requestsimport reimport threadingimport sysurl_name = []a = 1def get(): global a#全局变量 hd = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'} url = 'http://www.budejie.com/video/'+str(a) varl.set('已经获取到第%s页视频'%(a)) html = requests.get(url,headers=hd).text #print html a+=1 url_content= re.compile(r'<div class="j-r-list-c">.*?</div>.*?</div>',re.S) url_contents =re.findall(url_content,html) #print url_contents for i in url_contents: url_reg = r'data-mp4="(.*?)">'#正则表达式 url_items = re.findall(url_reg,i) #print url_items#视频列表 if url_items:#判断地址视频存不存在 name_reg = re.compile(r'<a href="/detail-.{8}?.html">(.*?)</\w',re.S) name_items = re.findall(name_reg,i) #print name_items for i,k in zip(name_items,url_items):#标题与视频结合 url_name.append([i,k]) print i,k return url_nameid = 1def write(): global id while id<10: url_name = get() for i in url_name: urllib.urlretrieve(i[1],'video\\%s.mp4' % (i[0])) text.insert(END,str(id)+'.'+i[1]+'\n'+i[0]+'\n') url_name.pop(0) id +=1 varl.set('抓取完毕')def start(): th = threading.Thread(target=write) th.start()#触发root = Tk()root.title('视频爬取')root.geometry('+400+100')#指定位置text = ScrolledText(root,font=('微软雅黑',10))text.grid()button = Button(root,text='开始爬取',font=('微软雅黑',10),fg='blue',command=start)button.grid()varl = StringVar()label = Label(root,font=('微软雅黑',10),fg='black',textvariable = varl)label.grid()varl.set('已准备...')root.mainloop()
0 0
- 百思不得姐视频爬取
- Python 爬虫,爬取”百思不得姐“搞笑视频
- 《百思不得姐》
- 百思不得姐
- python爬取百思不得姐视频
- 用python写网络爬虫-下载百思不得姐视频
- 十五行代码爬取百思不得姐网站数百视频
- 爬取百思不得姐上面的视频
- Python爬取百思不得姐的视频
- python爬取百思不得姐视频代码
- 百思不得姐项目学习总结
- 02-百思不得姐(第二天)
- 03-百思不得姐(第三天)
- 04-百思不得姐(第四天)
- 02百思不得姐设置TabBar
- 03百思不得姐appearance使用
- 百思不得姐框架(一)
- 06-百思不得姐(第六天)
- cocos中的触摸事件 、lambda表达式
- RecyclerView 下拉刷新 加载更多 左滑删除 拖动排序
- mtk8735 mtk8163 mtk8127 mtk6735量产方案 核心板方案 mtk系列平台
- 简单的微信接口验证
- idea 版本提交忽略文件或文件夹
- 百思不得姐视频爬取
- 网站新手必须学习的CSS基础语法
- kuangbin带你飞专题一(搜索)B
- 动态分区分配--最先适应分配算法
- 工厂模式
- 八皇后
- loadrunner 脚本优化-事务时间简介
- Cocoapod的安装
- 525. Contiguous Array