python脚本批量执行shell,使用queue、threading库

来源:互联网 发布:绘声绘色软件怎么使用 编辑:程序博客网 时间:2024/05/16 06:48

python脚本批量执行shell,使用queue、threading库


多线程队列再出江湖,搭配执行批量shell的hadoop上传sc操作。然后调试看看效果





​本篇为编码操作。

和我上上家公司一样,多线程爬虫某豆荚的app应用网站,但是此次功能没有那复杂了,就是为了快点搞完。

那现在我们开始,引入Queue队列,和threading。

来看看python基础。

基本FIFO队列

class Queue.Queue(maxsize=0)

FIFO即First in First Out,先进先出。Queue提供了一个基本的FIFO容器,使用方法很简单,maxsize是个整数,指明了队列中能存放的数据个数的上限。一旦达到上限,插入会导致阻塞,直到队列中的数据被消费掉。如果maxsize小于或者等于0,队列大小没有限制。

举个栗子:

 移除点击此处添加图片说明文字

​输出:

 移除点击此处添加图片说明文字

LIFO队列

class Queue.LifoQueue(maxsize=0)

LIFO即Last in First Out,后进先出。与栈的类似,使用也很简单,maxsize用法同上

再举个栗子:

 移除点击此处添加图片说明文字

优先级队列

class Queue.PriorityQueue(maxsize=0)

构造一个优先队列。maxsize用法同上。

 移除点击此处添加图片说明文字

稍微大致看一下,队列和java的思想一致。


一些常用方法

task_done()

意味着之前入队的一个任务已经完成。由队列的消费者线程调用。每一个get()调用得到一个任务,接下来的task_done()调用告诉队列该任务已经处理完毕。

如果当前一个join()正在阻塞,它将在队列中的所有任务都处理完时恢复执行(即每一个由put()调用入队的任务都有一个对应的task_done()调用)。

join()

阻塞调用线程,直到队列中的所有任务被处理掉。

只要有数据被加入队列,未完成的任务数就会增加。当消费者线程调用task_done()(意味着有消费者取得任务并完成任务),未完成的任务数就会减少。当未完成的任务数降到0,join()解除阻塞。

put(item[, block[, timeout]])

将item放入队列中。

  1. 如果可选的参数block为True且timeout为空对象(默认的情况,阻塞调用,无超时)。
  2. 如果timeout是个正整数,阻塞调用进程最多timeout秒,如果一直无空空间可用,抛出Full异常(带超时的阻塞调用)。
  3. 如果block为False,如果有空闲空间可用将数据放入队列,否则立即抛出Full异常

其非阻塞版本为

put_nowait

等同于

put(item, False)

get([block[, timeout]])

从队列中移除并返回一个数据。block跟timeout参数同

put

方法

其非阻塞方法为`get_nowait()`相当与

get(False)

empty()

如果队列为空,返回True,反之返回False


来看我们的代码改造:

此处没必要设置权重吧,我觉得没必要吧。

 移除点击此处添加图片说明文字

​恩,写入队列逻辑

 移除点击此处添加图片说明文字




接下来是python多线程的基础,大致浏览一下,然后我们改造自身代码

这个人将多线程讲的挺生动的,嘿嘿引用一下。

https://www.cnblogs.com/fnng/p/3670789.html

好一句,为了不浪费你时间。

 移除点击此处添加图片说明文字



原创粉丝点击