协程、同步异步、并发、并行、rabbitmq、分布式任务队列

来源：互联网发布：帝国cms留言表单编辑：程序博客网时间：2024/05/20 03:04

http://www.rabbitmq.com/install-windows.html

http://www.erlang.org/downloads

http://www.cnblogs.com/yangh965/p/5862347.html

http://docs.jinkan.org/docs/celery/getting-started/first-steps-with-celery.html

http://docs.jinkan.org/docs/celery/

协程

协程不是进程或线程，其执行过程更类似于不带返回值的函数调用。

一个程序可以包含多个协程，可以对比与一个进程包含多个线程。我们知道多个线程相对独立，有自己的上下文，切换受系统控制；而协程也相对独立，有自己的上下文，但是其切换由自己控制，由当前协程切换到其他协程由当前协程来控制。

https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868328689835ecd883d910145dfa8227b539725e5ed000

子程序，或者称为函数，在所有语言中都是层级调用，比如A调用B，B在执行过程中又调用了C，C执行完毕返回，B执行完毕返回，最后是A执行完毕。所以子程序调用是通过栈实现的，一个线程就是执行一个子程序。

子程序调用总是一个入口，一次返回，调用顺序是明确的。而协程的调用和子程序不同。

协程看上去也是子程序，但执行过程中，在子程序内部可中断，然后转而执行别的子程序，在适当的时候再返回来接着执行。

协程的特点在于是一个线程执行，那和多线程比，协程有何优势？

最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换（线程切换：当CPU从执行一个线程切换到执行另外一个线程的时候，它需要先存储当前线程的本地的数据，程序指针等，然后载入另一个线程的本地数据，程序指针等，最后才开始执行。线程在运行的时候需要从计算机里面得到一些资源。除了CPU，线程还需要一些内存来维持它本地的堆栈。它也需要占用操作系统中一些资源来管理线程，增加了资源消耗），而是由程序自身控制，因此，没有线程切换的开销，和多线程比，线程数量越多，协程的性能优势就越明显。

第二大优势就是不需要多线程的锁机制，因为只有一个线程，也不存在同时写变量冲突，在协程中控制共享资源不加锁，只需要判断状态就好了，所以执行效率比多线程高很多。

因为协程是一个线程执行，那怎么利用多核CPU呢？最简单的方法是多进程+协程，既充分利用多核，又充分发挥协程的高效率，可获得极高的性能。

Python对协程的支持还非常有限，用在generator中的yield可以一定程度上实现协程。虽然支持不完全，但已经可以发挥相当大的威力了。

线性表

栈（stack）又名堆栈，它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。这一端被称为栈顶，相对地，把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈，它是把新元素放到栈顶元素的上面，使之成为新的栈顶元素；从一个栈删除元素又称作出栈或退栈，它是把栈顶元素删除掉，使其相邻的元素成为新的栈顶元素。

特点：先进后出

队列是一种特殊的线性表，特殊之处在于它只允许在表的前端（front）进行删除操作，而在表的后端（rear）进行插入操作，和栈一样，队列是一种操作受限制的线性表。进行插入操作的端称为队尾，进行删除操作的端称为队头。

特点：先进先出

同步异步

同步和异步的概念对于很多人来说是一个模糊的概念，是一种似乎只能意会不能言传的东西。其实我们的生活中存在着很多同步异步的例子。比如：你叫我去吃饭，我听到了就立刻和你去吃饭，如果我们有听到，你就会一直叫我，直到我听见和你一起去吃饭，这个过程叫同步；异步过程指你叫我去吃饭，然后你就去吃饭了，而不管我是否和你一起去吃饭。而我得到消息后可能立即就走，也可能过段时间再走。

在计算机领域，同步就是指一个进程在执行某个请求的时候，若该请求需要一段时间才能返回信息，那么这个进程将会一直等待下去，直到收到返回信息才继续执行下去；异步是指进程不需要一直等下去，而是继续执行下面的操作，不管其他进程的状态。当有消息返回时系统会通知进程进行处理，这样可以提高执行的效率。

而我们平时经常讨论的同步问题多发生在多线程环境中的数据共享问题。即当多个线程需要访问同一个资源时，它们需要以某种顺序来确保该资源在某一特定时刻只能被一个线程所访问，如果使用异步，程序的运行结果将不可预料。因此，在这种情况下，就必须对数据进行同步，即限制只能有一个进程访问资源，其他线程必须等待。

实现同步的机制主要有临界区、互斥、信号量和事件

临界区：通过对多线程的串行化来访问公共资源或一段代码，速度快，适合控制数据访问。在任意时刻只允许一个线程对共享资源进行访问，如果有多个线程试图访问公共资源，那么在有一个线程进入后，其他试图访问公共资源的线程将被挂起，并一直等到进入临界区的线程离开，临界区在被释放后，其他线程才可以抢占。

互斥量：采用互斥对象机制。只有拥有互斥对象的线程才有访问公共资源的权限，因为互斥对象只有一个，所以能保证公共资源不会同时被多个线程访问。互斥不仅能实现同一应用程序的公共资源安全共享，还能实现不同应用程序的公共资源安全共享 .互斥量比临界区复杂。因为使用互斥不仅仅能够在同一应用程序不同线程中实现资源的安全共享，而且可以在不同应用程序的线程之间实现对资源的安全共享。

信号量：它允许多个线程在同一时刻访问同一资源，但是需要限制在同一时刻访问此资源的最大线程数目。信号量对象对线程的同步方式与前面几种方法不同，信号允许多个线程同时使用共享资源，这与操作系统中的PV操作相同。它指出了同时访问共享资源的线程最大数目。它允许多个线程在同一时刻访问同一资源，但是需要限制在同一时刻访问此资源的最大线程数目。

事件：通过通知操作的方式来保持线程的同步，还可以方便实现对多个线程的优先级比较的操作。

并发

并发当有多个线程在操作时,如果系统只有一个CPU,则它根本不可能真正同时进行一个以上的线程，它只能把CPU运行时间划分成若干个时间段,再将时间段分配给各个线程执行，在一个时间段的线程代码运行时，其它线程处于挂起状。.这种方式我们称之为并发(Concurrent)。

并行：当系统有一个以上CPU时,则线程的操作有可能非并发。当一个CPU执行一个线程时，另一个CPU可以执行另一个线程，两个线程互不抢占CPU资源，可以同时进行，这种方式我们称之为并行(Parallel)。

区别：并发和并行是即相似又有区别的两个概念，并行是指两个或者多个事件在同一时刻发生；而并发是指两个或多个事件在同一时间间隔内发生。在多道程序环境下，并发性是指在一段时间内宏观上有多个程序在同时运行，但在单处理机系统中，每一时刻却仅能有一道程序执行，故微观上这些程序只能是分时地交替执行。倘若在计算机系统中有多个处理机，则这些可以并发执行的程序便可被分配到多个处理机上，实现并行执行，即利用每个处理机来处理一个可并发执行的程序，这样，多个程序便可以同时执行。

rabbitmq

MQ全称为Message Queue, 消息队列（MQ）是一种应用程序对应用程序的通信方法。应用程序通过读写出入队列的消息（针对应用程序的数据）来通信，而无需专用连接来链接它们。消息传递指的是程序之间通过在消息中发送数据进行通信，而不是通过直接调用彼此来通信，直接调用通常是用于诸如远程过程调用的技术。排队指的是应用程序通过队列来通信。队列的使用除去了接收和发送应用程序同时执行的要求。其中较为成熟的MQ产品有IBM WEBSPHERE MQ等等。

MQ特点

MQ是消费-生产者模型的一个典型的代表，一端往消息队列中不断写入消息，而另一端则可以读取或者订阅队列中的消息。

使用场景

在项目中，将一些无需即时返回且耗时的操作提取出来，进行了异步处理，而这种异步处理的方式大大的节省了服务器的请求响应时间，从而提高了系统的吞吐量。

使用

1.以默认的账号密码，账号密码都为guest，进入rabbitmq，127.0.0.1:15672

2.新建账号：

Guest账户只能本机访问，远程访问的话，只能新建账号密码。

选择Admin，

在

输入要新建的账户，密码及确认密码。

将此账户设为管理员账号。

2.设置目录：

通常我们会将队列放入其他目录下，安全考虑。

选择

然后在，输入要新建的目录，添加即可。

3.为添加的目录设置账户：

点击spider账户，进入

从，选择 /spider即可。

最后的结果为：

Celery

分布式任务队列

Celery 是一个简单、灵活且可靠的，处理大量消息的分布式系统，并且提供维护这样一个系统的必需工具。

它是一个专注于实时处理的任务队列，同时也支持任务调度。

任务队列

任务队列是一种在线程或机器间分发任务的机制。

消息队列

消息队列的输入是工作的一个单元，称为任务，独立的职程（Worker）进程持续监视队列中是否有需要处理的新任务。

Celery 用消息通信，通常使用中间人（Broker）在客户端和职程间斡旋。这个过程从客户端向队列添加消息开始，之后中间人把消息派送给职程，职程对消息进行处理。如下图所示：

Celery 系统可包含多个职程和中间人，以此获得高可用性和横向扩展能力。

Celery的架构

Celery的架构由三部分组成，消息中间件（message broker），任务执行单元（worker）和任务执行结果存储（task result store）组成。

消息中间件

Celery本身不提供消息服务，但是可以方便的和第三方提供的消息中间件集成，包括，RabbitMQ,Redis,MongoDB等。

任务执行单元

Worker是Celery提供的任务执行的单元，worker并发的运行在分布式的系统节点中

任务结果存储

Task result store用来存储Worker执行的任务的结果，Celery支持以不同方式存储任务的结果，包括Redis，MongoDB，mysql等。

安装：

pip install celery

pip install eventlet

http://docs.celeryproject.org/en/latest/reference/celery.bin.worker.html

#ss.py

# coding=utf-8

# 导入celery包
from celery import Celery
# 导入Exchange, Queue，连接rabbitmq的交换机和队列
from kombu import Exchange, Queue
# 需求请求时导入requests包
import requests

requests.packages.urllib3.disable_warnings()
# 启动命令
# 即worker，cmd命令后，转入到此文件所在目录，然后运行此命令。

# celery -A  ss worker -P eventlet -c 3 --loglevel=info
# 其中  ss为文件名，3为协程数，这两处可以自己定义
# 初始化celery
app = Celery()
# 声明连接到rabbitmq中的队列为ss2
QueueName = "ss"
# 参数设置celery
app.conf.update(
    # 中间人设置
    BROKER_URL="amqp://spider:spider_123@127.0.0.1:5672//spider",
    # 配置序列化任务载荷的默认的序列化方式
    CELERY_TASK_SERIALIZER='json',
    # 忽略接收其他内容
    CELERY_ACCEPT_CONTENT=['json'],
    # 结果序列号
    CELERY_RESULT_SERIALIZER='json',
    # 设置时区
    CELERY_TIMEZONE='Asia/Shanghai',
    # 使用UTC的方式，UTC的时间、时区、时差
    CELERY_ENABLE_UTC=True,
    # 配置队列
    CELERY_QUEUES=(
        Queue(QueueName, Exchange(QueueName), routing_key=QueueName),
    ),
    # 默认队列
    CELERY_DEFAULT_QUEUE=QueueName,
    # 连接方式
    CELERY_DEFAULT_EXCHANGE_TYPE='direct',
    # 路由队列
    CELERY_DEFAULT_ROUTING_KEY=QueueName,
    # 任务执行结果的超时时间
    CELERY_TASK_RESULT_EXPIRES=1800,
    # worker 每次取任务的数量
    CELERYD_PREFETCH_MULTIPLIER=1,
    # 每个worker最多执行完10个任务就会被销毁,可防止内存泄露
    CELERYD_MAX_TASKS_PER_CHILD=10,
    #  非常重要,有些情况下可以防止死锁
    CELERYD_FORCE_EXECV=True,
    # 可以让Celery更加可靠,只有当worker执行完任务后,才会告诉MQ,消息被消费
    CELERY_ACKS_LATE=True,
    # 单个任务的运行时间不超过此值，否则会被SIGKILL 信号杀死
    CELERYD_TASK_TIME_LIMIT=600,
    #  任务发出后，经过一段时间还未收到acknowledge , 就将任务重新交给其他worker执行
    CELERY_DISABLE_RATE_LIMITS=True
)

@app.task
def add(x, y):
    return x + y

#sa.py

# coding=utf-8
import ss

try:
    for i in xrange(1,10):
        ss.add.delay(i, i)#delay实现异步，关键的部分
except Exception,ex:
    print ex.message
print 'end'

阅读全文

0 0