从多处理开始芹菜工

我是芹菜新手。我见过的所有例子都是从命令行启动一名芹菜工作者。例如：从多处理开始芹菜工

$ celery -A proj worker -l info

我开始一个关于弹性beanstalk的项目，并认为将worker设为我的web应用程序的子进程会很好。我尝试使用多处理，它似乎工作。我想知道这是一个好主意，还是可能有一些缺点。

import celery 
import multiprocessing 


class WorkerProcess(multiprocessing.Process): 
    def __init__(self): 
     super().__init__(name='celery_worker_process') 

    def run(self): 
     argv = [ 
      'worker', 
      '--loglevel=WARNING', 
      '--hostname=local', 
     ] 
     app.worker_main(argv) 


def start_celery(): 
    global worker_process 
    worker_process = WorkerProcess() 
    worker_process.start() 


def stop_celery(): 
    global worker_process 
    if worker_process: 
     worker_process.terminate() 
     worker_process = None 


worker_name = '[email protected]' 
worker_process = None 

app = celery.Celery() 
app.config_from_object('celery_app.celeryconfig')

来源

2015-04-26 ernasty

有趣的是，这段代码与应用程序和工作者的_same_ Celery实例一起工作。否则，例如创建工人命令行，似乎总是创建一个新的Celery实例。我不知道这是否是一个问题... – Jens

似乎是个不错的选择，绝对不是唯一的选择，但一个好的:)

你可能想看看（你可能已经这样做）

一两件事，是连接到自动缩放你的芹菜队列的大小。所以你只能在队列增长时扩大规模。

有效地，芹菜在内部做类似的事情，所以没有太大的区别。我能想到的唯一障碍是对外部资源（例如数据库连接）的处理，这可能是一个问题，但完全取决于您对Celery所做的工作。

来源

2015-04-26 13:25:41 Wolph

如果有人感兴趣，我确实已经使用运行Python 3.4的预配置AMI服务器来处理Elastic Beanstalk。运行Debian Jessie的基于Docker的服务器遇到了很多问题。也许，与端口重新映射有关。 Docker是一个黑盒子，我发现它很难使用和调试。幸运的是，AWS中的好人刚刚在2015年4月8日添加了非泊坞窗Python 3.4选项。

我做了大量搜索以获得部署和工作。我看到很多没有答案的问题。所以这里是我非常简单部署的python 3.4/flask/celery过程。

芹菜，你可以只是点子安装。您需要使用config命令或container_command从配置文件安装rabbitmq。我在我上传的项目zip中使用了一个脚本，因此使用脚本需要container_command（在项目安装之前发生常规eb config命令）。

[yourapproot]/ebextensions/05_install_rabbitmq.config：

container_commands: 
    01RunScript: 
    command: bash ./init_scripts/app_setup.sh

[yourapproot] /init_scripts/app_setup.sh：

#!/usr/bin/env bash 

# Download and install Erlang 
yum install erlang 

# Download the latest RabbitMQ package using wget: 
wget http://www.rabbitmq.com/releases/rabbitmq-server/v3.5.1/rabbitmq-server-3.5.1-1.noarch.rpm 

# Install rabbit 
rpm --import http://www.rabbitmq.com/rabbitmq-signing-key-public.asc 
yum -y install rabbitmq-server-3.5.1-1.noarch.rpm 

# Start server 
/sbin/service rabbitmq-server start

我正在做的烧瓶中的应用程序，所以我启动所述第一请求之前工人：

@app.before_first_request 
def before_first_request(): 
    task_mgr.start_celery()

的task_mgr创建芹菜应用对象（其我打电话芹菜，因为烧瓶应用程序对象是应用程序）。对于一个简单的任务管理器，这里的公平很关键。任务预取有各种奇怪的行为。这应该可能是默认的？

task_mgr/task_mgr.py：

import celery as celery_module 
import multiprocessing 


class WorkerProcess(multiprocessing.Process): 
    def __init__(self): 
     super().__init__(name='celery_worker_process') 

    def run(self): 
     argv = [ 
      'worker', 
      '--loglevel=WARNING', 
      '--hostname=local', 
      '-Ofair', 
     ] 
     celery.worker_main(argv) 


def start_celery(): 
    global worker_process 
    multiprocessing.set_start_method('fork') # 'spawn' seems to work also 
    worker_process = WorkerProcess() 
    worker_process.start() 


def stop_celery(): 
    global worker_process 
    if worker_process: 
     worker_process.terminate() 
     worker_process = None 


worker_name = '[email protected]' 
worker_process = None 

celery = celery_module.Celery() 
celery.config_from_object('task_mgr.celery_config')

我的配置是非常简单的，到目前为止：

task_mgr/celery_config。潘岳：

BROKER_URL = 'amqp://' 
CELERY_RESULT_BACKEND = 'amqp://' 

CELERY_ACCEPT_CONTENT = ['json'] 
CELERY_TASK_SERIALIZER = 'json' # 'pickle' warning: can't use datetime in json 
CELERY_RESULT_SERIALIZER = 'json' # 'pickle' warning: can't use datetime in json 
CELERY_TASK_RESULT_EXPIRES = 18000 # Results hang around for 5 hours 

CELERYD_CONCURRENCY = 4

然后你就可以把任务，无论你需要他们：

from task_mgr.task_mgr import celery 
import time 


@celery.task(bind=True) 
def error_task(self): 
    self.update_state(state='RUNNING') 
    time.sleep(10) 
    raise KeyError('im an error') 


@celery.task(bind=True) 
def long_task(self): 
    self.update_state(state='RUNNING') 
    time.sleep(20) 
    return 'long task finished' 


@celery.task(bind=True) 
def task_with_status(self, wait): 
    self.update_state(state='RUNNING') 
    for i in range(5): 
     time.sleep(wait) 
     self.update_state(
      state='PROGRESS', 
      meta={ 
       'current': i + 1, 
       'total': 5, 
       'status': 'progress', 
       'host': self.request.hostname, 
      } 
     ) 
    time.sleep(wait) 
    return 'finished with wait = ' + str(wait)

我还留着一个任务队列，以保持异步结果，所以我可以监视任务：

task_queue = [] 


def queue_task(task, *args): 
    async_result = task.apply_async(args) 
    task_queue.append(
     { 
      'task_name':task.__name__, 
      'task_args':args, 
      'async_result':async_result 
     } 
    ) 
    return async_result 


def get_tasks_info(): 
    tasks = [] 

    for task in task_queue: 
     task_name = task['task_name'] 
     task_args = task['task_args'] 
     async_result = task['async_result'] 
     task_id = async_result.id 
     task_state = async_result.state 
     task_result_info = async_result.info 
     task_result = async_result.result 
     tasks.append(
      { 
       'task_name': task_name, 
       'task_args': task_args, 
       'task_id': task_id, 
       'task_state': task_state, 
       'task_result.info': task_result_info, 
       'task_result': task_result, 
      } 
     ) 

    return tasks

当然，开始你需要的任务：

from webapp.app import app 
from flask import url_for, render_template, redirect 
from webapp import tasks 
from task_mgr import task_mgr 


@app.route('/start_all_tasks') 
def start_all_tasks(): 
    task_mgr.queue_task(tasks.long_task) 
    task_mgr.queue_task(tasks.error_task) 
    for i in range(1, 9): 
     task_mgr.queue_task(tasks.task_with_status, i * 2) 

    return redirect(url_for('task_status')) 


@app.route('/task_status') 
def task_status(): 
    current_tasks = task_mgr.get_tasks_info() 
    return render_template(
     'parse/task_status.html', 
     tasks=current_tasks 
    )

就是这样。让我知道你是否需要任何帮助，尽管我的芹菜知识还相当有限。

来源

2015-05-02 20:44:08 ernasty

从多处理开始芹菜工

回答

相关问题