Python 多进程实战 & 回调函数理解与实战

这篇博文主要讲下笔者在工作中Python多进程的实战运用和回调函数的理解和运用。

多进程实战

实战一、批量文件下载

从一个文件中按行读取 url ,根据 url 下载文件到指定位置,用多进程实现。

#!/usr/local/python27/bin/python2.7
from multiprocessing import Process,Pool
import os,time,random,sys
import urllib

# 文件下载函数
def filedown(url,file):
    urllib.urlretrieve(url,file)

if __name__ == ‘__main__‘:
    p = Pool(100)
    count = 0
    # 打开存有url的文件
    f = open(‘11.csv‘,‘r‘)
    while True:
        count += 1
        # 按行读取
        url1 = f.readline()
        # 当文件读取完毕时,跳出循环
        if url1 == ‘‘:
            break;
        url = url1.strip()
        file = (‘/root/tuchao/d2/work/strfile/‘+url.split(‘/‘)[4])
        print(count)
        # 使用异步多进程的方式,启动子进程,并将功能函数和参数传入.
        # 注意: 这里的 args 必须传参数列表,就算是一个参数,也得写逗号结尾。
        p.apply_async(filedown, args=(url,file,))
    p.close()
    p.join()

实战二、批量文本处理。  

读取一个目录下的每个文件,过滤掉文件中的数字和中文,把每个英语单词提取出来写入 Mongodb。

使用多进程处理

#!/usr/local/python27/bin/python2.7
import re
import sys
import os
import pymongo
from multiprocessing import Process,Pool
import time

# Mongodb 连接,验证身份
conn = pymongo.MongoClient(‘localhost‘,27017)
conn.words.authenticate(‘words_user‘,‘woiu32k32x01‘)
db = conn.words

# 单词处理函数
def wordsevent(filename,mongo_insert):
    with open(filename) as f:
        wordsall=[]
        for line in f:
        # 把当前行转为小写后,判断里面是否包含小写字母。 有,表示这行是英文行,则做单词提取。  没有,表示当前行是数字或者是中文,不做处理,continue 进入下一次循环。
            if line.lower().islower():
            
         # 单词提取 re.findall 多重匹配。(r‘(\w|\‘)+)‘ 表示匹配字母或者单引号出现一次或多次。这样会出现一个问题,提取出来的单词都会拆分成一个一个字母,因为正则会安装括号里面的规则去提取,\w 按字母匹配的,所以会提取字母。  
         # 所以才要这样写 (r‘((?:\w|\‘)+)‘ 这里 ?: 写在括号的里面,表示此括号的规则只做匹配,而不提取内容。 外面还有一层括号,所以正则将会提取外面这层括号匹配的内容。 那就是一个个的单词了。       
         # 在正则中一对括号表示一组。       
                wordslist = re.findall(r‘((?:\w|\‘)+)‘,line)
                # 列表合并,把多个list合并到一个。
                wordsall.extend(wordslist)
            else:
                continue
        # 把list转成集合去重,因为集合中的元素是 确定性、无序性、互异性    
        s1=set(wordsall)
        if len(s1) == 0:
            pass
        else:
            mongo_insert(s1)

            
def mongo_insert(x):
    db.test2.insert_many([{"word":i} for i in x])

if __name__ == ‘__main__‘:
    fileall=os.listdir(‘strfile‘)
    p = Pool(10)
    count = 0
    for i in fileall:
        count += 1
        filename = (‘/root/tuchao/d2/work/strfile/%s‘ % i)
        print(count,filename)
        # 启动异步多进程
        p.apply_async(wordsevent,args=(filename,mongo_insert,))
    p.close()
    p.join()

回调函数

什么是回调函数?  (第一次听说回调函数的同学,请认真看下补课)

编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系统编程,简单来说,就是编写库;而应用编程就是利用写好的各种库来编写具某种功用的程序,也就是应用。系统程序员会给自己写的库留下一些接口,即API(application programming interface,应用编程接口),以供应用程序员使用。所以在抽象层的图示里,库位于应用的底下。

当程序跑起来时,一般情况下,应用程序(application program)会时常通过API调用库里所预先备好的函数。但是有些库函数(library function)却要求应用先传给它一个函数,好在合适的时候调用,以完成目标任务。这个被传入的、后又被调用的函数就称为回调函数(callback function)。

打个比方,有一家旅馆提供叫醒服务,但是要求旅客自己决定叫醒的方法。可以是打客房电话,也可以是派服务员去敲门,睡得死怕耽误事的,还可以要求往自己头上浇盆水。这里,“叫醒”这个行为是旅馆提供的,相当于库函数,但是叫醒的方式是由旅客决定并告诉旅馆的,也就是回调函数。而旅客告诉旅馆怎么叫醒自己的动作,也就是把回调函数传入库函数的动作,称为登记回调函数(to register a callback function)

可以看到,回调函数通常和应用处于同一抽象层(因为传入什么样的回调函数是在应用级别决定的)。而回调就成了一个高层调用底层,底层再过头来用高层的过程。

回调机制的优势

从上面的例子可以看出,回调机制提供了非常大的灵活性。请注意,从现在开始,我们把图中的库函数改称为中间函数了,这是因为回调并不仅仅用在应用和库之间。任何时候,只要想获得类似于上面情况的灵活性,都可以利用回调。

这种灵活性是怎么实现的呢?乍看起来,回调似乎只是函数间的调用,但仔细一琢磨,可以发现两者之间的一个关键的不同:在回调中,我们利用某种方式,把回调函数像参数一样传入中间函数。可以这么理解,在传入一个回调函数之前,中间函数是不完整的。换句话说,程序可以在运行时,通过登记不同的回调函数,来决定、改变中间函数的行为。这就比简单的函数调用要灵活太多了。

作者:桥头堡
链接:https://www.zhihu.com/question/19801131/answer/27459821
来源:知乎

是不是还没太明白,只是大概有点了解咋回事了。  别急看下面代码。

一个简单的回调函数的程序

#!/usr/local/python27/bin/python2.7

def a(i):
    print("this is a start")
    print(i)
    print("this is a stop")

def b(func):
    print("this is b start")
    for i in range(10):
        func(i)
    print("this is b stop")

if __name__ == ‘__main__‘:
    b(a)

输出如下:

一个使用多进程结合回调函数的示例程序

#!/usr/local/python27/bin/python2.7
from multiprocessing import Process,Pool

def a(x):
    print("this is a start")
    print(x)
    print("this is a stop")

def b(num):
    return(num)

if __name__ == ‘__main__‘:
    p = Pool(5)
    for i in range(10):
    # 这里表示,当b函数执行完成之后就会调用a函数,并且把b函数的返回值传给a函数。
        p.apply_async(b, args=(i,), callback=a)
    p.close()
    p.join()

输出如下:

多进程结合回调函数写文件的示例程序

http://blog.csdn.net/Q_AN1314/article/details/51923022

相信现在差不多明白了吧,还不明白的再返回上面看看理论。 理解也不是难事了。

Pymongo 相关文档

http://www.cnblogs.com/lomper/p/4776452.html?utm_source=tuicool&utm_medium=referral

http://api.mongodb.com/python/current/

Python 多进程实战 & 回调函数理解与实战

时间: 2024-10-08 10:19:35

Python 多进程实战 & 回调函数理解与实战的相关文章

callback回调函数理解 相当于this指针

1.callback函数在微软的官方手册中是这样定义callback函数的:"callback函数是由应用程序定义而由操作系统调用的函数".   凡是由用户设计而却由windows系统调用的函数,统称为callback函数,这些函数都有一定的类型,以配合windows的调用操作.      某些api函数以callback作为其参数之一,这些api,如settimer.linedda.enumobjects.通常这种api会在进行某 种行为之后或满足某种状态之时调用该callback函

回调函数理解实例

// callback.cpp : Defines the entry point for the console application. // #include "stdafx.h" #include <stdio.h> void printWelcome(int len) { printf("欢迎欢迎 -- %d\n", len); } void printGoodbye(int len) { printf("送客送客 -- %d\n&q

Javascript 回调函数理解---二娃子买肾机6

在Javascript中什么是回调函数,我认为简单来说就是把一个函数B作为参数传递给另一个函数A,在A函数中的一定时机调用函数B. 这里可以看出回调函数形成了一个闭包,它可以访问函数A中的活动对象. 请见下面代码: 某村二娃子像买肾机6,但苹果店发现木有库存了,准备去进货,那么这时候二娃子有选择: 一是: 过一会来问一下:”到货没?“,”没有“! 过一会来问一下:”到货没?“,”没有“! 过一会来问一下:”到货没?“,”没有“! 过一会来问一下:”到货没?“,”没有“! 我们称这为轮询方式,这样

python基础:key回调函数--max(list,key=None)

key回调函数: max(list,key=None) max(range(10),key=lambda x: x > 3)   #4 解释:key=(False,False,False,False,True,..) key中max值的第一项为4对应的True,所以返回4 max('za', 'bf', key=lambda x: x[0])   #za 解释:key=('z','b'),max(key)='z',对应za 说点有用的(使用key): max([('tom',12),('tony

android setOnClickListener 回调函数理解

1.模拟java View类: package com.test; /** * Created by dandan on 15-2-7. */ public class View { /**设置默认ID**/ public static final int NO_ID = -1; /**设置每个控件的ID用于被子类覆盖**/ public int mID = NO_ID; /**保存点击回调函数**/ public OnClicklistener mOnClicklistener; public

关于回调函数 理解一下

typedef void(*CallbackFun)(int);   //void类型的函数指针   void printLove(int len)        //自己的实现函数要和函数指针形式相一致   {      cout<<"Love u -"<<len<<endl;  }    void printFuck(int len)  {      cout<<"Fu<l< u -"<<l

对于回调函数的理解

关于回调函数,网上有很多说明和各种解释,多数在尝试用语言描述.我认为,如果对各个角色之间的关系不清楚,如果没有相关的编程需求,那么语言便非常无力,很难理解. 这是360百科的解释: 在计算机程序设计中,回调函数,或简称回调,是指通过函数参数传递到其它代码的,某一块可执行代码的引用.这一设计允许了底层代码调用在高层定义的子程序. [什么是其它代码?什么是某一块?什么是可执行?什么是引用?什么是允许?什么是底层代码?什么是高层定义?什么是子程序?这些词,每一个词都有很多含义,如果你理解回调,那么这个

一些理解-过滤器,拦截器,ajax提交后不跳转,document.location.href无效,回调函数。

1.struts2中过滤器和拦截器的工作流程: request-->执行自定义过滤器doFilter方法中的chain.doFilter()方法前的代码-->执行默认过滤器doFilter方法中的chain.doFilter()方法前的代码-->执行默认拦截器-->执行自定义拦截器-->访问服务器资源(action,css,html,jsp...)-->执行自定义拦截器-->执行默认拦截器-->执行默认过滤器的doFilter方法中chain.doFilte

理解javascript 回调函数

原文:理解javascript 回调函数 ##回调函数定义 百度百科:回调函数 回调函数就是一个通过函数指针调用的函数.如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用为调用它所指向的函数时,我们就说这是回调函数.回调函数不是由该函数的实现方直接调用,而是在特定的事件或条件发生时由另外的一方调用的,用于对该事件或条件进行响应. 在JavaScript中,回调函数具体的定义为:函数A作为参数(函数引用)传递到另一个函数B中,并且这个函数B执行函数A.我们就说函数A叫做回调函数.如