使用C语言为python编写动态模块(2)--解析python中的对象如何在C语言中传递并返回

楔子

编写扩展模块,需要有python源码层面的知识,我们之前介绍了python中的对象。但是对于编写扩展模块来讲还远远不够,因为里面还需要有python中模块的知识,比如:如何创建一个模块、如何初始化python环境等等。因此我们还需要了解一些前奏的知识,如果你的python基础比较好的话,那么我相信你一定能看懂,当然我们一开始只是介绍一个大概,至于细节方面我们会在真正编写扩展模块的时候会说。

关于使用C为python编写扩展模块,我前面还有一篇博客,强烈建议先去看那篇博客,对你了解Python底层会很有帮助。因为使用C来编写python可以直接import的模块,需要严格遵守python规定的api,而这些api是和python解释器源码保持一致的,所以我们才需要大量python源码的知识。

编写扩展模块前奏曲

好啦,我们看看编写一个扩展模块需要了解哪些东西:

  • 初始化一个模块:

    //这个XXX非常重要,这个是你最终生成的扩展模块的名字
    PyInit_XXX(void);  //模块初始化入口
  • 创建一个模块
    PyModule_Create(PyModuleDef *); //创建模块
  • 模块信息
    //一个结构体,通过这个结构体就可以定义一个用于生成模块的对象,里面不同的字段存储了未来生成的模块的各种信息
    PyModuleDef XXX;
    
    //模块的信息有很多,比如都会有一个公共的部分,正如所有对象都有PyObject这个结构体一样
    PyModuleDef_Base m_base; //这便是一个模块的公共信息,另外python中也提供了类似PyObject_HEAD的宏
    #define PyModuleDef_HEAD_INIT PyModuleDef_Base m_base;//我们可以使用PyModuleDef_HEAD_INIT来代替
    
    //模块肯定要有名字,这个名字要和上面的PyInit_XXX中的XXX保持一致
    const char *m_name;
    //除此之外,模块还有一个文档注释,对,就是我们看到的__doc__
    const char *m_doc;
    //模块的独立空间,但是我们一般不会使用,所以直接设置为-1即可
    Py_ssize_t m_size; // -1
    
    //一个模块里面是不是要定义大量的函数啊,所以还有一个数组,数组存放了大量的结构体
    //每一个函数都是一个PyMethodDef结构体,是的,PyMethodDef也是一个结构体
    //这个结构体里面肯定要保存了函数的各种信息、比如名字、doc、以及最关键的、真正指向具体的函数的指针
    //这个m_methods就是存储PyMethodDef的数组的首地址
    PyMethodDef *m_methods;//一个数组的首地址
    
    //在python中PyModuleDef 结构体后面还有四个NULL,也就说一个完整的PyModuleDef对象应该长这个样子
    PyModuleDef module = {
        PyModuleDef_HEAD_INIT,
        "模块名",
        "注释",
        -1,
        m_methods, //一个数组的首地址
        NULL,
        NULL,
        NULL,
        NULL
    };
    //因此在C中定义一个PyModuleDef对象就按照上面的逻辑
  • 模块的函数信息
    //我们上面说了,一个模块里面会包含很多结构体,这些结构体就是python中的函数
    //因为python中的函数会有很多信息,所以底层对应的是一个结构体
    PyMethodDef xxx; //一个结构体类型,里面存储了函数的各种信息
    
    //函数和模块一样也是有名字的
    const char *ml_name;
    //当然啦,肯定还有一个指针,这个指针指向的才是真正的函数
    //这些函数都是一个PyCFunction
    PyCFunction *ml_methd;
    
    //函数还有参数类型:
    //METH_VARARGS:存在*args
    //METH_KEYWORDS:存在**kwargs
    //METH_NOARGS:不接受参数
    //METH_O:接收一个参数
    int ml_flags;
    //函数注释
    const char *ml_doc;
    
    //因此在底层定义一个python中的函数,那么PyMethodDef对象长这个样子
    PyMethodDef f = {
        "函数名",
        (PyCFunction)func, //我们在C中定义的函数,这里会得到一个指针,我们记得转换成PyCFunction,但是不转也不会有问题,最好还是转一下
        METH_O, //函数类型
        "函数注释"
    };
    
    //下面就是最关键的函数了,这个返回一个PyObject *,至少要接收一个PyObject *
    static PyObject *
    func1(PyObject *self, PyObject *args)
    {
    
    }
    
    //如果是带有默认参数的话,就是
    static PyObject *
    func2(PyObject *self, PyObject *args, PyObject *dictionary)
    {
    
    }

以上是一些前奏知识,先有一个概念,细节我们会在编写代码的时候通过注释来介绍,通过编写代码很快就能明白。我们说C编写完之后,肯定要编译成python的扩展模块,那么如果编译呢?

from distutils.core import *
setup(name="egg_info中的元信息显示的模块名",
      # 注意:我们在编译完之后,会有一个egg文件,里面显示了模块的元信息,这个是egg文件里面的信息
      verison="1.0",
      # 接收多个Extension("模块名", ["C文件"])
      ext_modules=[Extension("hanser", ["C文件"])]
     )

假设这个文件叫做setup.py,那么打包成扩展库就可以通过python setup.py install来实现。

编写一个简单的扩展模块

下面我们来编写一个简单的扩展模块,生成的扩展模块的名字我们就叫hanser吧,也就是最终可以让python解释器通过import hanser来导入。至于我们定义的C文件叫什么名字都无所谓,我们叫做a.c吧,简单粗暴一些。

//编写python扩展模块,需要引入Python.h这个头文件
//这个头文件,在python安装目录的include目录下,编译的时候会自动寻找
#include "Python.h"

//我们先来定义几个函数,只需要知道有这么些函数就行,每一个函数都要返回一个PyObject *
//而且至少要接收一个PyObject *self,但是不好意思对于python来说这个函数是没有参数的,这个self是必须的
static PyObject *
my_func1(PyObject *self)
{
  //函数返回一个PyObject *,我们说python中所有对象在底层对应的结构体都包含了PyObject,所以我们返回一个整型、字符串都是可以的
  //这里返回一个整型,比较简单。但是直接return 100;可以吗?我们说100是C中的整型,但不是python中的整型
  //所以我们需要转一下,我们在上一篇博客中介绍了python中的对象和C中的对象是如何进行转化的,如果不知道规则可以去看一下
  return PyLong_FromLong(100);
  //返回python中int,此时对象的内存由python管理,此时就跟在python中创建一个整型是类似的
}

static PyObject *
my_func2(PyObject *self, PyObject *a)
{
  //加上100
  long _a = PyLong_AsLong(a);
  a = PyLong_FromLong(_a + 100);
  return a;
}

//4.第四个步骤(1和2和3在下面)
/*
定义一个结构体数组,类型为PyMethodDef,里面存储了结构体,这个结构体里面存放了函数的名字、注释、指向了函数的指针
数组名字叫什么无所谓
*/
static PyMethodDef module_functions[] = {
  //这个里面就可以创建了
  {
    "my_func1", //函数名称
    (PyCFunction)my_func1,   //函数指针,所以我们需要定义一些函数
    METH_NOARGS, //函数参数标识,这里没有参数
    "this is a function named my_func1", //函数文档注释
  },

  //一个模块可以有很多函数
  {
    "my_func2",
    (PyCFunction)my_func2,
    METH_O,
    "this is a function named my_func2",
  },

  //当函数(结构体)定义完了,最后要有{NULL, NULL}
  {NULL, NULL}
};

//3.第三个步骤
/*
定义一个生成模块的对象吧,还记得在C中怎么定义吗?对的,通过PyModuleDef
我们定义的变量叫什么无所谓,但是一般都保持一致,所以这里我们也叫hanser
但是不叫hanser也无所谓,为了区分演示,我们这里就叫别的名字,就叫HANSER吧,改成大写
*/
static PyModuleDef HANSER = {
  //记得,要有一个头部
  PyModuleDef_HEAD_INIT,
  //然后是模块名
  "hanser",
  //模块的注释,或者说是文档说明,如果不需要的话,写成NULL
  "this is a module named hanser",
  //然后是模块的空间,即使那个m_size,我们说这个不需要关心,直接写成-1即可
  -1,
  //然后是函数、准确的说应该是结构体,数组的地址了
  module_functions,
  //别忘了下面的四个NULL
  NULL,
  NULL,
  NULL,
  NULL
};

//1.第一个步骤:
/*
扩展库入口函数
这是一个宏,python的源代码我们知道是使用C来编写的
但是编译的时候为了支持C++的编译器也能编译,于是需要通过extern "C"定义函数
然后这样C++编译器在编译的的时候就会按照C的标准来编译函数
这个宏就是干这件事情的,主要和python中的函数保持一致
没必要太深究,写上就行
*/
PyMODINIT_FUNC

//2.第二个步骤
/*
模块初始化入口,PyInit_XXX(void),XXX是我们定义的模块名,这里叫hanser
*/
PyInit_hanser(void)
{
  //打印一句话吧,我们的Python.h中已经引入了stdio.h这个头文件了,所以可以直接打印
  printf("%s\n", "PyInit_hanser");
  //创建python中的模块,将使用PyModuleDef定义的模块对象的指针传递进去,然后返回得到python中的模块
  return PyModule_Create(&HANSER);
}
from distutils.core import  *

setup(
    # 打包之后会有一个egg_info,表示该模块的元信息信息,name就表示打包之后的egg文件名
    # 但它并不是我们的模块名,这两个名字不一样也可以,但是我们一般都会写一样的,这样才知道你是哪个模块的
    # 不信我们改一下,改成hanser1
    name="hanser1",
    version="10.22",  # 版本号
    author="古明地觉",  # 作者
    author_email="东方地灵殿",  # 作者邮箱
    # 关键来了,这里面接收一个类Extension,类里面传入两个参数,第一个参数还是我们的模块名,必须和PyInit_XXX中的XXX保持一致,否则报错
    # 我们发现貌似好像指定了好多的名字,总之一句话:PyInit_XXX中的XXX、我们定义PyModuleDef对象中的m_name、以及这里的Extension里面的第一个参数要保持一致
    # 它们就是模块名
    # 第二个参数还是一个列表,表示用到了哪些C文件,因为扩展模块对应的C文件不一定只有一个
    ext_modules=[Extension("hanser", ["a.c"])]
)

我们的py文件名就叫做1.py,然后我们在控制台输入python 1.py?install

我们看到打包成功,并且它还自动的帮我们移到了site-packages里面,我们来看看。

我们看到了一个hanser.pyd文件,至于中间的部分就是解释器版本,然后我们下面的egg-info,我们注意到这是hanser1,我们再打开看看。

我们看到里面的Name就是我们在setup函数中指定的name,我们起名为hanser1,我们说那个name是生成的egg-info的名字、或者说里面存储的元信息显示的名字,但它不是模块名。但即便如此,也不要改成其他的名字,因为egg-info就是描述模块的元信息的,然后你egg-info的名字不就代表了你要描述哪个模块的元信息吗?要是把名字改成其他的,容易造成困惑。

所以我们看到就比较讨厌,里面需要指定的名字太多了。但是虽然多,我们还是那句话记住一点:PyInit_XXX的XXX、PyModuleDef定义的模块中的m_name、Extension中的第一个参数、还有setup中name参数都保持一致即可、至于名字是什么,你要生成的扩展模块叫什么、它们就叫什么。至于其它的变量名就没有要求了,假设我们要生成的模块名叫yousa。那么:

  • PyInit_yousa
  • m_name:yousa
    PyMethodDef xx = {
        ...,
        "yousa",
        ...
    }
  • setup(name="yousa", ext_modules=[extension("yousa", ["xx.c"])])

我们说,编译好的扩展模块直接自动拷贝到site-packages中了,那么我们是可以直接import的。除此之外,还在当前目录中生成了build目录,我们看到了hanser.pyd,那个也是可以直接导入的。

import hanser

print(hanser.my_func1())
print(hanser.my_func2(20))
"""
100
120
PyInit_hanser
"""
# 我们在PyInit_hanser中打印了一句话,在导入模块的时候也打印了出来
# 别看它是最后打印的,其实在我import hanser的时候就会打印
# 只不过因为缓冲区的原因,它最后输出的

最后再看一个神奇的东西,我们知道在pycharm这样的智能编辑器中,通过Ctrl加左键可以调到指定模块的指定位置。

神奇的一幕出现了,我们点击进去居然还能跳转,其实我们在编译成扩展模块移动到site-packages中,pycharm就自动生成了。我们看到模块注释、函数的注释跟我们在C文件中指定的一样。

我们把代码放到linux上也是可以完美编译、执行的,此时的printf("%s\n", PyInit_hanser)是先打印的,不过这才是正常结果。因此此时我们就编写了一个简单的扩展模块,下面来总结一下流程。

编写扩展模块流程总结

  • 第一步:include "Python.h",必须要引入这个头文件,这个头文件中还引入了C中的一些标准库,具体都引入了哪些库我们可以查阅。当然如果不确定但又懒得看,我们还可以手动再引入一次,反正include同一个头文件只会引入一次。
  • 第二步:理论上这不是第二步,但是按照编写代码顺序我们就认为它是第二步吧,对,就是按照我们上面写的代码从上往下撸。这一步你需要编写函数,这个函数就是C语言中定义的函数,这个函数返回一个PyObject *,至少要接收一个PyObject *,我们一般叫它self,这第一个参数你可以看成是必须的,无论我们传不传其他参数,这个参数是必需要有的。所以如果只有这一个参数,那么我们就认为这个函数不接收参数,因为我们在调用的时候没有传递。
    static PyObject *
    f1(PyObject *self)
    {
    
    }
    
    static PyObject *
    f2(PyObject *)
    {
    
    }
    
    static PyObject *
    f3(PyObject *)
    {
    
    }
    //假设我们定义了这三个函数吧,三个函数都不接受参数
    //至于接收复杂参数,比如python中的扩展参数*args、**kwargs怎么传递
    //我们后面会详细介绍
  • 第三步:定义一个PyMethodDef类型的数组,这个数组也是我们后面的PyModuleDef对象中的一个参数,这个数组名字叫什么就无所谓了。至于PyMethodDef,它接收参数如下。另外我们可以单独使用PyMethodDef创建对象,然后将变量写到数组中,也可以直接在数组中创建,如果是直接在数组中创建的话,那么就不需要再使用PyMethodDef定义了,直接在{}里面写成员信息即可。
    static PyMethodDef module_functions[] = {
        {
            //函数名,你在C中定义的函数名和这里的字符串指定的名字要一致
            "f1",
            //函数指针,最好使用PyCFunction转一下,可以确保不出问题。
            //如果不转,我自己测试没有问题,但是编译时候会给警告,最好还是按照标准,把指针的类型转换一下
            //转换成python底层识别的PyCFunction
            (PyCFunction)f1,
            METH_NOARGS, //参数类型,这里不接收参数,至于怎么接收*args和**kwargs的参数,后面说
            "函数f1的注释"
        },
        {"f2", (PyCFunction)f2, METH_NOARGS, "函数f2的注释"},
        {"f3", (PyCFunction)f3, METH_NOARGS, "函数f3的注释"},
        //别忘记,下面的{NULL, NULL},不要问我为什么,python源码就是这么写的
        {NULL, NULL}
    }
  • 第四步:定义PyModuleDef对象,这个变量的名字叫什么也没有要求。
    static PyModuleDef m = {
        PyModuleDef_HEAD_INIT, //头部信息
        //模块名,这个是有讲究的,你要编译的扩展模块叫啥,这里就写啥
        //假设叫yousa吧,那么这里就写yousa
        "yousa",
        "模块的注释",
        -1, //模块的空间,这个是给子解释器调用的,我们不需要关心,直接写-1即可
        module_functions, //然后是我们上面定义的数组名,里面放了一大堆的PyMethodDef结构体实例
        //然后是四个NULL,还是不要问我为什么,源码就是这么写的,我们这么写也没错
        NULL,
        NULL,
        NULL,
        NULL
    }
  • 第五步:写上一个宏,其实把它单独拆分出来,有点小题大做了。
    PyMODINIT_FUNC
    //一个宏,主要是保证函数按照C的标准,不用在意,写上就行
  • 第六步:按理说这是第二步的,不过无所谓啦。创建一个模块的入口函数,我们说编译的扩展模块叫yousa,那么这个函数名就要这么写
    PyInit_yousa(void)
    {
        //我们上面打印了一句话,但是生产中是没有必要的,所以直接根据上面定义的PyModuleDef实例,得到python中的模块
        //PyModule_Create就是用来创建python中的模块的,直接将PyModuleDef定义的对象的指针扔进去
        //便可得到python中的模块,然后直接返回即可。
        return PyModule_Create(&m);
    }
  • 第七步:定义一个py文件,假设叫xx.py,那么在里面写上如下内容,然后python xx.py install即可
    from distutils.core import  *
    
    setup(
        # 这是生成的egg文件名,也是里面的元信息中的Name
        name="yousa",
        # 版本号
        version="10.22",
        # 作者
        author="古明地觉",
        # 作者邮箱
        author_email="东方地灵殿",
        # 当然还有其它参数,作为元信息来描述模块,比如description:模块介绍。有兴趣的话可以看函数的注释,或者根据已有的egg文件自己查看
    
        # 下面是扩展模块,Extension("yousa", ["C源文件"])
        # 我们说Extension里面的第一个参数也必须是你的扩展模块的名字,并且必须要和PyInit_XXX以及PyModuleDef中m_name保持一致
        # 至于第二个参数就是一个列表,你需要用到哪些C源文件。
        # 而且我们看到这个Extension也在一个列表里面,因为我们也可以传入多个Extension同时生成多个扩展模块。但是一般我们是写好一个生成一个,你也可以一次性写多个,然后只编译一次。
        ext_modules=[Extension("hanser", ["a.c"])]

难点

我们看到编写一个扩展模块是有套路的,只要把上面的流程记好就没问题。难点在哪里呢?其实难点主要在函数的编写上面,比如python和C之间的类型互转,再比如我们后期传递*args,这在底层是一个PyTupleObject,我们还需要调用PyTupleObject的api来进行元素的解包。所以难点就在于函数的编写上面,因为要大量使用python底层的api。

再比如两个字符串相加,那么python中直接通过+就可以实现了,但是在底层你需要调用PyUnicode_Concat函数,因为python的底层就是这么干的,所以你也要这么干。所以我在上一篇博客中就说过,编写扩展模块需要有python源码的知识,因为你需要大量使用python底层的api,也许在python中对于*args,你可以很简单的就操作了,但是在底层你可能就需要多做一些事情。因此我一直强调要有python源码方面的知识,只有这样才能编写出复杂的扩展模块,如果仅仅是传递简单地数字、字符串,那编写扩展模块的意义何在呢?

因此可以多看看python底层的api,我之前也说过,python中api和底层的api是比较类似的,模式比较固定。比如我们对列表进行元素的修改,在底层就是PyList_SetItem,获取元素就是PyList_GetItem,因此如果不会的话可以去查一查。我们说源码的Include文件是放一些对象的定义,至于这些对象支持哪些操作都放在Objects目录下,而Python目录则是存放一些和虚拟机执行流程相关的。然后根据使用python的经验来猜测底层对应哪些函数,直接Ctrl+F5通过关键字查询,或者直接百度、谷歌也可以。当然我在下面,也会尽可能多介绍一些api。

与PyObject的再度重相逢

我们在上一篇中介绍了PyObject,我们说这里面存放了引用计数和类型,并且python中所有对象底层对应的结构体都嵌套了PyObject,因此python中的所有对象都有引用计数和类型。并且python的对象在底层,都可以看成是PyObject的一个扩展,都可以把类型转成PyObject。

PyObject *
PyLong_FromLong(long ival)
{
    PyLongObject *v;
    ...
    return (PyObject *)v;
}

我们看到这个函数是把C中long转成PyLongObject,但是我们发现在返回的时候将PyLongObject?*转成了PyObject?*,因此我们定义函数的时候明明接收的是int,但是我们却不定义成PyLongObject?*,而是定义成PyObject?*,因为python底层的好多api接收都是PyObject?*。如果在函数执行的时候需要指定明确的类型,那么再转回来即可。

我们扯到PyObject上面来,还有一个原因,那就是引用计数。不过python专门定义了几个宏,我们来看一下:

#define Py_REFCNT(ob)           (((PyObject*)(ob))->ob_refcnt)
#define Py_TYPE(ob)             (((PyObject*)(ob))->ob_type)
#define Py_SIZE(ob)             (((PyVarObject*)(ob))->ob_size)

Py_REFCNT:拿到对象的引用计数;Py_TYPE:拿到对象的类型;Py_SIZE:拿到对象的ob_size,也就是变长对象里面的元素个数。

除此之外,python还提供了两个宏:Py_INCREF和Py_DECREF来用于引用计数的增加和减少。

//引用计数增加很简单,就是找到ob_refcnt,然后++
#define Py_INCREF(op) (                             _Py_INC_REFTOTAL  _Py_REF_DEBUG_COMMA           ((PyObject *)(op))->ob_refcnt++)

//但是减少的话,做的事情稍微多一些
//其实主要就是判断引用计数是否为0,如果为0直接调用_Py_Dealloc将对象销毁
//_Py_Dealloc也是一个宏,会调用对应类型对象的tp_dealloc,也就是析构方法
#define Py_DECREF(op)                                       do {                                                        PyObject *_py_decref_tmp = (PyObject *)(op);            if (_Py_DEC_REFTOTAL  _Py_REF_DEBUG_COMMA               --(_py_decref_tmp)->ob_refcnt != 0)                         _Py_CHECK_REFCNT(_py_decref_tmp)                    else                                                        _Py_Dealloc(_py_decref_tmp);                    } while (0)

python向扩展模块传递多个参数

我们说PyMethodDef定义的结构体有一个属性:ml_flags,这是一个int类型,它代表的函数的参数类型。

  • METH_VARARGS:传递多个位置参数
  • METH_KEYWORDS:传递关键字参数
  • METH_NOARGS:不接收参数
  • METH_O:接收一个参数

我们说如果指接收一个参数,那么使用METH_O即可,如果接收多个参数呢?那么就使用METH_VARARGS,那么根据python的经验我们知道会得到一个元组,所以我们下面就要学习如何在C中对一个元组进行解包。另外, 如果只接收一个参数,我们还是可以把参数类型写成METH_VARARGS的,只不过此时的元组只有一个元素,一般情况下为了保证代码的通用性,我们都会写成METH_VARARGS

我们说,如果是多个参数,那么得到的是一个元组,我们需要将参数从元组中解析出来。所使用的函数就是:int PyArg_ParseTuple(PyObject *args, const char *format, ...),我们注意到format是一个格式,类似于printf,里面肯定是一些占位符,那么都支持哪些占位符呢?

  • s:将const char*转成python中的str或者None,使用utf-8编码
  • y:将const char*转成python中的bytes或者None,使用utf-8编码
  • u:将const wchar_t*转成python中unicode,编码为utf-16或者ucs4
  • i:将C中的int转为python中int
  • b:将C中的char转为python中int
  • l:将C中的long转为python中int

    ? 关于int,种类比较多,可以自己查看

  • f:将C中的float转成python的float
  • d:将C中的double转成python的float
  • O:将PyObject *转成python的object

至于其他的占位符,有兴趣可以自己搜索,并不一定所有的占位符都会用到。下面我们就来编写代码来实践一下, 此时的代码就不会每一行都有大量的注释了,如果是之前写过的就不写了,但是新出现的还是会详细解释的。

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args)
{
  //目前我们定义了一个PyObject *args,如果传递一个参数,那么这个args就是对应的一个参数
  //如果接收多个参数,还是只需要定义一个*args即可,只不过此时的*args是一个PyTupleObject,我们需要将多个参数解析出来
  //此时我们这个函数是接收两个int,然后相加
  int a, b;

  //下面我们需要使用PyArg_ParseTuple进行解析,因为我们接收两个参数
  //这个函数返回一个整型,如果失败会返回0,成功返回非0
  //我们在python中传递过来的就是PyLongObject,这里会把a和b当成PyLongObject去解析
  //然后把python传递过来的值交给a和b,但是a和b本质上还是一个int,只不过它们拿到了python传递过来的值
  if (!PyArg_ParseTuple(args, "ii", &a, &b)){
    //失败返回NULL,后面我们会介绍如何在底层返回一个异常
    return NULL;
  }

  //返回相加的结果
  return PyLong_FromLong(a + b);
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS, //这里要把参数类型改成METH_VARARGS
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}

这里编译的过程我们就不显示了,跟之前是一样的。并且为了方便,我们的模块名就不改了,还叫hanser。但是编译之后的pyd文件内容已经变了,不过需要注意的是,我们说编译之后会有一个build目录,然后会自动把里面的pyd文件拷贝到site-packages中,如果你修改了代码,但是模块名没有变的话,那么编译之后的文件名还和原来一样。如果一样的话,那么它发现已经存在相同文件了,就不会再拷贝了。因此两种做法:要么你把模块名给改了,这样编译会生成新的模块。要么编译之前记得把上一次编译生成的build目录先删掉,我们推荐第二种做法,不然site-packages目录下会出现一大堆我们自己定义的模块。

import hanser

try:
    print(hanser.my_func1())
except Exception as e:
    # 我们看到,由于我们在解析的时候写了两个i,那么python解释器知道需要传递两个参数
    # 这里这里报错了,当然后面我们也会自己在底层返回异常
    print(e)  # function takes exactly 2 arguments (0 given)

try:
    print(hanser.my_func1("xx", 123))
except Exception as e:
    # 还是那句话,我们解析的时候写的是两个i,那么解释器知道需要传递的都是整型
    print(e)  # an integer is required (got type str)

# 成功执行
print(hanser.my_func1(10, 25))  # 35

类型检查和返回异常

在python中,当我们传递的类型不对会报错。那么在底层我如何才能检测传递过来的参数是不是想要的类型呢?可以使用PyXxx_Check,比如检测是不是float,那么就是PyFloat_Check。那么检测其他的类型,我想你一定知道如何举一反三。

如何返回一个异常呢?返回异常之前,我们需要知道python中的异常在底层对应什么?规则也很简单,比如TypeError,那么在底层就对应PyExc_TypeError,也就是说在前面加上一个PyExc即可。异常有了如何设置呢?有两种方式:PyErr_SetString和PyErr_Format

//我们这里就只把函数实现贴上去,其它的就不贴了, 因为是一样的
static PyObject *
my_func1(PyObject *self, PyObject *args)
{
  //我们说args可以接收一个参数,那么该参数就是args
  //记得下面的PyMethodDef实例的参数类型改成METH_O,表示接收一个参数
  if (!PyFloat_Check(args)){
    //我们说Py_TYPE是一个宏可以拿到对应的类型的指针,然后通过->tp_name就能够拿到类型名
    //比如:PyLongObject *args, 那么Py_TYPE(args)就是&PyLong_Type,调用->tp_name拿到的就是字符串"int"
    PyErr_Format(PyExc_TypeError, "参数传递错误,我们需要float,但是你传了%s\n", Py_TYPE(args)->tp_name);
    //如果不需要占位符,那么通过PyErr_SetString即可。接收一个异常类型和描述异常的字符串
    return NULL;
  }

  //给传来的值加上一个3.5
  double a = PyFloat_AsDouble(args);
  a = a + 3.5;
  return PyFloat_FromDouble(a);
}
import hanser

try:
    print(hanser.my_func1(1))
except Exception as e:
    print(e)  # type error,we need a float, but you pass a int

# 正常打印
print(hanser.my_func1(1.))  # 4.5

PyUnicodeObject的传递

下面我们来看看python中的字符串如何返回。

static PyObject *
my_func1(PyObject *self, PyObject *args)
{
    //我们下面是的函数参数类型是METH_VARARGS,说明这是个元组,那么元组为空也是可以的
    //但是如果是METH_O,那么就必须传递一个参数了
    wchar_t *s = L"古明地觉1234";
    //这里我们直接返回,PyUnicode_FromWideChar表示将宽字符转成PyUnicodeObject,但是除了宽字符还需要有一个长度
    int len = wcslen(s) + 1;  //宽字符计算要使用wcslen,头文件是wchar.h,但是Python.h中已经引入了,由于\0所以要多加个1
    return PyUnicode_FromWideChar(s, len);

}
import hanser

print(hanser.my_func1())  # 古明地觉1234

然后试试如何传递字符串

#include "Python.h"
#include <locale.h>

static PyObject *
my_func1(PyObject *self, PyObject *args)
{
    //为了支持各种符号,记得加上这一句
    setlocale(LC_COLLATE, "en_US.UTF-8");

    //定义函数,接收两个字符串,然后合并在一起
    wchar_t *s1;
    wchar_t *s2;
    //我们看到这是两个指针,即便如此我们依旧需要传递地址,那么空间谁来分配
    //不用想,肯定是在PyArg_ParseTuple中就分配了,而且这个空间是指向python内部的空间
    //这里使用占位符u,如果python传递的是纯ascii字符串的话,那么也可以用s,但是为了支持中文以及其它符号,所以这里使用u
    PyArg_ParseTuple(args, "uu", &s1, &s2);
    //将两个字符串合并在一起,我们可以先转成PyObject *,然后使用PyUnicode_Concat合并
    //也可以直接在C中先将两个宽字符合并在一起,然后再转成PyObject *,这里我们选择后一种
    //计算长度,因为\0,所以多需要一个空间
    int len = wcslen(s1) + wcslen(s2) + 1;
    wchar_t s[len];
    wcscat(s, s1);
    wcscat(s, s2);
    return PyUnicode_FromWideChar(s, len);

}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS,
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

print(hanser.my_func1("嘿嘿", "哈哈"))  # 嘿嘿哈哈
print(hanser.my_func1("啊~雪莉", "我想死你了(吸溜?(? ???ω??? ?)?)"))  # 啊~雪莉我想死你了(吸溜?(? ???ω??? ?)?)

控制多个参数的类型

现在我们知道怎么传递参数了,并且还会定义异常。但是我们仔细想一下,我们在使用PyArg_ParseTuple解析的时候,我们怎么知道占位符应该有多少个呢?假设用户参数传递少传了或者多传了,那么解析就出问题了。因此如果用户传递的参数个数不对,应该直接报出参数个数错误。

这是一方面,假设我需要三个参数,第一个参数要求是int、第二个要求是str、第三个要求是float。如果用户是按照这种逻辑传递的还好办,如果它传递的类型错误了,我们还按照对应的模式来解析肯定会出错。所以有一种办法是都解析成PyObject,还记得占位符吗?对的,使用大写的字母O。一般我们都会通过PyObject来进行解析。

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args)
{   

    //接收三个参数
    int ob_size = Py_SIZE(args);
    if (ob_size != 3){
        PyErr_Format(PyExc_TypeError, "function my_func1 need 3 arguments, but got %d", ob_size);
        return NULL;
    }

    //创建3个PyObject *
    PyObject *obj1;
    PyObject *obj2;
    PyObject *obj3;
    //创建的是指针,还是传入指针,所以传入的相当于是二级指针
    //因为我们说python中的变量对应底层都是指针,这样才会给PyObject *类型的obj1、obj2、obj3赋值
    //怎么赋值,创建对应的PyObject对象,然后将PyObject对象的指针给obj1、obj2、obj3
    PyArg_ParseTuple(args, "OOO", &obj1, &obj2, &obj3);

    //我们说三个参数分别接收int、str、float,那么把它们的类型取出来,依次比较
    //使用的方法是strcmp,如果相等返回0,否则返回非0,
    int arg1 = strcmp(Py_TYPE(obj1) -> tp_name, "int") == 0;
    int arg2 = strcmp(Py_TYPE(obj2) -> tp_name, "str") == 0;
    int arg3 = strcmp(Py_TYPE(obj3) -> tp_name, "float") == 0;
    if (!arg1){
        PyErr_Format(PyExc_TypeError, "arg1 need a int,but you pass a %s", Py_TYPE(obj1) -> tp_name);
    } else if (!arg2){
        PyErr_Format(PyExc_TypeError, "arg2 need a str,but you pass a %s", Py_TYPE(obj2) -> tp_name);
    } else if(!arg3){
        PyErr_Format(PyExc_TypeError, "arg3 need a float,but you pass a %s", Py_TYPE(obj3) -> tp_name);
    } else {
        return PyUnicode_FromWideChar(L"参数类型传递正确", 9);
    }

    return NULL;

}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS,
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

try:
    print(hanser.my_func1())
except Exception as e:
    print(e)  # function my_func1 need 3 arguments, but got 0

try:
    print(hanser.my_func1(1))
except Exception as e:
    print(e)  # function my_func1 need 3 arguments, but got 1

try:
    print(hanser.my_func1(1, 2))
except Exception as e:
    print(e)  # function my_func1 need 3 arguments, but got 2

try:
    print(hanser.my_func1("", "", ""))
except Exception as e:
    print(e)  # arg1 need a int,but you pass a str

try:
    print(hanser.my_func1(1, "", ""))
except Exception as e:
    print(e)  # arg3 need a float,but you pass a str

try:
    print(hanser.my_func1(1, "", 1.))  # 参数类型传递正确
except Exception as e:
    print(e)

传递关键字参数

传递关键字参数的话,那么我们可以通过key=value的方式来实现,那么在C中我们如何解析呢?既然支持关键字的方式,那么是不是也可以实现默认的参数,就是我们不传会使用默认值呢?答案是支持的,我们知道解析位置参数是通过PyArg_ParseTuple,那么解析关键字参数是通过PyArg_ParseTupleAndKeywords

//函数原型
int PyArg_ParseTupleAndKeywords(PyObject *args, PyObject *kw, const char *format, char *keywords[], ...) 

我们看到相比原来的PyArg_ParseTuple,多了一个kw和一个char*类型的数组,具体怎么用我们在编写代码的时候说。

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    //我们说函数既可以通过位置参数、还可以通过关键字参数传递,那么函数的参数类型就要变成METH_VARARGS | METH_KEYWORDS
    //假设我们定义了三个参数,name、age、place,这三个参数可以通过位置参数传递、也可以通过关键字参数传递
    char *name = ""; //姓名
    int age = 17;   //年龄
    char *place = "东方地灵殿";  //居住地

    //可能有人注意了,我们之前使用的是wchar_t表示宽字符
    //但是使用char *也可以支持中文,至少在python层面是支持的,那么我们就使用char吧
    //使用wchar_t会很麻烦,既然是char *,那么我们的占位符就不用u了,而是使用s

    //告诉python解释器,参数的名字,注意:这里面字符串的顺序就是函数定义的参数顺序
    //也是keys后面的变量顺序,其实变量名字叫什么无所谓,但是类型要和format中对应的占位符匹配,只是为了一致我们会起相同的名字
    //注意结尾要有一个NULL,否则会报出段错误。
    char *keys[] = {"name", "age", "place", NULL}; //这个NULL很重要

    //解析参数,我们看到format中本来应该是sis的,但是中间出现了一个|
    //这就表示|后面的参数是可以不填的,如果不填会使用我们上面给出的默认值
    //因此这里name就是必填的,因为它在|的前面,而age和place可以不填,如果不填就用我们上面给出的默认值
    //keys就是定义的参数的名字,后面把参数的指针传进去
    if (!PyArg_ParseTupleAndKeywords(args, kw, "s|is", keys, &name, &age, &place)){
        return NULL;
    }
    char ret[100];
    //格式化字符串
    sprintf(ret, "你的名字是:%s, 年龄是:%d, 居住地是:%s", name, age, place);

    //这里不再从宽字符来转了,应该是FromString,就是从C中字符串转成python中的字符串
    //而且这个函数只需要字符数组,不需要再指定字符的个数了,很方便
    return PyUnicode_FromString(ret);
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS | METH_KEYWORDS,  //参数类型要改成这个
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

try:
    # 我们在C中写的是s|is,表示后面的两个参数如果不填是默认的
    # 填了就是我们指定的
    print(hanser.my_func1("古明地觉"))  # 你的名字是:古明地觉, 年龄是:17, 居住地是:东方地灵殿
except Exception as e:
    print(e)  

try:
    # 也可以手动指定关键字
    print(hanser.my_func1(name="古明地恋"))  # 你的名字是:古明地恋, 年龄是:17, 居住地是:东方地灵殿
except Exception as e:
    print(e)  

try:
    # 我们说name是必须传递的
    print(hanser.my_func1())
except Exception as e:
    print(e)  # Required argument 'name' (pos 1) not found

try:
    # xxx显然不在char *key[]中
    print(hanser.my_func1("古明地觉", xxx=123))
except Exception as e:
    print(e)  # 'xxx' is an invalid keyword argument for this function

try:
    # 同理我们可以手动指定age
    print(hanser.my_func1("古明地恋", age=15))
except Exception as e:
    print(e)  # 你的名字是:古明地恋, 年龄是:15, 居住地是:东方地灵殿

try:
    # 也可以全部使用关键字参数指定
    print(hanser.my_func1(name="椎名真白", age=17, place="樱花庄"))  # 你的名字是:椎名真白, 年龄是:17, 居住地是:樱花庄
except Exception as e:
    print(e)

try:
    # 多传递一个参数呢?也会提示我们参数传递错误
    print(hanser.my_func1("椎名真白", 17, "樱花庄", 123))
except Exception as e:
    print(e)  # function takes at most 3 arguments (4 given)

try:
    # 参数类型不对,也会提示我们,因为我们在占位符中指定的是sis
    # 第三个占位符是s,不是i,因此传递的123就不符合类型,所以python也会提示我们参数传递的不对
    print(hanser.my_func1("椎名真白", 17, 123))
except Exception as e:
    print(e)  # argument 3 must be str, not int

我们就是实现了支持关键字参数的函数,我们说使用PyArg_ParseTupleAndKeywords的时候,里面写上了args和kw,这表示既支持位置参数、也支持关键字参数。至于顺序就是代码中的顺序,我们看到如果参数传递的个数不正确,python会自动提示你。

因此为了保证python中传参的习惯,我们会选择使用METH_VARARGS?|?METH_KEYWORDS这种方式,表示两种都支持。而且使用这种方式最大的两个好处就是:传递的参数的个数和函数接收的个数不相同,那么python会直接告诉你参数传递个数有问题,不需要我们再通过ob_size来判断了;还有参数类型必须和占位符中指定的类型匹配,否则也会直接提示我们第几个参数类型错误,就不用再通过占位符全部指定为O、获取PyObject *,然后再拿到对应类型的tp_name来一个一个判断了。

返回布尔类型和None

我们说函数都必须返回一个PyObject *,如果这个函数没有返回值,那么在python中实际上返回的是一个None,但是我们不能返回NULL,None和NULL是两码事。在扩展函数中,如果返回NULL就表示这个函数执行的时候,不符合某个逻辑,我们需要终止掉,不能再执行下去了。这是在底层,但是在python的层面,你需要告诉使用者为什么不能执行了,或者说底层的哪一行代码不满足条件,因此这个时候我们会在return NULL之前需要手动设置一个异常,这样在python代码中就会报错,才知道为什么底层函数退出了。当然有时候会自动帮我们设置,比如上面的参数解析错误。

那么在底层如何返回一个None呢?既然要返回我们就需要知道它的结构是什么。

# 首先在python中,None也是有类型的
print(type(None))  # <class 'NoneType'>
# 这个NoneType在底层对应的是_PyNone_Type
# 至于None在底层对应的结构体是_Py_NoneStruct,所以我们返回的时候应该返回这个结构体的指针
# 不过官方不推荐直接使用,而是给我们定义了一个宏
# #define Py_None (&_Py_NoneStruct),我们直接返回Py_None即可。
"""
不光是None,我们说还有True和False
True和False对应的结构体是:_Py_FalseStruct, _Py_TrueStruct,它们本质上是PyLongObject
python也不推荐直接返回,也是定义了两个宏
#define Py_False ((PyObject *) &_Py_FalseStruct)
#define Py_True ((PyObject *) &_Py_TrueStruct)

推荐我们使用Py_False和Py_True
"""

下面我们来试一下:

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    //接收一个名为age的int,范围要求大于0,否则报错
    int age = 18;
    //这里即便只有一个参数,为了能够支持python函数的传递方式,我们会一直使用PyArg_ParseTupleAndKeywords来解析
    char *keys[] = {"age", NULL}; //还是那句话别忘记NULL
    //age如果不传,默认是18,所以占位符要设置成|i
    if (!PyArg_ParseTupleAndKeywords(args, kw, "|i", keys, &age)){
        //解析出错直接返回,否则程序会继续往下走
        //而参数解析出了问题,python会自动报出错误,这个不需要我们关心
         //所以直接return一个NULL即可
        return NULL;
    }
    if (age <= 0){
        //这个时候不符合我们逻辑而结束程序,就需要我们手动设置一个异常了
        //至于像参数解析、参数类型,如果不符合指定的占位符,python会帮我们返回异常信息
        //但是像这种与我们的逻辑不符,我们在结束之前肯定要设置异常,不然莫名退出了,别人也不知道哪里出问题了
        PyErr_SetString(PyExc_ValueError, "age must be greater than 0");
        //或者设置的更详细一些,还可以这么写
        // PyErr_Format(PyExc_ValueError, "age must be greater than 0, but got %d", age);
        //让函数退出,不往下执行了
        return NULL;
    } else if (age < 14) {
        //年龄太小不行,会死刑的
        //返回False,坚决表名立场
        return Py_False;
    } else if (age < 18) {
        //这个就看情况啦,兴许只是三年呢?
        //返回None,表示我也不知道会咋样
        return Py_None;
    } else if (age < 30) {
        //这个就没问题了吧
        return Py_True;
    } else {
        //坚决表名立场,年纪太大
        return Py_False;
    }
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS | METH_KEYWORDS,  //参数类型要改成这个
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

try:
    # 我们不传会使用默认值
    print(hanser.my_func1())  # True
except Exception as e:
    print(e)

try:
    # 类型错误
    print(hanser.my_func1(""))
except Exception as e:
    print(e)  # an integer is required (got type str)

try:
    # 参数个数错误
    print(hanser.my_func1(15, ""))
except Exception as e:
    print(e)  # function takes at most 1 argument (2 given)

try:
    # 传递了不存在的参数
    print(hanser.my_func1(name=15))
except Exception as e:
    print(e)  # 'name' is an invalid keyword argument for this function

try:
    # 这个时候参数解析就不会出问题了,因为-1是一个int
    # 但是它不符合我们的逻辑,因此底层函数退出,但是这时候我们就需要手动设置一个异常了
    # 来告诉使用者,为什么函数退出了
    print(hanser.my_func1(-1))
except Exception as e:
    print(e)  # age must be greater than 0

try:
    # age < 14,返回False
    print(hanser.my_func1(age=13))
except Exception as e:
    print(e)  # False

try:
    print(hanser.my_func1(16))
except Exception as e:
    print(e)  # None

try:
    print(hanser.my_func1(age=18))
except Exception as e:
    print(e)  # True

try:
    print(hanser.my_func1(age=35))
except Exception as e:
    print(e)  # False

PyTupleObject

传递PyTupleObject

下面我们就传递元组了,我们说像int、str这些在C的层面上是可以直接解析的,因为C中原生支持这些类型,比如:int、long、char *等等。但是像python中的元组、列表、字典、集合啊等等,在C中并没有原生的数据结构来支持。因此对于这些对象的解析,我们统统会使用O这个占位符,转成PyObject *,然后通过宏Py_TYPE获取类型,然后再通过->tp_name,获取它到底是一个什么对象,是tuple啊、list啊、还是dict什么的。

还是先剧透一些api。

  • Py_TupleSize:获取python传递过来的元组内的元素个数
  • Py_TupleNew:接收一个整型,表示创建一个能容纳指定个数(PyObject *指针)的元组
  • PyTuple_Check:检测是否为一个PyTupleObject
  • Py_TupleSetItem:设置元素
  • Py_TupleGetItem:获取元素

下面我们来定义一个函数,接收一个只能存放int的元组,然后把里面的元素全部相加,然后返回。

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    //创建一个元组,此时指针为NULL
    PyObject *t = NULL;

    //变量类型,要是通过先定义再赋值的方式,那么这里最好写const char *
    //因为通过tp_name返回的也是一个const char *,尽管我们写成char *也没问题,但是编译会出警告,就让人不舒服
    //这里type是一个指针,指向字符数组的首个元素的地址,这里表示指针指向的内容不能变,也就是对应的字符数组的首个元素不能变
    //但是指针本身是可以变的,它想指向谁就指向谁,当然在做的各位C的水平肯定比我强,这里就不献丑了。
    const char *type;

    //元组的元素个数
    int counts;

    // 用于遍历的索引
    int i; 

    //元组内的每一个元素
    //都是一个PyObject *
    PyObject *value; 

    //总和,如果传递的元组为空,那么总和为0
    //python中sum(())或者sum([])也是这么做的
    int sum = 0; 

    char *keys[] = {"t", NULL};
    if (!PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &t)){
        return NULL;
    }

    //获取变量类型
    type = Py_TYPE(t) -> tp_name;

    //这是一种判断方式,还可以使用PyTuple_Check来检测传递过来的是不是一个元组
    if (strcmp(type, "tuple") != 0){
        PyErr_Format(PyExc_TypeError, "a tuple is required, but got %s", type);
        return NULL;
    }

    //获取元素个数,还可以通过Py_SIZE(t) -> ob_size来获取,还记得吗?
    //当时我们介绍了三个宏,Py_REFCNT、Py_TYPE、Py_SIZE,不记得了回头看看
    //这里返回的类型其实是一个Py_ssize_t,我们使用int也是一样的
    counts = PyTuple_Size(t);

    for (i=0;i<counts;i++){
        //获取对应元素,并检测是否为python中的int
        value = PyTuple_GetItem(t, i);
        if (!PyLong_Check(value)){
            //不是int,则报错
            PyErr_Format(PyExc_ValueError, "the value of index %d is not int, but %s", i, Py_TYPE(value) -> tp_name);
            return NULL;
        }
        sum += PyLong_AsLong(value);
    }
    //结果返回
    return PyLong_FromLong(sum);
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS | METH_KEYWORDS,
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

try:
    print(hanser.my_func1())
except Exception as e:
    print(e)  # Required argument 't' (pos 1) not found

try:
    print(hanser.my_func1((1, 2, "", 4)))
except Exception as e:
    print(e)  # the value of index 2 is not int, but str

try:
    print(hanser.my_func1([1, 2, 3, 4]))
except Exception as e:
    print(e)  # a tuple is required, but got list

try:
    print(hanser.my_func1((1, 3, 5, 7)))   # 16
except Exception as e:
    print(e)

try:
    print(hanser.my_func1(tuple(range(101))))  # 5050
except Exception as e:
    print(e)

返回PyTupleObject

知道怎么传递了,那么下面我们返回一个元组。

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    //这次不需要参数,但是我们的参数类型不用改
    //这个类型是通用的,如果不接收参数,那么对应的元组或者字典就会空
    //因此如果传入参数是不允许的话,那么你可以获取args和kw的ob_size进行检测一下
    //如果不为零,那么返回异常并return NULL

    //创建一个元组,容量为4
    PyObject *t = PyTuple_New(4);

    char *words[] = {"我永远", "喜欢", "satori", "酱~~"};
    int i;
    for (i=0;i<4;i++){
        PyTuple_SetItem(t, i, PyUnicode_FromString(words[i]));
    }

    return t;
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS | METH_KEYWORDS,
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

print(hanser.my_func1())  # ('我永远', '喜欢', 'satori', '酱~~')

PyListObject

传递和返回

PyListObject的传递和返回和PyTupleObject几乎是一样的,只不过PyListObject可以修改罢了,所以传递和返回我们就放在一起介绍了。

还是剧透几个api,和上面的PyTupleObject一样,只需要把Tuple换成List即可,我们这里就不写了。

#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *l1 = NULL;

    char *keys[] = {"l1", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &l1);

    if (!PyList_Check(l1)){
        PyErr_Format(PyExc_TypeError, "need a list, but got %s", Py_TYPE(l1) -> tp_name);
        return NULL;
    }

    //拿到原来list对象的元素个数
    Py_ssize_t counts = PyList_Size(l1);

    //申请对应的空间
    PyObject *l2 = PyList_New(counts);
    //我们将list对象倒序返回
    int i;
    for (i=0; i<counts;i++){
        //将l1的第i个元素,放在l2的counts-1-i的位置上
        PyList_SetItem(l2, counts-1-i, PyList_GetItem(l1, i));
    }
    return l2;
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS | METH_KEYWORDS,  //参数类型要改成这个
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

print(hanser.my_func1([1, 2, "嘿嘿", "哈哈"]))  # ['哈哈', '嘿嘿', 2, 1]

添加、插入、删除

我们说PyListObject对象是支持动态修改的,在python中可以进行append、insert、remove。那么它们对应的底层接口是什么呢,我们来看一下。

  • PyList_Append:在尾部添加一个元素
  • PyList_Insert:在中间插入一个元素
  • list_remove:删除指定的元素,但是我们发现这是小写的。因为python并没有给我们开放这个api,我们能使用的api都是大写的,基本上都是以PyXxx开头的。因此这个方法我们可以参考源码手动实现。
  • PyList_SetSlice:删除指定切片的元素
#include "Python.h"

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *l1 = NULL;

    char *keys[] = {"l1", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &l1);

    if (!PyList_Check(l1)){
        PyErr_Format(PyExc_TypeError, "need a list, but got %s", Py_TYPE(l1) -> tp_name);
        return NULL;
    }

    //假设传递有5个元素的list对象, [1, 2, 3, 4, 5]
    //将第3个元素删除,那么直接将索引为2:3的部分设置为NULL即可,记得要转成PyObject *
    PyList_SetSlice(l1, 2, 3, (PyObject *)NULL); // 变成[1, 2, 4, 5]

    //再尾部添加一个python的字符串
    PyList_Append(l1, PyUnicode_FromString("古明地觉")); // 变成[1, 2, 4, 5, "古明地觉"]

    //在索引为1的地方插入一个float
    PyList_Insert(l1, 1, PyFloat_FromDouble(3.14)); // 变成[1, 3.14, 2, 4, 5, "古明地觉"]

    //删除值为5的元素
    //以下是源码的实现方式,我们做了一点点修改
    //因为list_remove这个方法没有开放给我们,在listobject.c中没有PyList_Remove这个方法
    Py_ssize_t i;
    for (i = 0; i < Py_SIZE(l1); i++) {
        //循环循环遍历每一个元素,比较是否相等
        //这个是富比较,接收两个值,以及一个操作(Py_LT, Py_LE, Py_EQ, Py_NE, Py_GT, Py_GE)
        //相等返回1,否则返回0
        //注意:这里的l1是PyObject *,我们想调用ob_item的话,那么需要转成PyListObject *
        //但是类型转换的优先级比,.xx、->xxx、[index]的优先级低,所以要加上小括号
        int cmp = PyObject_RichCompareBool(((PyListObject *)l1)->ob_item[i], PyLong_FromLong(5), Py_EQ);

        //cmp > 0,说明找到对应元素了,然后执行删除操作
        if (cmp > 0) {
            //实际上PyList_SetSlice底层调用的是list_ass_slice,而list_ass_slice并没有开放给我们使用
            PyList_SetSlice(l1, i, i+1, (PyObject *)NULL);
            //删除完毕之后跳出循环
            break;
        }
        //我们看到这里居然没有{},这算是C语言的一个特点吧
        //如果条件不满足,那么if条件的下面一行代码不会执行,注意只是下面的一行代码
        //我们说cmp理论上要么为1、要么为0,如果小于0,说明富比较那里出错了
         //比如:我们定义一个类A,然后重写__eq__方法,在里面raise一个异常,那么A的实例对象在比较的时候就会引发异常
        else if (cmp < 0)
            return NULL;
    }

    //如果i和Py_SIZE(l1)相等,证明走到头了,说明不存在指定的元素
    if (i == Py_SIZE(l1)){
        PyErr_SetString(PyExc_ValueError, "list.remove(x): x not in list");
        return NULL;
    }

    //操作执行完毕之后返回,因为list修改是在原地操作的
    //所以这里返回一个None,注意不是NULL,因为返回NULL意味着报错了
    //返回None,我们知道可以通过return Py_None,但是python还给我们提供了一个宏
    //我们直接写Py_RETURN_NONE;表示return Py_None
    Py_RETURN_NONE;
}

static PyMethodDef module_functions[] = {
  {
    "my_func1",
    (PyCFunction)my_func1,
    METH_VARARGS | METH_KEYWORDS,  //参数类型要改成这个
    "this is a function named my_func1",
  },
  {NULL, NULL}
};

static PyModuleDef HANSER = {
  PyModuleDef_HEAD_INIT,
  "hanser",
  "this is a module named hanser",
  -1,
  module_functions,
  NULL,
  NULL,
  NULL,
  NULL
};

PyMODINIT_FUNC
PyInit_hanser(void)
{
  return PyModule_Create(&HANSER);
}
import hanser

l = [1, 2, 3, 4, 5]
print(hanser.my_func1(l))  # None 

print(l)  # [1, 3.14, 2, 4, '古明地觉']

try:
    hanser.my_func1([1, 2, 3])
except Exception as e:
    print(e)  # list.remove(x): x not in list

PyDictObject

下面我们来看看PyDictObject怎么在C中进行操作,老规矩还是来看看有哪些api。

  • 解析字典:PyArg_ParseTuple(args, "O", &dic)
  • 查看是不是PyDictObject:PyDict_Check(dic)
  • 查看键值对个数:PyDict_Size(dic)
  • 查看所有的key:PyDict_Keys(dic),会返回一个PyListObject *,里面是PyObject *
  • 查看所有的value:PyDict_Values(dic),会返回一个PyListObject *,里面是PyObject *
  • 查看所有的item:PyDict_Items(dic),会返回一个PyListObject *,里面是PyTupleObject *
  • 迭代遍历:PyDict_Next(dic, Py_ssize_t *pos, PyObject **keys, PyObject **values)
  • 查看字典是否包含某个key:PyDict_Contains(dic, key)
  • 获取某个key对应的value:PyDict_GetItem(dic, key),key为PyObject *
  • 获取某个key对应的value:PyDict_GetItemString(dic, key),key为char *,所以这个api只适用于key为str的类型的
  • 设置key、value:PyDict_SetItem(dic, key, value)
  • 删除一个key:PyDict_DelItem(dic, key),key不存在会抛异常

好吧,具体怎么操作就不演示了,可以自己尝试一下。

引用计数和内存管理

我们目前都没有涉及到内存管理的操作,我们说python中的对象都是申请在堆区的,这个是不会自动释放的。

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    PyObject *s = PyUnicode_FromString("你好呀~~~");
    return Py_None;
}

这个函数不需要参数,如果我们写一个死循环不停的调用这个函数,你会发现内存的占用蹭蹭的往上涨。就是因为这个PyUnicodeObject是申请在堆区的,此时内部的引用计数为1,尽管C中函数的变量存储在栈区,函数执行完毕变量s被销毁了,但是s是一个指针,这个指针被销毁了是不假,但是它指向的内存并没有被销毁。

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *s = PyUnicode_FromString("你好呀~~~");
    Py_DECREF(s);
    return Py_None;
}

因此我们需要手动调用Py_DECREF这个宏,来将s指向的PyUnicodeObject的引用计数减1,这样引用计数就为0了,至于到底是否被回收,就看我们在python中是否有变量去接收,如果有,那么引用计数会再次加1,于是就不会被回收。不过有一个特例,那就是当这个指针作为返回值的时候,我们不需要手动减去引用计数,因为会自动减。

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    PyObject *s = PyUnicode_FromString("你好呀~~~");
    //如果我们把s给返回了,那么我们就不需要调用Py_DECREF了
    //因为一旦作为返回值,那么会自动减去1
    //所以我们前面说C中的对象是由python来管理的,准确的说应该是作为返回值的指针指向的对象是由python来管理的
    return s;
}

不过这里还存在一个问题,那就是我们在C中返回的是python传过来的

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *s = NULL;
    char *keys[] = {"s", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &s);

    //传递过来一个PyObject *,然后原封不动的返回
    //此时你会发现在python中,创建一个变量,然后传递到my_func1中
    //再进行打印就会发生段错误,因为对应的内存已经被回收了
    //如果能正常打印,说明在python中这个变量的引用计数不为1,可能是小整数对象池、或者有多个变量引用,那么就创建一个大整数或者其他的变量多调用几次。
    //因为作为返回值,每次调用引用计数都会减1
    //或者调用之前和调用之后分别使用sys.getrefcount函数查看引用计数的变化
    return s;
}

因为s指向的内存不是在C中调用api创建的,而是python创建然后传递过来、解析出来的,也就是说这个s在解析之后已经指向了一块合法的内存。但是内存中的对象的引用计数是没有变化的,虽说有新的变量(这里的s)指向它了,但是这个s是C中的变量不是python中的变量,因此你可以认为它的引用计数是没有变化的。

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{
    //假设创建一个PyListObject
    PyObject *l1 = PyList_New(2);
    //这个是将l1赋值给l2,但是不好意思,这两位老铁指向的PyListObject的引用计数还是1
    PyObject *l2 = l1;
    return s;
}

因此我们说,如果在C中创建一个PyObject的话,那么它的引用计数只会是1,因为对象被初始化了,引用计数默认是1。至于传递无论你在C中将创建PyObject返回的指针赋值给了多少个变量,它们指向的PyObject的引用计数都会是1。因为这些变量是C中的变量,不是python中的。

因此我们的问题就很好解释了,我们说当一个PyObject *作为返回值的时候,它指向的对象的引用计数会减去1,那么当python传递过来一个PyObject *指针的时候,由于它作为了返回值,因此引用计数会减1。因此当你在python中调用扩展函数结束之后,这个变量指向的内存可能就被销毁了。

如果你在python传递过来的指针没有作为返回值,那么怎么引用计数是不会发生变化的,但是一旦作为了返回值,引用计数会自动减1,因此我们需要手动的加1

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *s = NULL;
    char *keys[] = {"s", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &s);
    //这样就没有问题了。
    Py_INCREF(s);
    return s;
}

因此我们可以得出如下结论:

  • 如果在C中,创建一个PyObject *var,并且var已经指向了合法的内存,比如调用PyList_New、PyDict_New等等api返回的PyObject *,总之就是已经存在了PyObject,那么如果var没有作为返回值,我们必须手动地将var指向的对象的引用计数减1,否则这个对象就会在堆区一直待着不会被回收。可能有人问,如果PyObject *var2 = var,我将var再赋值给一个变量呢?那么只需要对一个变量进行Py_DECREF即可,当然对哪个变量都是一样的,因为在C中变量的传递不会导致引用计数的增加。
  • 如果C中创建的PyObject *作为返回值而存在了,那么会自动将指向的对象的引用计数减1,因此此时该指针指向的内存就由python来管理了,就相当于在python中创建了一个对象,我们不需要关心。
  • 最后关键的一点,如果C中返回的指针指向的内存是python中创建好的,假设我们在python中创建了一个对象,然后把指针传递过来了,但是我们说这不会导致引用计数的增加,因为赋值的变量是C中的变量。如果C中用来接收参数的指针没有作为返回值,那么引用计数在扩展函数调用之前是多少、调用之后还是多少。一旦作为了返回值,我们说引用计数会自动减1,因此假设你在调用扩展函数之前引用计数是3,那么调用之后你会发现引用计数变成了2。为了防止段错误,一旦作为返回值,我们需要在返回之前手动地将引用计数加1。

我们来看几个例子:

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *s = NULL;
    char *keys[] = {"s", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &s);

    //假设这个s是一个PyDictObject *
    if (!PyDict_Contains(s, PyUnicode_FromString("name"))){
        //如果s不包含name这个key,终止函数,当然这里就不设置异常了
        return NULL;
    }
    return Py_None;
}

如果写死循环,调用这个函数会怎么样?答案是内存的使用会不断增加,为什么?就是因为在检测的时候,我们写了PyUnicode_FromString("name"),这个对象是申请在堆区,我们并没有释放,因此每调用一次函数都会创建这样一个PyUnicodeObject对象,于是会导致内存使用不断增加。正确写法应该是这样:

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *s = NULL;
    char *keys[] = {"s", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &s);

    PyObject *k = PyUnicode_FromString("name");
    if (!PyDict_Contains(s, k)){
        return NULL;
    }
    //先创建,然后再减去引用计数,这样就不会发生内存泄露了
    Py_DECREF(k);
    //可能有人问这个s怎么办?我们这个s指向的内存是python中创建的,它不会导致引用计数的变化
    //而一旦函数结束,这个指针就被销毁了,因此指针也不会占用空间
    //至于它指向的内存到底如何,就完全取决于python中的代码是怎么写的。
    //因此我们python中的变量怎么过来的,就怎么回去,不会影响。
    //前提是我们不能够返回这个s,而一旦返回了s,那么会自动的将s指向的对象的引用计数减1
    //因此如果返回了s,我们还需要手动地调用Py_INCREF将s指向的对象的引用计数加1
    //当然了,至于用C的类型创建的变量,像什么int啊、char *啊,这些就不用说了
    //随着函数的结束会将指针连带指向的内存一块被销毁,我们关心的是PyObject *指向的内存,因为它是在堆区的
    //栈区的变量我们不需要关心
    return Py_None;
}

再比如:

static PyObject *
my_func1(PyObject *self, PyObject *args, PyObject *kw)
{   

    PyObject *s = NULL;
    char *keys[] = {"s", NULL};
    PyArg_ParseTupleAndKeywords(args, kw, "O", keys, &s);

    PyObject *k = PyUnicode_FromString("name");
    if (!PyDict_Contains(s, k)){
        return NULL;
    }

    PyObject *v = PyDict_GetItem(s, k);
    Py_DECREF(k);
    return Py_None;
}

我们这里获取了字典s中键为k的value,并用v来接收。那么此时会不会发生内存泄露?答案是不会的,因为我们减去了k的引用计数。至于v,那么这个v指向的对象是谁创建的呢?显然是python中已经创建好的,因为获取的就是python中字典对应的值,如果我们再使用Py_DECREF(v);减去引用计数,那么反而有点"偷鸡不成蚀把米"的感觉,因为这有可能导致python中对应的value指向的内存被回收。

  • 在不作为返回值的情况下:如果一个变量指向的内存是C中创建的,那么记得使用Py_DECREF将引用计数减1;如果是python中创建的,那么不需要做任何事情
  • 在作为返回值的情况下:如果一个变量指向的内存是C中创建的,那么不需要做任何事情;如果是python中创建的,那么记得使用Py_INCREF将引用计数加1。

ok,就这么简单。

原文地址:https://www.cnblogs.com/traditional/p/12271629.html

时间: 2024-10-24 17:35:16

使用C语言为python编写动态模块(2)--解析python中的对象如何在C语言中传递并返回的相关文章

使用C语言为python编写动态模块(1)--从底层深度解析python中的对象以及变量

楔子 我们知道可以通过使用C语言编写动态链接库的方式来给python加速,但是方式是通过ctypes来加载,通过类CDLL将动态链接库加载进来得到一个对象之后,通过这个对象来调用动态链接库里面的函数.那么问题来了,我们可不可以使用C语言为python编写模块呢?然后在使用的时候不使用ctypes加载动态库的方式,而是通过python的关键字import进行加载. 答案是可以的,我们知道可以通过编写py文件的方式来得到一个模块,那么也可以使用C语言来编写C源文件,然后再通过python解释器进行编

使用C语言为python编写动态模块(3)--在C中实现python中的类

楔子 这次我们来介绍python中的类型在C中是如何实现的,我们在C中创建python的int对象,可以使用PyLong_FromLong.创建python的list对象可以使用PyList_New,那么如何在C中构建一个python中的类呢? 对于构建一个类,我们肯定需要以下步骤: 创建一个类扩展 添加类的参数 添加类的方法 添加类的属性,比如可以设置.获取属性 添加类的继承 解决类的循环引用导致的内存泄露问题和自定义垃圾回收 前面几个步骤是必须的,但是容易把最后一个问题给忽略掉.我们在pyt

利用ngx_python模块嵌入到Python脚本

导读 Python是一种计算机程序设计语言.是一种动态的.面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的.大型项目的开发. ngx_python 是为 nginx 嵌入 python 脚本的模块. 环境 - python 2.7.* - nginx-1.6.3+ 安装 git clone https://github.com/rryqszq4/ngx_python.git wget 'http://nginx.org/d

python基础--常用模块与面向对象基础

1常用模块 1.1 xml xml是实现不同语言或程序之间进行数据交换的协议 xml的格式如下: <?xml version="1.0"?> <data> <country name="Liechtenstein"> <rank updated="yes">2</rank> <year>2008</year> <gdppc>141100</gdp

Python import导入模块

python中的import语句是用来导入模块的,在python模块库中有着大量的模块可供使用,要想使用这些文件需要用import语句把指定模块导入到当前程序中. import语句作用 import语句作用就是用来导入模块的,它可以出现在程序中的任何位置. import语句语法 使用import语句导入模块,import语句语法如下:import module关键字 模块名 使用方法例如:import math       #入导math模块math.floor()        #调用math

python函数动态参数详解

Python的动态参数: 1,参数前一个"*":在函数中会把传的参数转成一个元组.   func (*       func(123,1,2,)   result:(123, 1, 2, 'a') 2,"**args"的参数:函数中被转成一个字典. 如果这样传参的话会报错,因为没有指定key或value:def func (**args):    print(args) func(123,1,2,'a') result:TypeError: func() takes

python怎么装模块

windows下 最简单的方法: File---Settings--Project  ---Project Interpreter 下----点击 +号,输入你需要安装的模块名,点击Install Package按钮 linux下安装 首先保证XShell 与乌班图连接上. 注意:实现客户端与linux服务器端的文件交互呢? 这就需要用到rz(上传).sz(下载)工具. 1) python怎么安装模块,我们安装python的时候并没有安装这些模块,在安装模块之前,你首先得安装了setuptool

Python学习week7-OS模块与shutil模块

1.OS模块 # os模块主要功能:系统相关,目录及文件操作,执行命令和进程管理 1.1.系统相关 1.2.文件和目录操作 # os.getcwd() # 获取当前工作路径 # os.chdir('dirname') 其中dirname为路径: # 切换目录,相当于shell下的cd 命令 # os.makedirs('dir1/dir2') # 生成多层递归目录 # os.removedirs('dir1') # 递归删除空目录 # os.mkdir('dirname') # 生成单级目录 #

Tengine动态模块扩展

Tengine 安装tengine兼容nginx配置并启用模块ngx_http_concat_module ngx_http_concat_module 该模块类似于apache中的mod_concat模块,用于合并多个文件在一个响应报文中. --with-http_concat_module enable ngx_http_concat_module 静态模块 --with-http_concat_module=shared enable ngx_http_concat_module (sha