在比较浅层次上我们通过说明如下问题来进一步深入了解python内存管理机制:
python中到底是“传引用”还是“传值”呢???
这个问题的回答是:看情况。有的是传值,有的是传引用。
判断的依据是看对象的可变性,而这一点又取决于对象的类型。故在python中的说法是对象可变的还是不可变的。
基本数据类型(整型及其他数据类型,字符串)及元组是不可变的,参数传递的是形参,也就是传过来的是原值的一个拷贝,在函数中改变形参的值实参不会发生变化:
def func(a)
列表、字典、类及类实例是可变数据类型,作为参数传递则是原值的一个引用,函数对形参列表进行了改变,那么实参也相应的发生变化:
def func(a=[])
可以使用元组进行参数传递,因为元组是不允许改变的.
一个常用的例子是list.sort(),它是直接在列表上排序而不是返回它,可以通过自己复制一个拷贝: newlist=list(mylist),或者newlist=mylist[:]
python中复制对象(a=b)也是同样的道理,不可变对象被真正复制,而可变对象只是复制了一个对它的引用。
例1:
list0=[1,2,’a’,[‘b’,’c’]]
list1= list0
list1[0]=11
list0[3][0]= ’d’
print list1 #[ 11,2,’a’,[‘d’,’c’] ]
print list0 #[ 11,2,’a’,[‘d’,’c’] ]
list0中1,2,’a’均为不可变对象,[‘b’,’c’]为可变对象
例2:(浅拷贝)
list0=[1,2,’a’,[‘b’,’c’]]
list1=list(list0)
list1[0]=11
list0[3][0]= ’d’
print list1 #[ 11,2,’a’,[‘d’,’c’] ]
print list0 #[ 1 ,2,’a’,[‘d’,’c’] ]
list0中1,2,’a’均为不可变对象,[‘b’,’c’]为可变对象
经过上面的讲解,可能我们已经初步认识到哪些是引用,哪些是传值的了,至此,我们还没有真正了解它的内部原理:
在来看如下例子:
>>a=1
>>b=a
id(a)==id(b),此时b和a指向同一地址,此时b也是对a的一个引用
当b的值改变时会指向其他地址,即重新分配内存
>>b+=1
id(a)!=id(b)
>>a=[1,2,3]
>>b=a
此时b是a的一个引用。id(a)==id(b)
>>b=[4,5,6]
此时b重新分配内存。
另外一点说明:当我们定义的变量与函数同名时,再使用系统函数,python会提示不可用,这时我们要 del varible将变量删除:
如:>>>list=[1,2,3]
>>>newlist=list(list)#这时外面的list也会被当做列表来使用造成错误
>>>del list
原理:
python中任何变量都是对象,所以参数只支持引用传递方式。即通过名字绑定的机制,把实际参数的值和形式参数的名称绑定在一起,形式参数和实际参数指向内存中的同一个存储空间。
python中任何变量都是对象,看上去不可变的对象是值传递其实也是传递的引用,之所以改变形参后,形参和实参未保持一致是因为不可变对象的改变都是一种重新赋值(即重新分配内存的过程),而可变对象的改变值就是在原内存地址基础上add或append,不是一个重新赋值的过程,通过上面的例子我们可以发现,可变对象重新赋值地址是同样会发生变化的。
进一步我们来解读python 的内存管理机制:
Python引入了一个机制:引用计数。
python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用计数,当对象不再需要时,这个对象的引用计数为0时,它被垃圾回收。
总结一下对象会在一下情况下引用计数加1:
1.对象被创建:x=4
2.另外的别人被创建:y=x
3.被作为参数传递给函数:foo(x)
4.作为容器对象的一个元素:a=[1,x,‘33‘]
引用计数减少情况
1.一个本地引用离开了它的作用域。比如上面的foo(x)函数结束时,x指向的对象引用减1。
2.对象的别名被显式的销毁:del x ;或者del y
3.对象的一个别名被赋值给其他对象:x=789
4.对象从一个窗口对象中移除:myList.remove(x)
5.窗口对象本身被销毁:del myList,或者窗口对象本身离开了作用域。
垃圾回收
1、当内存中有不再使用的部分时,垃圾收集器就会把他们清理掉。它会去检查那些引用计数为0的对象,然后清除其在内存的空间。当然除了引用计数为0的会被清除,还有一种情况也会被垃圾收集器清掉:当两个对象相互引用时,他们本身其他的引用已经为0了。
2、垃圾回收机制还有一个循环垃圾回收器, 确保释放循环引用对象(a引用b, b引用a, 导致其引用计数永远不为0)。
在Python中,许多时候申请的内存都是小块的内存,这些小块内存在申请后,很快又会被释放,由于这些内存的申请并不是为了创建对象,所以并没有对象一级的内存池机制。这就意味着Python在运行期间会大量地执行malloc和free的操作,频繁地在用户态和核心态之间进行切换,这将严重影响Python的执行效率。为了加速Python的执行效率,Python引入了一个内存池机制,用于管理对小块内存的申请和释放。
内存池机制
Python提供了对内存的垃圾收集机制,但是它将不用的内存放到内存池而不是返回给操作系统。
Python中所有小于256个字节的对象都使用pymalloc实现的分配器,而大的对象则使用系统的 malloc。另外Python对象,如整数,浮点数和List,都有其独立的私有内存池,对象间不共享他们的内存池。也就是说如果你分配又释放了大量的整数,用于缓存这些整数的内存就不能再分配给浮点数。
在Python中,许多时候申请的内存都是小块的内存,这些小块内存在申请后,很快又会被释放,由于这些内存的申请并不是为了创建对象,所以并没有对象一级的内存池机制。这就意味着Python在运行期间会大量地执行malloc和free的操作,频繁地在用户态和核心态之间进行切换,这将严重影响 Python的执行效率。为了加速Python的执行效率,Python引入了一个内存池机制,用于管理对小块内存的申请和释放。这也就是之前提到的 Pymalloc机制。
关于内存管理机制引用自:http://blog.chinaunix.net/uid-26602509-id-3506965.html
接着,我们继续谈python内存情况,在面试过程中被问到
python中的list在内存中是以数组方式存储还是链表的方式呢???
突然一下子就被问住了,想想用起来开始觉得是链表,后来又觉得是数组,模棱两可,通过查阅一些资料,发现list的存储方式是arraylist(动态数组),与它相对应的是linkedlist(链表),arraylist其实就是数组了,其实就相当于C++中的vector,只不过这时的list可以存储不同类型的元素。那么我们明白了这些后,使用的时候才会更加注意对于插入或者删除频繁的时候,list效率是比较低的,毕竟它存储形式是arraylist。
python中的tuple存储形式是什么呢?
tuple在内存中的存储形式就是常量数组,因为它是不可变的数据类型,所以常量数组估计大家都能理解。
python中的dictionary存储形式是什么呢?
字典相当于C++标准库中的map
字符串呢
字符串其实就是不能修改的list,也是数组的形式,这和c/c++是一致的。