pycURL的内存问题

最近用pycURL写了一个工具，注册账号用的。写是写好了，但是发现内存占用超大。40个线程运行一天跑到了3.7G的内存。

于是着手调查这个问题。

调查方法就是用python的gc啦。

关于python gc的特性神马的我就不赘述了，google都能搜到一大坨。

最后是发现pycURL的使用中的一个地方导致了循环引用，再加上我写了析构方法，于是就杯具了。。

def __init__(self):

...

self._crawler = pycurl.Curl()

...

self._crawler.setopt(pycurl.WRITEFUNCTION, self._get_res)

...

def __del__(self):

self._crawler.close()

def _get_res(self, data):

self._response += data

就是这样。。于是就好了。。这个类引用的pycurl.Curl对象，pycurl.Curl对象又引用了这个类里的_get_res方法。。。

破解这个循环也不是很方便就可以的，最后还是用了在perform前指定局部变量

def visit(self, ...):

b = StringIO.StringIO()

self._crawler.setopt(pycurl.WRITEFUNCTION, b.write)

...

self._crawler.perform()

self._response = b.getvalue()

...

-.-

比较一下

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
13020 huang.sh 15 0 5821m 3.7g 4784 S 0.0 47.3 3:22.22 /usr/local/bin/python2.6 -O -m captcha.regmachine.register

上面是优化前的运行状况，40线程

下面是优化后的运行状况，50线程

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
21702 huang.sh 15 0 953m 112m 4776 S 0.0 1.4 3:34.11 /usr/local/bin/python2.6 -O -m captcha.regmachine.register

时间： 2024-10-26 10:45:06

pycURL的内存问题的相关文章

Zabbix使用Pycurl模块监控web页面状态

由于网络的问题,zabbix自带web模块用不了,后台研发2b,老是更新正式环境安装包,导致一直出问题,老是给他们擦屁股,早说过这事,他们不配合,现在出问题了,挺爽,这锅我表示不背,就找了pycurl这个模块写个监控. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 c = pycurl.Curl() #创建一个curl对象 c.setopt(pycurl.CONNECTTIMEOUT, 5)

转python版本的curl工具pycurl学习

一 pycurl介绍 pycurl模块为libcurl库提供了一个python接口.libcurl是一个开源免费且方便快捷的基于客户端的url传输库,支持FTP,HTTP,HTTPS,IMAP,IMAPS,LDAP,LDAPS,POP3,POP3S,RTMP,RTSP,SCP等等.libcurl还支持SSL认证,HTTP POST,HTTP PUT,FTP UPLOADING等等.和urllib模块类似,pycurl模块也可以用来获取一个url的对象.pycurl使用了大部分libcurl提供的

JavaScript的进阶之路（二）函数简介，变量、作用域和内存问题

<h3>ECMAScript中函数不存在函数签名的概念,没有重载</h3><h3>无需指定返回值,可以在任何时候返回任何值.未指定返回值的函数,返回的是一个特殊的undefined值</h3> <script type="text/javascript"> function sayHi(){ console.log("Hi"); }; sayHi(); function sayName(name,age){

【c/c++】内存分配大小

测试平台:linux 32位系统用sizeof()运算符计算分配空间大小.单位:字节 1. 数组名与变量名的区别 int main() { char q[] = "hello"; cout << "q:" << sizeof(q) << endl; char *mq = q; cout << "mq:" << sizeof(mq) << endl; const char *

Performance Monitor3：监控SQL Server的内存压力

SQL Server 使用的资源受到操作系统的调度,同时,SQL Server在内部实现了一套调度算法,用于管理从操作系统获取的资源,主要是对内存和CPU资源的调度.一个好的数据库系统,必定在内存中缓存足够多的信息,以减少从物理硬盘中读取数据的次数:如果内存是系统瓶颈,那么SQL Server一定会运行的非常慢.监控SQL Server的内存压力,需要从Widnows级别上,对内存使用的整体使用情况进行监控:从SQL Server级别上,监控SQL Server对内存资源的使用情况. 一,从Wi

试试SQLSERVER2014的内存优化表

原文:试试SQLSERVER2014的内存优化表试试SQLSERVER2014的内存优化表 SQL Server 2014中的内存引擎(代号为Hekaton)将OLTP提升到了新的高度. 现在,存储引擎已整合进当前的数据库管理系统,而使用先进内存技术来支持大规模OLTP工作负载. 就算如此,要利用此新功能,数据库必须包含"内存优化"文件组和表即所配置的文件组和表使用Hekaton技术. 幸运的是,SQL Server 2014使这一过程变得非常简单直接. 要说明其工作原理,我们来创

Linux内存VSS,RSS,PSS,USS解析

转载:http://myeyeofjava.iteye.com/blog/1837860 adb shell procrank | grep com.package > appmem说明:五个参数分别为PID Vss Rss Pss Uss 一般来说内存占用大小有如下规律:VSS >= RSS >= PSS >= USS VSS - Virtual Set Size 虚拟耗用内存(包含共享库占用的内存)RSS - Resident Set Size 实际使用物理内存(包含共享库占用

函数一直无法立即退出，在等待了大约30s后才能退出（QMulitHash释放不连续的内存需要很长世间，而这样设置局部变量后又无法避免这个问题）

局部变量使用对性能的影响以及进程的堆和栈: 由于在代码中我使用了QMulitHash<QString , LHFilteVersionItem> tmp;这一局部变量来保存某一目录下的文件,由于在写测试代码期间,我利用循环模拟了50万的数据序列化后保存在文件中,在运行期间我发现读取函数耗费很长的时间,而函数里面最耗时的读取操作也只花费了很短的时间,但是函数一直无法立即退出,在等待了大约30s后才能退出,相关代码如下: [cpp] view plain copy void LHTWORKFLOW

内存池、进程池、线程池

首先介绍一个概念"池化技术 ".池化技术一言以蔽之就是:提前保存大量的资源,以备不时之需以及重复使用. 池化技术应用广泛,如内存池,线程池,连接池等等.内存池相关的内容,建议看看Apache.Nginx等开源web服务器的内存池实现. 起因:由于在实际应用当中,分配内存.创建进程.线程都会设计到一些系统调用,系统调用需要导致程序从用户态切换到内核态,是非常耗时的操作. 因此,当程序中需要频繁的进行内存申请释放,进程.线程创建销毁等操作时,通常会使用内存池.进程池.