在之前的开发中,有很多错误或者是性能较差,后来查了资料进行了改正,这里可以分享一下:
1. mysql数据库问题
(1)mysql数据库如果之前有安装过的话,再次安装可能会发生服务已经启动这样的情况,这样的话可以先停止mysql服务,到注册表中删除这一项服务的内容,然后调用:sc delete mysql,再进行安装就可以了。
(2)mysql的安装方法:地址:http://www.mysql.com/downloads/mysql/,下载后将bin目录加入path变量,然后修改my.ini文件,这个具体配置后面再说(作用很大),然后以管理员权限运行cmd,cd到安装的bin目录,安装数据库服务,执行命令 mysqld -install 一般来说可以安装成功,打开服务 net start mysql 这样就可以了。 登陆的话使用 mysql -u root -p 回车后输入密码就可以进行操作了。
(3)mysql中的中文乱码问题,这个困扰了我好几天,不过也是因为自己粗心,在用MySQLdb连接的时候没有设置参数charset =‘utf-8’,其实建议把Python的编码方式,以及数据库的编码等都设置为utf-8,如果有需要再进行encode()和decode()或者Unicode操作。另外,再查询资料的时候也看到其他的一些解决方法,这里也提一下但是没有测试:一个是重新加载编码格式的,因为Python是默认通过ASCII来解码的,这个其实并不一定,你可以在开头就指定使用utf-8,另外一个暴利修改MySQL中connection.py 256行编码返回格式的,这个我试过不知是不是方法不对没有效果,另外就是使用creat_engine()的,这个在mysql里面的文档有很详细的说明,但是我也试了还是不行,其中有一个应该是re的格式不匹配的错误,有需要的可以去参考一下,还有就是解码或者编码等等,大概就这么几种方法。
(4)另外提到了my.ini文件的配置,这个主要是配置一些路径到安装路径(不用到bin)和data的路径。比较关键的是几个字符的设置和一些内存空间分配的设置。以下是摘入的其他博客内容:网址是 http://www.itokit.com/2011/1204/72689.html。这里我主要关注两点,一个是字符的设置,可以参考http://www.itokit.com/2011/1204/72689.html ,还有就是修改了字符的设置之后有可能需要在前面加loose-,据说是bug,没有深究,但是的确没加的时候无法启动服务;另外一个就是下面45行提到的max_allowed_packet,因为有一次我用元组批量查询的时候出现了连接的错误,查了一下可能是因为查询的语句过大导致的,这个mysql上面也有专门的介绍,于是就改了这个参数,然后ok了。小技巧: show variables like ‘‘ 查看配置状态,有时很有用。
--------------------------------------------------------------------------------
1. back_log
指定MySQL可能的连接数量。当MySQL主线程在很短的时间内得到非常多的连接请求,该参数就起作用,之后主线程花些时间(尽管很短)检查连接并且启动一个新线程。
back_log参数的值指出在MySQL暂时停止响应新请求之前的短时间内多少个请求可以被存在堆栈中。如果系统在一个短时间内有很多连接,则需要增大该参数的值,该参数值指定到来的TCP/IP连接的侦听队列的大小。不同的操作系统在这个队列大小上有它自己的限制。 试图设定back_log高于你的操作系统的限制将是无效的。
当观察MySQL进程列表,发现大量 264084 | unauthenticated user | xxx.xxx.xxx.xxx | NULL | Connect | NULL | login | NULL 的待连接进程时,就要加大 back_log 的值。back_log默认值为50。
2. basedir
MySQL主程序所在路径,即:--basedir参数的值。
3. bdb_cache_size
分配给BDB类型数据表的缓存索引和行排列的缓冲区大小,如果不使用DBD类型数据表,则应该在启动MySQL时加载 --skip-bdb 参数以避免内存浪费。
4.bdb_log_buffer_size
分配给BDB类型数据表的缓存索引和行排列的缓冲区大小,如果不使用DBD类型数据表,则应该将该参数值设置为0,或者在启动MySQL时加载 --skip-bdb 参数以避免内存浪费。
5.bdb_home
参见 --bdb-home 选项。
6. bdb_max_lock
指定最大的锁表进程数量(默认为10000),如果使用BDB类型数据表,则可以使用该参数。如果在执行大型事物处理或者查询时发现 bdb: Lock table is out of available locks or Got error 12 from ... 错误,则应该加大该参数值。
7. bdb_logdir
指定使用BDB类型数据表提供服务时的日志存放位置。即为 --bdb-logdir 的值。
8. bdb_shared_data
如果使用 --bdb-shared-data 选项则该参数值为On。
9. bdb_tmpdir
BDB类型数据表的临时文件目录。即为 --bdb-tmpdir 的值。
10. binlog_cache_size
为binary log指定在查询请求处理过程中SQL 查询语句使用的缓存大小。如果频繁应用于大量、复杂的SQL表达式处理,则应该加大该参数值以获得性能提升。
11. bulk_insert_buffer_size
指定 MyISAM 类型数据表表使用特殊的树形结构的缓存。使用整块方式(bulk)能够加快插入操作( INSERT ... SELECT, INSERT ... VALUES (...), (...), ..., 和 LOAD DATA INFILE) 的速度和效率。该参数限制每个线程使用的树形结构缓存大小,如果设置为0则禁用该加速缓存功能。注意:该参数对应的缓存操作只能用户向非空数据表中执行插入操作!默认值为 8MB。
12. character_set
MySQL的默认字符集。
13. character_sets
MySQL所能提供支持的字符集。
14. concurrent_inserts
如果开启该参数,MySQL则允许在执行 SELECT 操作的同时进行 INSERT 操作。如果要关闭该参数,可以在启动 mysqld 时加载 --safe 选项,或者使用 --skip-new 选项。默认为On。
15. connect_timeout
指定MySQL服务等待应答一个连接报文的最大秒数,超出该时间,MySQL向客户端返回 bad handshake。
16. datadir
指定数据库路径。即为 --datadir 选项的值。
17. delay_key_write
该参数只对 MyISAM 类型数据表有效。有如下的取值种类:
off: 如果在建表语句中使用 CREATE TABLE ... DELAYED_KEY_WRITES,则全部忽略
DELAYED_KEY_WRITES;
on: 如果在建表语句中使用 CREATE TABLE ... DELAYED_KEY_WRITES,则使用该选项(默认);
all: 所有打开的数据表都将按照 DELAYED_KEY_WRITES 处理。
如果 DELAYED_KEY_WRITES 开启,对于已经打开的数据表而言,在每次索引更新时都不刷新带有
DELAYED_KEY_WRITES 选项的数据表的key buffer,除非该数据表关闭。该参数会大幅提升写入键值的速
度。如果使用该参数,则应该检查所有数据表:myisamchk --fast --force。
18.delayed_insert_limit
在插入delayed_insert_limit行后,INSERT DELAYED处理模块将检查是否有未执行的SELECT语句。如果有,在继续处理前执行允许这些语句。
19. delayed_insert_timeout
一个INSERT DELAYED线程应该在终止之前等待INSERT语句的时间。
20. delayed_queue_size
为处理INSERT DELAYED分配的队列大小(以行为单位)。如果排队满了,任何进行INSERT DELAYED的客户必须等待队列空间释放后才能继续。
21. flush
在启动MySQL时加载 --flush 参数打开该功能。
22. flush_time
如果该设置为非0值,那么每flush_time秒,所有打开的表将被关,以释放资源和sync到磁盘。注意:只建议在使用 Windows9x/Me 或者当前操作系统资源严重不足时才使用该参数!
23. ft_boolean_syntax
搜索引擎维护员希望更改允许用于逻辑全文搜索的操作符。这些则由变量 ft_boolean_syntax 控制。
24. ft_min_word_len
指定被索引的关键词的最小长度。注意:在更改该参数值后,索引必须重建!
25. ft_max_word_len
指定被索引的关键词的最大长度。注意:在更改该参数值后,索引必须重建!
26. ft_max_word_len_for_sort
指定在使用REPAIR, CREATE INDEX, or ALTER TABLE等方法进行快速全文索引重建过程中所能使用的关键词的最大长度。超出该长度限制的关键词将使用低速方式进行插入。加大该参数的值,MySQL将会建立更大的临时文件(这会减轻CPU负载,但效率将取决于磁盘I/O效率),并且在一个排序取内存放更少的键值。
27. ft_stopword_file
从 ft_stopword_file 变量指定的文件中读取列表。在修改了 stopword 列表后,必须重建 FULLTEXT 索引。
28. have_innodb
YES: MySQL支持InnoDB类型数据表; DISABLE: 使用 --skip-innodb 关闭对InnoDB类型数据表的支持。
29. have_bdb
YES: MySQL支持伯克利类型数据表; DISABLE: 使用 --skip-bdb 关闭对伯克利类型数据表的支持。
30. have_raid
YES: 使MySQL支持RAID功能。
31. have_openssl
YES: 使MySQL支持SSL加密协议。
32. init_file
指定一个包含SQL查询语句的文件,该文件在MySQL启动时将被加载,文件中的SQL语句也会被执行。
33. interactive_timeout
服务器在关上它前在一个交互连接上等待行动的秒数。一个交互的客户被定义为对mysql_real_connect()使用CLIENT_INTERACTIVE选项的客户。也可见wait_timeout。
34. join_buffer_size
用于全部联合(join)的缓冲区大小(不是用索引的联结)。缓冲区对2个表间的每个全部联结分配一次缓冲区,当增加索引不可能时,增加该值可得到一个更快的全部联结。(通常得到快速联结的最佳方法是增加索引。)
35. key_buffer_size
用于索引块的缓冲区大小,增加它可得到更好处理的索引(对所有读和多重写),到你能负担得起那样多。如果你使它太大,系统将开始变慢慢。必须为OS文件系统缓存留下一些空间。为了在写入多个行时得到更多的速度。
36. language
用户输出报错信息的语言。
37. large_file_support
开启大文件支持。
38. locked_in_memory
使用 --memlock 将mysqld锁定在内存中。
39. log
记录所有查询操作。
40. log_update
开启update log。
41. log_bin
开启 binary log。
42. log_slave_updates
如果使用链状同步或者多台Slave之间进行同步则需要开启此参数。
43. long_query_time
如果一个查询所用时间超过该参数值,则该查询操作将被记录在Slow_queries中。
44. lower_case_table_names
1: MySQL总使用小写字母进行SQL操作;
0: 关闭该功能。
注意:如果使用该参数,则应该在启用前将所有数据表转换为小写字母。
45. max_allowed_packet
一个查询语句包的最大尺寸。消息缓冲区被初始化为net_buffer_length字节,但是可在需要时增加到max_allowed_packet个字节。该值太小则会在处理大包时产生错误。如果使用大的BLOB列,必须增加该值。
46. net_buffer_length
通信缓冲区在查询期间被重置到该大小。通常不要改变该参数值,但是如果内存不足,可以将它设置为查询期望的大小。(即,客户发出的SQL语句期望的长度。如果语句超过这个长度,缓冲区自动地被扩大,直到max_allowed_packet个字节。)
47. max_binlog_cache_size
指定binary log缓存的最大容量,如果设置的过小,则在执行复杂查询语句时MySQL会出错。
48. max_binlog_size
指定binary log文件的最大容量,默认为1GB。
49. max_connections
允许同时连接MySQL服务器的客户数量。如果超出该值,MySQL会返回Too many connections错误,但通常情况下,MySQL能够自行解决。
50. max_connect_errors
对于同一主机,如果有超出该参数值个数的中断错误连接,则该主机将被禁止连接。如需对该主机进行解禁,执行:FLUSH HOST;。
51. max_delayed_threads
不要启动多于的这个数字的线程来处理INSERT DELAYED语句。如果你试图在所有INSERT DELAYED线程在用后向一张新表插入数据,行将被插入,就像DELAYED属性没被指定那样。
52. max_heap_table_size
内存表所能使用的最大容量。
53. max_join_size
如果要查询多于max_join_size个记录的联合将返回一个错误。如果要执行没有一个WHERE的语句并且耗费大量时间,且返回上百万行的联结,则需要加大该参数值。
54. max_sort_length
在排序BLOB或TEXT值时使用的字节数(每个值仅头max_sort_length个字节被使用;其余的被忽略)。
55. max_user_connections
指定来自同一用户的最多连接数。设置为0则代表不限制。
56. max_tmp_tables
(该参数目前还没有作用)。一个客户能同时保持打开的临时表的最大数量。
57. max_write_lock_count
当出现max_write_lock_count个写入锁定数量后,开始允许一些被锁定的读操作开始执行。避免写入锁定过多,读取操作处于长时间等待状态。
58. myisam_recover_options
即为 --myisam-recover 选项的值。
--------------------------------------------------------------------------------
(5)executemany(SQL,tuple)方法是个很好的方法,主要是可以提升写入的速度,也比较适合Python使用。Python可以先格式化字符串,然后再用后面元组传入。注意是后面元组的元素也要是元组,而且和格式化字符的个数要匹配,另外适时的提交connection.commit()数据,当然最后还要记得关闭游标和连接。
(6)避免打印出很大的列表,因为一开始我往数据库插入很大的一个列表,为了方便,我就print了一下,结果发现程序消耗的大部分时间都花在这里面了,可以用time.time()方法算出时间消耗。
(7)我认为的性能提升的几个点,一是批量操作,批量提交,二是修改前面的很多参数,三是减少程序中不必要的运算和输出。当然,和网上那些1000W数据几秒就搞定的差太远了,我现在的速度是 从网上数据库或者从本地Excel读取,插入mysql,450W数据在5-10分钟之间,千万级别的不会超20分钟,对于我来说已经够了,但是如果能够更快,那为什么不呢?这个还需要学习。
2. Python中遇到的一些问题
(1)字符串的问题,其实比较头痛,这里就是时刻注意你的字符串是什么编码,是什么格式的就好了,必要的时候type()一下,或者可以 type(s) in [type(u")] ,可以判断是否为Unicode。
(2)元组问题,元组是不可变的序列,比较麻烦你可以由两个元组相加得到一个新元组的使用,要注意不要在使用中试图改变元组;另外,更多的使用list会有更好的灵活性,当然在不可变的需求下还是使用tuple比较好。