python高效解析日志入库

python脚本解析日志文件入库一般有三个重要的步骤：读文件、解析文件、入库。在这三个方面下功夫，可确保我们获得最优的性能（这里不讨论并发）

1 读文件：一次读一行，磁盘IO太多，效率低下；一次性读如全部文件内容，可能内存不够。采取一个折中的办法，每次读若干byte(具体大小视实际情况而定)。

经过测试，得到结论，在我们写代码的时候应该这样写

f = open(path,‘r‘)

for line in f :

.............

这是系统提供的一种读文件的方法，一般比我们自己每次读若干byte要快（f.read(20000)）,具体怎么做到的，现在还不清楚。总之，系统提供的，

应该差不了，不然也太丢人。啊哈！

2 解析日志，如果用到正则表达式，应该先编译然后再查找，这样可以提高速度。例如：

regex0 = re.compile("(^|;)mobile=(\d+)")

mobile_number=regex0.search(self.resp_log).group(2)

当然，这是一个大方面，精细的方面我们还要在正则的写法上下功夫。关于Python的正则的高效写法，后续会专门用一边文章来写。

3 入库：网上有好多建议使用executemany()这个写法，insert into tablename(xx,xx)
values(yy,yy),(yy,yy)....的形式却会快很多，

我们应
该直接把我们的SQL拼接成这种形式，效率远远高于executemany(),具体一次性要插入多少行，自己测一下哦。每秒1W应该没问题。

==============================================================================

按照上面的写法，可以保证读文件、解析文件、入库每个环节都做到最优，但是在整体结构上还有优化的空间，详细如下：

1 启一个线程readThread只负责读文件，然后把读到的内容放到队列Queue1中；

2 启一个线程manageThread只负责解析文件内容，然后把解析好的东西放到Queue2中；

3 启动第三个线程writeDB负责将解析好的文件内容入库；

4 开启一个后台线程对1、2、3三个线程的运行状况进行监控、记录与处理。

python高效解析日志入库,布布扣,bubuko.com

时间： 2024-10-12 03:37:20

python高效解析日志入库的相关文章

python处理nginx日志入库

#usr/bin/evn python#-*- coding: utf-8 -*-import os, sysimport reimport MySQLdb db = MySQLdb.connect(host='192.168.10.94',user='inserter',passwd='****',db='gydata')cursor=db.cursor() log_file=sys.argv[1]print log_filefor line in open(log_file):element

Python高效编程技巧

下面我挑选出的这几个技巧常常会被人们忽略,但它们在日常编程中能真正的给我们带来不少帮助. 1. 字典推导(Dictionary comprehensions)和集合推导(Set comprehensions) 大多数的Python程序员都知道且使用过列表推导(list comprehensions).如果你对list comprehensions概念不是很熟悉——一个list comprehension就是一个更简短.简洁的创建一个list的方法. >>> some_list = [1,

《Python高效开发实战》实战演练——建立应用2

为了在项目中开发符合MVC架构的实际应用程序,需要在项目中建立Django应用.每个Django项目可以包含多个Django应用.建立应用的语法为: #python manage.pystartapp 应用名称其中的manage.py是建立项目时在项目目录中产生的命令行工具,startapp是命令关键字,举例如下: #cd djangosite #python manage.py startapp 命令完成后会在项目目录中建立如下目录及文件结构: app/ __init__.py admin.

【转】python之配置日志的几种方式

[转]python之配置日志的几种方式作为开发者,我们可以通过以下3种方式来配置logging: 1)使用Python代码显式的创建loggers, handlers和formatters并分别调用它们的配置函数: 2)创建一个日志配置文件,然后使用fileConfig()函数来读取该文件的内容: 3)创建一个包含配置信息的dict,然后把它传递个dictConfig()函数: 需要说明的是,logging.basicConfig()也属于第一种方式,它只是对loggers, handlers

《Python高效开发实战：Django、Tornado、Flask、Twisted》PDF+源码

Python高效开发实战链接:https://pan.baidu.com/s/1udqe8V2QSh0CMTVg2vEblQ 提取码:igo0 ? 作者: 刘长龙出版社: 电子工业出版社出版年: 2016-10页数: 516定价: 89装帧: 平装ISBN: 9787121300103 内容简介 · · · · · · 也许你听说过全栈工程师,他们善于设计系统架构,精通数据库建模.通用网络协议.后端并发处理.前端界面设计,在学术研究或工程项目上能独当一面.通过对Python及其周边Web框

python基础学习日志day5-各模块文章导航

python基础学习日志day5---模块使用 http://www.cnblogs.com/lixiang1013/p/6832475.html python基础学习日志day5---time和datetime模块 http://www.cnblogs.com/lixiang1013/p/6848245.html python基础学习日志day5---random模块http://www.cnblogs.com/lixiang1013/p/6849162.html python基础学习日志da

《Python高效开发实战》实战演练——基本视图3

在完成Django项目和应用的建立后,即可以开始编写网站应用代码,这里通过为注册页面显示一个欢迎标题,来演示Django的路由映射功能. 1)首先在djangosite/app/views.py中建立一个路由响应函数: from django.http import HttpResponse def welcome(request): returnHttpResponse("<h1>Welcome to my tiny twitter!</h1>") 该代码定义

【美妙的Python之三】Python 对象解析

美妙的Python之Python对象简而言之: Python 是能你无限惊喜的语言,与众不同. Python对象概念的理解,是理解Python数据存储的前提.Python使用对象来存储数据,构造任何类型的值都是对象. 1.Python 对象: Python的对象有3个属性: 标识:每个对象都有一个唯一的标识,通过 id( ) 可以查看对象的标识. 类型:对象的类型,指明该对象可以存储的数据类型,通过 typ

ELK日志处理之使用Grok解析日志

一.简介 Grok是迄今为止使蹩脚的.无结构的日志结构化和可查询的最好方式.Grok在解析 syslog logs.apache and other webserver logs.mysql logs等任意格式的文件上表现完美. Grok内置了120多种的正则表达式库,地址:https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns. 二.入门例子下面是一条tomcat日志: 83.149.9.