Logstash处理json格式日志文件的三种方法

假设日志文件中的每一行记录格式为json的,如:

{"Method":"JSAPI.JSTicket","Message":"JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4WPJDIF2UA9MeS8GzLe6MPjyp2WlzvsL0nlvkohw","CreateTime":"2015/10/13 9:39:59","AppGUID":"cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d","_PartitionKey":"cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d","_RowKey":"1444700398710_ad4d33ce-a9d9-4d11-932e-e2ccebdb726c","_UnixTS":1444700398710}

默认配置下,logstash处理插入进elasticsearch后,查到的结果是这样的:

 1 {
 2     "_index": "logstash-2015.10.16",
 3     "_type": "voip_feedback",
 4     "_id": "sheE9eXiQASMDVtRJ0EYcg",
 5     "_version": 1,
 6     "found": true,
 7     "_source": {
 8         "message": "{\"Method\":\"JSAPI.JSTicket\",\"Message\":\"JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4WPJDIF2UA9MeS8GzLe6MPjyp2WlzvsL0nlvkohw\",\"CreateTime\":\"2015/10/13 9:39:59\",\"AppGUID\":\"cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d\",\"_PartitionKey\":\"cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d\",\"_RowKey\":\"1444700398710_ad4d33ce-a9d9-4d11-932e-e2ccebdb726c\",\"_UnixTS\":1444700398710}",
 9         "@version": "1",
10         "@timestamp": "2015-10-16T00:39:51.252Z",
11         "type": "voip_feedback",
12         "host": "ipphone",
13         "path": "/usr1/data/voip_feedback.txt"
14     }
15 }

即会将json记录做为一个字符串放到”message”下,但是我是想让logstash自动解析json记录,将各字段放入elasticsearch中。有三种配置方式可以实现。

第一种,直接设置format => json

1     file {
2         type => "voip_feedback"
3         path => ["/usr1/data/voip_feedback.txt"]
4         format => json
5         sincedb_path => "/home/jfy/soft/logstash-1.4.2/voip_feedback.access"
6     }

这种方式查询出的结果是:

 1 {
 2     "_index": "logstash-2015.10.16",
 3     "_type": "voip_feedback",
 4     "_id": "NrNX8HrxSzCvLl4ilKeyCQ",
 5     "_version": 1,
 6     "found": true,
 7     "_source": {
 8         "Method": "JSAPI.JSTicket",
 9         "Message": "JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4WPJDIF2UA9MeS8GzLe6MPjyp2WlzvsL0nlvkohw",
10         "CreateTime": "2015/10/13 9:39:59",
11         "AppGUID": "cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d",
12         "_PartitionKey": "cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d",
13         "_RowKey": "1444700398710_ad4d33ce-a9d9-4d11-932e-e2ccebdb726c",
14         "_UnixTS": 1444700398710,
15         "@version": "1",
16         "@timestamp": "2015-10-16T00:16:11.455Z",
17         "type": "voip_feedback",
18         "host": "ipphone",
19         "path": "/usr1/data/voip_feedback.txt"
20     }
21 }

可以看到,json记录已经被直接解析成各字段放入到了_source中,但是原始记录内容没有被保存

第二种,使用codec => json

1 file {
2         type => "voip_feedback"
3         path => ["/usr1/data/voip_feedback.txt"]
4         sincedb_path => "/home/jfy/soft/logstash-1.4.2/voip_feedback.access"
5         codec => json {
6             charset => "UTF-8"
7         }
8     }

这种方式查询出的结果与第一种一样,字段被解析,原始记录内容也没有保存

第三种,使用filter json

1 filter {
2     if [type] == "voip_feedback" {
3         json {
4             source => "message"
5             #target => "doc"
6             #remove_field => ["message"]
7         }
8     }
9 }

这种方式查询出的结果是这样的:

 1 {
 2     "_index": "logstash-2015.10.16",
 3     "_type": "voip_feedback",
 4     "_id": "CUtesLCETAqhX73NKXZfug",
 5     "_version": 1,
 6     "found": true,
 7     "_source": {
 8         "message": "{\"Method222\":\"JSAPI.JSTicket\",\"Message\":\"JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4WPJDIF2UA9MeS8GzLe6MPjyp2WlzvsL0nlvkohw\",\"CreateTime\":\"2015/10/13 9:39:59\",\"AppGUID\":\"cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d\",\"_PartitionKey\":\"cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d\",\"_RowKey\":\"1444700398710_ad4d33ce-a9d9-4d11-932e-e2ccebdb726c\",\"_UnixTS\":1444700398710}",
 9         "@version": "1",
10         "@timestamp": "2015-10-16T00:28:20.018Z",
11         "type": "voip_feedback",
12         "host": "ipphone",
13         "path": "/usr1/data/voip_feedback.txt",
14         "Method222": "JSAPI.JSTicket",
15         "Message": "JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4WPJDIF2UA9MeS8GzLe6MPjyp2WlzvsL0nlvkohw",
16         "CreateTime": "2015/10/13 9:39:59",
17         "AppGUID": "cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d",
18         "_PartitionKey": "cb54ba2d-1d38-45f2-9ed1-abff0bf7dd3d",
19         "_RowKey": "1444700398710_ad4d33ce-a9d9-4d11-932e-e2ccebdb726c",
20         "_UnixTS": 1444700398710,
21         "tags": [
22             "111",
23             "222"
24         ]
25     }
26 }

可以看到,原始记录被保存,同时字段也被解析保存。如果确认不需要保存原始记录内容,可以加设置:remove_field => [“message”]

比较以上三种方法,最方便直接的就是在file中设置format => json

另外需要注意的是,logstash会在向es插入数据时默认会在_source下增加type,host,path三个字段,如果json内容中本身也含有type,host,path字段,那么解析后将覆盖掉logstash默认的这三个字段,尤其是type字段,这个同时也是做为index/type用的,覆盖掉后,插入进es中的index/type就是json数据记录中的内容,将不再是logstash config中配置的type值。

这时需要设置filter.json.target,设置该字段后json原始内容将不会放在_source下,而是放到设置的”doc”下:

 1 {
 2     "_index": "logstash-2015.10.20",
 3     "_type": "3alogic_log",
 4     "_id": "xfj3ngd5S3iH2YABjyU6EA",
 5     "_version": 1,
 6     "found": true,
 7     "_source": {
 8         "@version": "1",
 9         "@timestamp": "2015-10-20T11:36:24.503Z",
10         "type": "3alogic_log",
11         "host": "server114",
12         "path": "/usr1/app/log/mysql_3alogic_log.log",
13         "doc": {
14             "id": 633796,
15             "identity": "13413602120",
16             "type": "EAP_TYPE_PEAP",
17             "apmac": "88-25-93-4E-1F-96",
18             "usermac": "00-65-E0-31-62-5D",
19             "time": "20151020-193624",
20             "apmaccompany": "TP-LINK TECHNOLOGIES CO.,LTD",
21             "usermaccompany": ""
22         }
23     }
24 }

这样就不会覆盖掉_source下的type,host,path值 
而且在kibana中显示时字段名称为doc.type,doc.id…

补充: 无法解析的json不记录到elasticsearch中

output {
      stdout{
    codec => rubydebug
    }
#无法解析的json不记录到elasticsearch中
if "_jsonparsefailure" not in [tags] {
  elasticsearch {
    host => "localhost"
  }
}

转载自:http://blog.csdn.net//jiao_fuyou/article/details/49174269

由于自己的项目只处理JSON字符串的日志,网上搜集资料过程中,还找到了一些对于系统日志类型以及普通打印类型字符串的日志格式处理,留下连接以后有需要参考。

logstash使用grok正则解析日志和kibana遇到的问题

logstash快速入门

logstash使用grok正则解析日志

http://udn.yyuap.com/doc/logstash-best-practice-cn/filter/grok.html

https://github.com/elastic/logstash/blob/v1.1.9/patterns/grok-patterns https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html

logstash配置语言基础 使用mutate处理数据 使用grok提取信息

使用logstash内置patterns或自定义patterns同时收集linux系统日志、web日志及项目自定义格式日志

logstash+grok+json+elasticsearch解析复杂日志数据(一)

还有另外一种思路:使用索引模板

Elasticsearch之索引模板index template与索引别名index alias

如何为logstash+elasticsearch配置索引模板?

logstash 向elasticsearch写入数据,如何指定多个数据template

Elasticsearch——Templates 模板

时间: 2024-12-24 09:26:33

Logstash处理json格式日志文件的三种方法的相关文章

pdf文件怎么编辑 如何编辑pdf文件的三种方法

pdf文件越来越流行,工作中经常遇到需要修改pdf文件的情况.一般人的电脑上都为pdf文件安装了一个pdf阅读器,可它只能用来阅读查看pdf文件,并不能满足人们的编辑需求.那么pdf文件怎么编辑?下面小编给大家讲讲关于如何编辑pdf文件的三种方法.     方法一:直接编辑,一步到位     如果要对pdf文件进行编辑,我们则需要安装pdf编辑器.最新版的迅捷pdf编辑器可以编辑pdf文件中的任何内容,包括文字.图片.页眉页脚.添加注释等等.迅捷pdf编辑器如何编辑pdf文件?     首先需要

ubuntu/linux mint 创建proc文件的三种方法(二)

在做内核驱动开发的时候,可以使用/proc下的文件,获取相应的信息,以便调试. 大多数/proc下的文件是只读的,但为了示例的完整性,都提供了写方法. 方法一:使用create_proc_entry创建proc文件(简单,但写操作有缓冲区溢出的危险): 方法二:使用proc_create和seq_file创建proc文件(较方法三简洁): 方法三:使用proc_create_data和seq_file创建proc文件(较麻烦,但比较完整): 示例四:在proc文件中使用内核链表的一个示例(用的方

ubuntu/linux mint 创建proc文件的三种方法(四)

在做内核驱动开发的时候,可以使用/proc下的文件,获取相应的信息,以便调试. 大多数/proc下的文件是只读的,但为了示例的完整性,都提供了写方法. 方法一:使用create_proc_entry创建proc文件(简单,但写操作有缓冲区溢出的危险): 方法二:使用proc_create和seq_file创建proc文件(较方法三简洁): 方法三:使用proc_create_data和seq_file创建proc文件(较麻烦,但比较完整): 示例四:在proc文件中使用内核链表的一个示例(用的方

ubuntu/linux mint 创建proc文件的三种方法(一)

在做内核驱动开发的时候,可以使用/proc下的文件,获取相应的信息,以便调试. 大多数/proc下的文件是只读的,但为了示例的完整性,都提供了写方法. 方法一:使用create_proc_entry创建proc文件(简单,但写操作有缓冲区溢出的危险): 方法二:使用proc_create和seq_file创建proc文件(较方法三简洁): 方法三:使用proc_create_data和seq_file创建proc文件(较麻烦,但比较完整): 示例四:在proc文件中使用内核链表的一个示例(用的方

VC6.0加载lib文件的三种方法

MFC编写程序,都要用到动态链接库,MFC相关的动态库有MFCD42和MFC42等,MFC框架程序已经自动加载,那么如何引入第三方的动态链接库到工程中呢? 静态链接库是要先把程序中所需要使用的函数编译成机器码,保存在*.lib文件中.编译器会去*.lib中找出所需要的函数,并把这些函数的机器码复制一份,放在可执行文件中.将lib库引入工程,有下面3种方法. 第一种方法,lib文件直接加入到工程文件列表中. 在VC中打开“File View”一页,选中工程名,单击鼠标右键,然后在弹出的快捷菜单中选

ubuntu/linux mint 创建proc文件的三种方法(三)

在做内核驱动开发的时候,可以使用/proc下的文件,获取相应的信息,以便调试. 大多数/proc下的文件是只读的,但为了示例的完整性,都提供了写方法. 方法一:使用create_proc_entry创建proc文件(简单,但写操作有缓冲区溢出的危险): 方法二:使用proc_create和seq_file创建proc文件(较方法三简洁): 方法三:使用proc_create_data和seq_file创建proc文件(较麻烦,但比较完整): 示例四:在proc文件中使用内核链表的一个示例(用的方

linux中传文件的三种方法、windows

第一种方法:使用vsftpd服务 ftp配置文件主要内容:[[email protected] vsftpd]# cat vsftpd.conf|grep -v ^#|grep -v ^$anonymous_enable=YES #匿名登陆local_enable=YES #允许使用本地用户来登陆ftplocal_root=/var/ftp/pub #write_enable=YES #开放本地用户写的权限local_umask=022 #FTP上本地的文件权限,默认是077 anon_uplo

java将doc文件转换为pdf文件的三种方法

http://feifei.im/archives/93 —————————————————————————————————————————————— 项目要用到doc转pdf的功能,一番google之后总结出了三种方法(免费方案),于是一一试了一下,做个总结记录,下次要用直接查,省的忘了…… 方法1.poi读取doc + itext生成pdf (实现最方便,效果最差,跨平台) 方法2.jodconverter + openOffice (一般格式实现效果还行,复杂格式容易有错位,跨平台) 方法

python下载文件的三种方法

Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法requests. 下面来看看三种方法是如何来下载zip文件的:方法一: import urllib import urllib2 import requests print "downloading with urllib" url = 'http://***/test/demo.zip