如何在日志分析中进行数据清洗

 如何在日志分析中进行数据清洗

前提

我们在进行日志分析的时候，那么日志的数据是杂乱无章的，或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗，说的直白一点就是要过滤里面的字符串。

下面便是我们需要去过滤的原始数据：

183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"

根据需要，我们需要过滤提取下面的数据：

1.ip地址
2.访问时间
3.url地址
4.用户使用浏览器

任务分解

1、ip地址获取
上面ip地址还是比较好过滤的，分隔符为- -即可得到我们想要的数据：
ipField = line.split("- -")[0].trim();

2、访问时间的获取
访问时间，想获取时间容易，但是想做一个文艺程序员还是得费点功夫。
[01/Aug/2014:01:01:05 +0800] ，对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式，这种方式没有错，算是一个正常程序员所做的事 情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800，这里是有相关的函数的：

dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time);

我们使用这个函数，将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。

2014年8月1日 下午07时04分58秒

如果你采用了这种形式20140801070458，这个既不是文艺程序员、也不是正常程序员所做的事情，就只剩下2B程序员这个职称了。
ok,下面我们做的文艺一点。
可是我们怎么才能得到下面时间，一个个进行组合，getYarn()+getMonth......等，完，又步入2B程序员的行列。

2014年8月1日 下午07时04分58秒

这里介绍一个简单的方法：

DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG);
dateField = df1.format(dt);

这样就完美解决这个问题，不需要组合，只需要getDateTimeInstance传递参数即可。

3、浏览器和URL的获取

这里面关键是对转义字符的理解正确，比如如何以双引号作为分隔符，如何以括号为分隔符：
复制代码

package www.fuyunnet.com;

import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;

public class test {

        public static void StringResolves(String line) throws ParseException {
                String ipField, dateField, urlField, browserField;

                // 获取ip地址
                ipField = line.split("- -")[0].trim();

                // 获取时间,并转换格式
                int getTimeFirst = line.indexOf("[");
                int getTimeLast = line.indexOf("]");
                String time = line.substring(getTimeFirst + 1, getTimeLast).trim();
                Date dt = null;
                DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,
                                DateFormat.LONG);
                dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US)
                                .parse(time);
                dateField = df1.format(dt);

                // 获取url
                String[] getUrl = line.split("\"");

                String firtGeturl = getUrl[1].substring(3).trim();

                String secondGeturl = getUrl[3].trim();
                urlField = firtGeturl + "分隔符" + secondGeturl;

                // 获取浏览器
                String[] getBrowse = line.split("\"");
                String strBrowse = getBrowse[5].toString();
                String str = "(KHTML, like Gecko)";
                int i = strBrowse.indexOf(str);
                strBrowse = strBrowse.substring(i);
                String strBrowse1[] = strBrowse.split("\\/");
                strBrowse = strBrowse1[0].toString();
                String strBrowse2[] = strBrowse.split("\\)");
                strBrowse = strBrowse2[1].trim();

                System.out.println(ipField);
                System.out.println(dateField);
                System.out.println(urlField);
                System.out.println(strBrowse);

        }

        public static void main(String[] args) throws ParseException {
                // TODO Auto-generated method stubString browser = "203.100.80.88 - - [01/Aug/2014:19:04:58 +0800] \"GET /uc_server/avatar.php?uid=3841&size=small HTTP/1.1\" 301 463 \"http://www.aboutyun.com/forum.php\" \"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36 SE 2.X MetaSr 1.0";

                test.StringResolves(browser );

        }

}

时间： 2024-09-30 05:56:33

如何在日志分析中进行数据清洗的相关文章

日志分析方法概述（转）

原文:日志分析方法概述日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其实并没有精确的定义,可能包括但不限于各种前端Web服务器――apache.lighttpd.tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志. 在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志: 211.87.

日志分析方法概述

最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的.碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程.下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面. 另外就是阿里已经开发出类似的系统odps-通过sql语言进行数据的分析处理,详情见:http://102.alibaba.com/competition/addDiscovery/faq.htm --------------

转载：日志分析

MARK 日志分析: http://blog.csdn.net/pkueecser/article/details/9569251 大数据应用--系统监控与日志分析PPT http://wenku.baidu.com/link?url=8CJ-URMjVTVaw3GM1AZ2w9A7V0CIeRz3dx7xvysILLk6IdWpJGT889gQ7-824G4hAK-T2tdqZY1Lo6CEN1hgqHQNlHhVFykWJ_9XQW6EN5K ============= 日志在计算机系统中是

日志分析方法

日志是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论.下面以Web日志为例,进行相关的阐述. 一.为什么要进行日志分析 Web日志中包含了大量人们——主要是产品分析人员会感兴趣的信息,最简单的,我们可以从中获取网站每类页面的PV值(PageView,页面访问量).独立IP数(即去重之后的IP数量)等:稍微复杂一些的,可以计算得出用户所检索的关键词排行榜.用户停留时间最高的页面等:更复杂的,构建广告点击模型.分析用户行

日志分析（php+nosql+rsync+crontable）

是不是常常要分析用户的行为?是不是常常遇到多台服务器上传的日志一起分析?是不是对数据统计的间隔时间要求很短?还有木有因为日志文件过大,而需要分块处理? 1.说明一点在日志写入的时候必须按照一种严格的格式,这样在做解析的时候,才好切割.比如 gameid:123 gameid:2333.切割统一标准就行. 2.在生成日志的文件名的时候也要按照一定规则,在分析的时候,正则表达式好匹配,如服务器hostname_date.log 这样在匹配的时候只需要 glob(*-date.log); //

WSFC日志分析进阶篇

在群集日志分析基础篇中,老王为大家介绍了几种群集日志的位置和用途,例如事件管理器系统日志中可以告诉我们,当群集出现故障时,大体是什么原因导致的,给出一个方向,应用程序日志里面的FailoverClustering - Manager -Diagnostic日志可以帮助我们在事件发生后回溯执行过那些操作,FailoverClustering - Operational日志可以帮助我们了解群集资源,网络检测,安全的基本变化情况是否正常,还有群集管理器中的汇总日志,这些日志,通常情况下可以为我们指出一

日志分析方法概述 & Web日志挖掘分析的方法

日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其实并没有精确的定义,可能包括但不限于各种前端Web服务器--apache.lighttpd.tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志. 在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志: 211.87.152.44 – - [

分布式实时日志分析解决方案ELK部署架构

一.概述 ELK 已经成为目前最流行的集中式日志解决方案,它主要是由Beats.Logstash.Elasticsearch.Kibana等组件组成,来共同完成实时日志的收集,存储,展示等一站式的解决方案.本文将会介绍ELK常见的架构以及相关问题解决. 1. Filebeat:Filebeat是一款轻量级,占用服务资源非常少的数据收集引擎,它是ELK家族的新成员,可以代替Logstash作为在应用服务器端的日志收集引擎,支持将收集到的数据输出到Kafka,Redis等队列. 2. Logstas

分布式实时日志分析解决方案 ELK 部署架构

一.前言 ELK 已经成为目前最流行的集中式日志解决方案,它主要是由Beats.Logstash.Elasticsearch.Kibana等组件组成,来共同完成实时日志的收集,存储,展示等一站式的解决方案.本文将会介绍ELK常见的架构以及相关问题解决. Filebeat:Filebeat是一款轻量级,占用服务资源非常少的数据收集引擎,它是ELK家族的新成员,可以代替Logstash作为在应用服务器端的日志收集引擎,支持将收集到的数据输出到Kafka,Redis等队列.Logstash:数据收集引