如何在日志分析中进行数据清洗 前提 我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串。 下面便是我们需要去过滤的原始数据: 183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36" 根据需要,我们需要过滤提取下面的数据: 1.ip地址 2.访问时间 3.url地址 4.用户使用浏览器 任务分解 1、ip地址获取 上面ip地址还是比较好过滤的,分隔符为- -即可得到我们想要的数据: ipField = line.split("- -")[0].trim(); 2、访问时间的获取 访问时间,想获取时间容易,但是想做一个文艺程序员还是得费点功夫。 [01/Aug/2014:01:01:05 +0800] ,对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式,这种方式没有错,算是一个正常程序员所做的事 情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800,这里是有相关的函数的: dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time); 我们使用这个函数,将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。 2014年8月1日 下午07时04分58秒 如果你采用了这种形式20140801070458,这个既不是文艺程序员、也不是正常程序员所做的事情,就只剩下2B程序员这个职称了。 ok,下面我们做的文艺一点。 可是我们怎么才能得到下面时间,一个个进行组合,getYarn()+getMonth......等,完,又步入2B程序员的行列。 2014年8月1日 下午07时04分58秒 这里介绍一个简单的方法: DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG); dateField = df1.format(dt); 这样就完美解决这个问题,不需要组合,只需要getDateTimeInstance传递参数即可。 3、浏览器和URL的获取 这里面关键是对转义字符的理解正确,比如如何以双引号作为分隔符,如何以括号为分隔符: 复制代码 package www.fuyunnet.com; import java.text.DateFormat; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Locale; public class test { public static void StringResolves(String line) throws ParseException { String ipField, dateField, urlField, browserField; // 获取ip地址 ipField = line.split("- -")[0].trim(); // 获取时间,并转换格式 int getTimeFirst = line.indexOf("["); int getTimeLast = line.indexOf("]"); String time = line.substring(getTimeFirst + 1, getTimeLast).trim(); Date dt = null; DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG, DateFormat.LONG); dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US) .parse(time); dateField = df1.format(dt); // 获取url String[] getUrl = line.split("\""); String firtGeturl = getUrl[1].substring(3).trim(); String secondGeturl = getUrl[3].trim(); urlField = firtGeturl + "分隔符" + secondGeturl; // 获取浏览器 String[] getBrowse = line.split("\""); String strBrowse = getBrowse[5].toString(); String str = "(KHTML, like Gecko)"; int i = strBrowse.indexOf(str); strBrowse = strBrowse.substring(i); String strBrowse1[] = strBrowse.split("\\/"); strBrowse = strBrowse1[0].toString(); String strBrowse2[] = strBrowse.split("\\)"); strBrowse = strBrowse2[1].trim(); System.out.println(ipField); System.out.println(dateField); System.out.println(urlField); System.out.println(strBrowse); } public static void main(String[] args) throws ParseException { // TODO Auto-generated method stubString browser = "203.100.80.88 - - [01/Aug/2014:19:04:58 +0800] \"GET /uc_server/avatar.php?uid=3841&size=small HTTP/1.1\" 301 463 \"http://www.aboutyun.com/forum.php\" \"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36 SE 2.X MetaSr 1.0"; test.StringResolves(browser ); } }
时间: 2024-09-30 05:56:33