你用pig分析access_log日志中ip访问次数

环境说明：

os版本：rhel5.7 64位

hadoop版本：hadoop-0.20.2

hbase版本：hbase-0.90.5

pig版本：pig-0.9.2

访问日志文件，下载文章中的附件！

日志放在本地目录路径为：/home/hadoop/access_log.txt

日志格式为：

220.181.108.151 - - [31/Jan/2012:00:02:32 +0800] "GET /home.php?mod=space&uid=158&do=album&view=me&from=space HTTP/1.1" 200 8784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

1）在hdfs文件系统中创建input目录

grunt> mkdir input

grunt> ls

hdfs://node1.test.com:9000/user/hadoop/input <dir>

grunt> cd input

grunt> ls

grunt> pwd

hdfs://node1.test.com:9000/user/hadoop/input

2）把本地日志文件系统加载到hdfs系统当前目录的log.txt文件里面；

grunt> copyFromLocal /home/hadoop/access_log.txt log.txt

2014-10-14 10:53:49,667 [Thread-7] INFO org.apache.hadoop.hdfs.DFSClient - Exception in createBlockOutputStream java.net.NoRouteToHostException: No route to host

2014-10-14 10:53:49,667 [Thread-7] INFO org.apache.hadoop.hdfs.DFSClient - Abandoning block blk_-7546596643624545852_1118

2014-10-14 10:53:49,669 [Thread-7] INFO org.apache.hadoop.hdfs.DFSClient - Excluding datanode 172.16.41.154:50010

#查看相关文件

grunt> ls

hdfs://node1.test.com:9000/user/hadoop/input/log.txt<r 2> 7118627

3)加载文件内容到变量a中，分隔符为‘ ’；

grunt> a = load ‘/user/hadoop/input/log.txt‘

>> using PigStorage(‘ ‘)

>> AS (ip,a1,a2,a3,a4,a5,a6,a7,a8);

4）对ip字段过滤

grunt> b = foreach a generate ip;

5）按ip对c进行group by操作：

grunt> c = group b by ip;

6）对ip点击次数进行统计：

grunt> d = foreach c generate group,COUNT($1);

显示计算结果：

grunt> dump d；

时间： 2024-12-05 17:48:51

你用pig分析access_log日志中ip访问次数的相关文章

操作文件-取出一个60s内log日志中ip访问次数超过100次的ip

import timea=0while True: d={} f = open(r"/Users/**juan/Downloads/access.log",encoding="utf-8") f.seek(a) for line in f: if line.split() !="": f1=line.split(" ")[0] if f1 not in d: d[f1]=1 else: d[f1] += 1 a=f.tell(

IIS日志——统计IP访问次数的一种方法

使用LogParser对IIS服务器被Hit访问的IP进行次数统计,方便结合防火墙IP***列表对IIS网站进行日志审计报表的编写配置IIS网站的日志下载进行日志分析的两个工具LogParser(命令行工具),下载地址:http://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=24659LogParser Studio(图形化工具),下载地址:http://gallery.technet.microsoft.

python分析nginx日志的ip,url,status

Python 脚本如下: #!/usr/bin/env python #_*_coding:utf-8 _*_ __author__ = 'lvnian' #!/usr/bin env python # coding: utf-8 import MySQLdb as mysql import sys, os db = mysql.connect(user="root",passwd="[email protected]",db="intest",

python统计apache、nginx访问日志IP访问次数并且排序（显示前20条）

前言:python统计apache.nginx访问日志IP访问次数并且排序(显示前20条).其实用awk+sort等命令可以实现,用awk数组也可以实现,这里只是用python尝试下. apache脚本: ips = {} with open("/root/mail_access_log-20180629") as fh: for line in fh: ip = line.split(" ")[0] if 6 < le

linux分析apache日志获取最多访问的前10个IP

apache日志分析可以获得很多有用的信息,现在来试试最基本的,获取最多访问的前10个IP地址及访问次数. 既然是统计,那么awk是必不可少的,好用而高效. 命令如下: awk '{a[$1] += 1;} END {for (i in a) printf("%d %s\n", a[i], i);}' 日志文件 | sort -n | tail 首先用awk统计出来一个列表,然后用sort进行排序,最后用tail取最后的10个. 以上参数可以略作修改显示更多的数据,比如将tail加上-

用python统计日志中IP的数量

引入日志文件,是我们记录用户行为的重要手段.而对于不同的用户,我们往往又会根据IP来区分,所以统计日志文件中的IP访问,对于数据分析人员和相关运营专员来说,是一件重要的事情,这里,采用python这门语言来完成这个小功能. 一.分析IP格式这里只讨论ipv4. 分析IP格式思路有许多,这里我只分析其中一种比较容易理解的. 1) 从分析一个从1~255的数字开始一个1~255的数细分成以下5个分组. 数字分组正则表达式表示 1~9 [1-9] 10~99 [1-9][0-9] 100~1

python分析nginx日志的ip（来源）

Python 脚本如下: #!/usr/bin/env python #_*_coding:utf-8 _*_ __author__ = 'gaogd' import MySQLdb as mysql import datetime import sys, os, urllib2, json db = mysql.connect(user="root",passwd="[email protected]",db="intest",host=&qu

awk分析nginx日志中响应时间的方法

针对响应时间慢的问题,我们在nginx日志格式中增加响应时间,现在需要针对响应时间进行分析,查找出相对较慢的响应时间. 1.确认下日志文件格式日志格式: log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" $http_x_for

统计日志中ip出现的次数

grep -r 'GET /weixin/weixin_izp/index.html' ./chunyun.access.log > ~/access.log cat access.log |awk '{print $1}'|cut -d, -f3|sort|uniq -c > mycount.log 1.要提取访问量最大的IP,需要先从日志中把IP段提取出来. $ cat aa.txt |awk -F " " '{print $1}' 127.0.0.1 192.168.

猜你喜欢

菜鸟之路--线性表__顺序存储

</pre><pre name="code" class="cpp"> #include <stdio.h> #includ ...

共有31款PHP 图形/图像处理开源软件（转）

详情点击:http://www.oschina.net/project/lang/22/php?tag=141&os=0&sort=view PHP 图像处理库 Grafika Gra ...

习题：玛丽卡（SPFA）

玛丽卡(wikioi1021) [题目描述 ]麦克找了个新女朋友,玛丽卡对他非常恼火并伺机报复.因为她和他们不住在同一个城市,因此她开始准备她的长途旅行.在这个国家中每两个城市之间最多只有一条路相通, ...

2014最热门、最具争议的10个Java话题

ava 的哪些内容已在2014年死去,Java 的哪些变更又遭到整个Java社区的竭力反对?请随我们一起来回顾在2014年这个多事之秋中Java都发生了哪些变化,以及小伙伴们都在JAXenter热烈讨 ...

CC2540开发板学习笔记（三）——外部中断

一.实验内容通过外部中断方式依次按下按键S1控制LED1的亮灭二.实验过程 1.电路原理图同上 2.中断的概念比如说我们在执行main函数时,突然来了个指令.优先级比现在执行的main还高,那我 ...

技术是什么

今天心情非常动荡. 我问技术是什么 , 究竟什么是技术,什么算技术, 什么算高技术,什么算难技术 .技术有什么用,什么技术实用. 心如白纸.心如小河,心如大海.

[Angular 2] Share a Service Across Angular 2 Components and Modules

Services are used to share data between components. They follow a module pattern that allows you to ...

【深度解析】Google第二代深度学习引擎TensorFlow开源

作者:王嘉俊王婉婷 TensorFlow 是 Google 第二代深度学习系统,今天宣布完全开源.TensorFlow 是一种编写机器学习算法的界面,也可以编译执行机器学习算法的代码.使用 Tens ...

DuiVision开发教程(9)-动态创建控件

基于DuiVision的界面程序大部分情况下都是通过xml事先定义好界面的,但有时候需要通过代码来动态创建控件,可以参考下面的动态创建控件的例子: CDuiButton* pToolBtn = sta ...

Spring3中用注解直接注入properties中的值

在bean(可是controller, service, dao等了)中,使用@Value注解: @Service public class TestService{ @Value("${s ...

九度题目1186：打印日期

题目描述: 给出年分m和一年中的第n天,算出第n天是几月几号. 输入: 输入包括两个整数y(1<=y<=3000),n(1<=n<=366). 输出: 可能有多组测试数据,对于 ...

HDU5012:Dice（bfs模板）

http://acm.hdu.edu.cn/showproblem.php?pid=5012 Problem Description There are 2 special dices on the ...

038. asp.netWeb用户控件之六实现日期选择的用户控件

web用户控件的ascx代码: <%@ Control Language="C#" AutoEventWireup="true" CodeFile=&qu ...

牧场安排（usaco NOV06.cowfood）

ohn新买了一块长方形的牧场,这块牧场被划分成M列N行(1<=M<=12; 1<=N<=12),每一格都是一块正方形的土地.FJ打算在牧场上的某几格土地里种上美味的草,供他的奶 ...

深入Java集合学习系列：HashMap的实现原理--转

原文出自:http://www.cnblogs.com/xwdreamer/archive/2012/06/03/2532832.html 1. HashMap概述: HashMap是基于哈希表的Ma ...

内存屏障 & Memory barrier

Memory Barrier http://www.wowotech.net/kernel_synchronization/memory-barrier.html 这里面讲了Memory Barrie ...

UVA-820 Internet Bandwidth （最大流）

题目大意:单源单汇无项网络求最大流. 题目分析:入门级别的题.但是ISAP在这儿好像不大好使?... 代码如下: # include<iostream> # include<cstd ...

应用新安全组 - 每天5分钟玩转 OpenStack（116）

Neutron 默认的安全组规则会禁止掉所有从外面访问 instance 的流量. 本节我们会修改安全组的配置,允许 ping 和 ssh instance.有两种方法可以达到这个目的: 1. 修改 ...

malloc，我误解你了

malloc用于动态申请内存,这个学过C语言的都知道.忘记了在哪本书上看到,malloc申请的内存不一定是连续,于是一直记住了.这句话有错吗?没有!但是当时只是记住了这个知识点,而没有深入的思考.直到 ...

认识javascript的引擎之--1

前言: 一:每一款浏览器里面都能执行js脚本,那是因为制造商在浏览器里面加入了js引擎.也就是说js引擎在浏览器里面占有一席之地. 1.开始的时候js处于沉睡状态,直到运行页面遇到 <scrip ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.