海量日志数据如何处理统计?

项目需要做一个dashboard图表网站,展示日志的相关统计信息。这个页面图表很多,一次性会加载出很多数据。

日志表有很多种,都是一些入侵攻击日志、恶意站点访问日志等等,需要统计出当前时间、过去24小时、过去一周被攻击主机个数、恶意站点数(这是其中两个需求)等等数据。

比如被攻击主机个数,需要查多张数据表,然后统计出这个数据。

日志存储在PostgreSQL里面,已经基于时间做了分表,但是每天的的日志量都在100W以上。

写入数据库的模式是随时从其他的系统中写入。

根据这个应用场景,如果设计这个后端统计呢?还请大神提供一点思路,谢谢。

海量日志数据如何处理统计? >> mysql

这个答案描述的挺清楚的:
http://www.goodpm.net/postreply/mysql/1010000007402947/海量日志数据如何处理统计.html

时间: 2024-10-17 17:20:12

海量日志数据如何处理统计?的相关文章

分治法+Hash处理海量日志数据

海量日志数据,提取出某日访问百度次数最多的那个IP.   首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率.然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求. 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G

海量日志数据__怎么在海量数据中找出重复次数最多的一个

问题一:         怎么在海量数据中找出重复次数最多的一个 算法思想:         方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数. 然后找出上一步求出的数据中重复次数最多的一个就是所求(如下). 问题二: 网站日志中记录了用户的IP,找出访问次数最多的IP. 算法思想:       IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中. 可以考虑分而治之的策略: map 按照IP地址的hash(IP)%1024值,将海量日志

面对海量的数据,我们应该如何处理?

一.海量数据处理 所谓海量数据处理,无非就是基于海量数据上的存储.处理.操作.何谓海量,就 是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导 致无法一次性装入内存. 那解决办法呢? 针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit- map/堆/trie树. 针对空间,无非就一个办法:大而化小,分而治之(hash映射). 相关内容后续GitHub更新(顺手留下GitHub链接,需要获取相关面试等内容的可以自己去找)https

海量日志分析与智能运维

以下文字版根据<大咖·来了>第3期<海量日志分析与智能运维>整理,回放链接:http://aix.51cto.com/activity/10011.html?dk=wz 一.AIOps 与智能日志中心 1.1AIOps 五等级 要说智能日志中心,首先要了解什么是智能运维.目前业界对智能运维的运用,主要分为如下五个等级. 一级是最容易的,只要你有个想法试试就行,到网管监控系统里,拿一个监控指标的曲线下来,就可以尝试异常检测. 一级还没有成熟的单点应用,当有了一个成熟的单点应用,就算是

实时海量日志分析系统的架构设计、实现以及思考

1 序 对ETL系统中数据转换和存储操作的相关日志进行记录以及实时分析有助于我们更好的观察和监控ETL系统的相关指标(如单位时间某些操作的处理时间),发现系统中出现的缺陷和性能瓶颈. 由于需要对日志进行实时分析,所以Storm是我们想到的首个框架.Storm是一个分布式实时计算系统,它可以很好的处理流式数据.利用storm我们几乎可以直接实现一个日志分析系统,但是将日志分析系统进行模块化设计可以收到更好的效果.模块化的设计至少有两方面的优点: 模块化设计可以使功能更加清晰.整个日志分析系统可以分

MongoDB应用案例:使用 MongoDB 存储日志数据

线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误.警告.及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖掘出有价值的内容,则需要对数据进行进一步的存储和分析. 本文以存储 web 服务的访问日志为例,介绍如何使用 MongoDB 来存储.分析日志数据,让日志数据发挥最大的价值,本文的内容同样使用其他的日志存储型应用. 模式设计 一个典型的web服务器的访问日志类似如下,包含访问来源.用户.访问的资源地

Poseidon 系统是一个日志搜索平台——认证看链接ppt,本质是索引的倒排列表和原始日志数据都存在HDFS,而文档和倒排的元数据都在NOSQL里,同时针对单个filed都使用了独立索引,使用MR来索引和搜索

Poseidon 系统是一个日志搜索平台,可以在百万亿条.100PB 大小的日志数据中快速分析和检索.360 公司是一个安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况.在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率.Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据

Flume:构建高可用、可扩展的海量日志采集系统——互动出版网

这篇是计算机类的优质预售推荐>>>><Flume:构建高可用.可扩展的海量日志采集系统> 编辑推荐 开发人员. 内容简介 本书从Flume 的基本概念和设计原理开始讲解,分别介绍了不同种类的组件.如何配置 组件.如何运行Flume Agent 等.同时,分别讨论Source.Channel 和Sink 三种核心组件,不仅仅阐述每个组件的基本概念,而且结合实际的编程案例,深入.全面地介绍每个组件的详细用法,并且这部分内容也是整个Flume 框架的重中之重.之后,讲解拦截器

5个日志数据:让你轻松分析系统性能

1.缓慢的响应时间 响应时间是日志数据最常见和最有用的性能,它能让你知道请求是多长时间被系统响应的.例如Web服务器日志可以让你洞察请求需要多久才能返回客户端设备的响应.这时间可以包括采用web服务器背后的不同组件(应用服务器,数据块)来处理请求的时间,因此它能够即时查看到你的应用程序是如何运作的.从客户端设备/ 浏览器记录的响应时间能够给你一个更全面的了解,因为它也捕捉在app/浏览器的页面加载和网络延迟时间. 一个好的测量响应时间的法则是1993年Jakob Nielsen发表的3响应时间的