如何筹建公司的大数据分析系统(一)

浅谈下,如标题这个问题:

随着大数据被不停的挖掘,每天有态度的人利用用户数据信息,产生巨大的商业价值,以及风险告警,在筹建大数据分析系统时,大家都很热衷新的东西,在做公司架构体系时,动不动就直接上新的技术,导致项目夭折,最后走人换公司的局面,后来不断的有人去填坑。

随着Splunk 的声势浩大,导致目前公司采用起来的成本太高,所以选择方案的时候需要均衡发展,达到良性可伸缩的系统框架。

采用ELK框架进行日志分析系统构建:

ELK是Elasticsearch、Logstash、Kibana的简称,这三者是核心套件

  • Elasticsearch是实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能;是一套开放REST和JAVA API等结构提供高效搜索功能,可扩展的分布式系统。它构建于Apache Lucene搜索引擎库之上。
  • Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志,包括系统日志、错误日志和自定义应用程序日志。它可以从许多来源接收日志,这些来源包括 syslog、消息传递(例如 RabbitMQ)和JMX,它能够以多种方式输出数据,包括电子邮件、websockets和Elasticsearch。
  • Kibana是一个基于Web的图形界面,用于搜索、分析和可视化存储在 Elasticsearch指标中的日志数据。它利用Elasticsearch的REST接口来检索数据,不仅允许用户创建他们自己的数据的定制仪表板视图,还允许他们以特殊的方式查询和过滤数据。

这种架构、验证依赖、缺点是Logstash耗资源较大,运行占用CPU和内存高,严重依赖RabbitMQ消息队列缓存,存在丢失数据隐患,小型公司比较适合。

第二种架构、基于kafka 或者redis

Logstash中心节点和Elasticsearch节点都需要采用集群节点,做相应的负载均衡,缓解服务器压力,此方案适用于大型架构、虽然引用了消息队列机制,Logstash占用系统资源过度,需要庞大的集群做支撑,建议对不同应用类型的数据进行分类展示,避免大面积分析系统不可用。

为了很好的缓解logstash占用系统过多的问题,将Logstash-forwarder替换为Beats

Beats 平台是 Elastic.co 从 packetbeat 发展出来的数据收集器系统。beat 收集器可以直接写入 Elasticsearch,也可以传输给 Logstash。其中抽象出来的 libbeat,提供了统一的数据发送方法,输入配置解析,日志记录框架等功能。

目前这种方案很多公司都在此基础上做二次开发。

在海量日志系统的运维中,以下几个方面是必不可少的:

  1. 分布式日志数据集中式查询和管理
  2. 系统监控,包含系统硬件和应用各个组件的监控
  3. 故障排查
  4. 安全信息和事件管理
  5. 报表功能

怎么基于数据提升自我价值,为公司提供实时可靠的数据分析,让市场部掌控着市场,让营销部定点的做业务推广,从而实现技术价值,也实现这种方案的价值,发挥到极致。

根据庞大的应用日志可以分析出用户分布的位置、行为、动态、习惯等等。

时间: 2024-10-10 04:03:52

如何筹建公司的大数据分析系统(一)的相关文章

大数据分析系统

1. 概念.分类数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中.系统内部对所有的原始数据通过一系列处理转换之后,存储到数据仓库的基础库中:然后,通过业务需要进行一系列的数据转换到相应的数据集市,供其他上层数据应用组件进行专题分析或者展示.根据数据的流转流程,一般会有以下几个模块:数据收集(采集).数据存储.数据计算.数据分析.数据展示等等.当然也会有在这基础上进行相应变化的系统模型.按照数据分析的时效性,我们一般会把大数据分析系统分为实时.离线两种类型.实

数字化产业升级大数据分析系统建设BI大数据软件开发

流量为王的时代,大数据分析变得越来越重要.用户更喜欢什么,更愿意购买什么等各类的问题,完全可以通过大数据分析系统分析出来.企业引入BI大数据分析系统也将更好进行数字化转型.并且大数据分析系适用于任何企业,只要是需要将数据有效利用起来,它就能够帮助企业创造更多价值. 大数据分析系统之金融的优势: 1.提高企业内部应用系统问题排查效率,提升数字化业务的持续优化能力: 2.统一的业务运维管理和数字化KPI考核体系,有效提高各部门协同效率 3.为管理者的科学决策提供全局视角 4.快速定位用户端.网络.应

可视化大数据分析软件系统开发_适用于多行业的大数据分析系统

在未有BI可视化大数据分析系统之前,企业通常都是使用Excel做简单的报表分析,但这样往往深度不够,浪费很多数据资源.一旦数据量庞大,Excel是打开都很难.因此企业非常需要一款可视化大数据分析系统软件,这样的软件适用于任何产生数据的行业. 可视化大数据分析系统的优势: 1.一站式数据管理和分析 从数据接入整合,到数据处理.分析.挖掘.再到多终端多样式可视化,对数据进行全价值链管理.为企业制定规划策略提供证明 2.灵活易用的可视化分析 无需任何预处理极客对数据任意维度的多维分析,简单操作即可通过

基于大数据分析的安全管理平台技术研究及应用

[引言]这篇文章原载于内刊,现发布于此.内容有所删减. Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 2014-1-14 [内 容摘要]本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况.接下来,本文阐释了大数据分析技术,对大数据 在信息安全领域尤其是安全管理平台领域的应用做了深入分析,并

Impala:新一代开源大数据分析引擎--转载

原文地址:http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/ 文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐.以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中.今天我们就来谈谈Hadoop系统中的一个新成员 – Impala. I

大数据分析,利用向外扩展技术深入挖掘商业价值

导语:大数据分析技术的价值在企业领域已经非常明确.充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战.现在我们已经拥有了足以解决这一难题的工具,接下来要做的就是想办法使其为自己服务了. 方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能.以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境. 大数据:以需求为导向的审视角度 新型分析工具与极大丰富的处理能力为我们敞开了一道大门,如今企业已经能够借此对庞大的业务及外部数据加以审视

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构.Streaming流计算框架.GraphX图计算与网状数据挖掘.MLlib机器学习支持框架.Spark SQL数据检索语言.Tachyon文件系统.SparkR计算引擎等主要部件.这里做一个简单的介绍. 一.RDD内存数据结构 大数据分析系统一般包括数据获取.数据清洗.数据处理.数据分析.报表输出等子系统.Spark为了方便数据处理.提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似.用户

流式计算形态下的大数据分析

1 介 绍 1.1 流式计算介绍 流式大数据计算主要有以下特征: 1)实时性.流式大数据不仅是实时产生的,也是要求实时给出反馈结果.系统要有快速响应能力,在短时间内体现出数据的价值,超过有效时间后数据的价值就会迅速降低. 2)突发性.数据的流入速率和顺序并不确定,甚至会有较大的差异.这要求系统要有较高的吞吐量,能快速处理大数据流量. 3)易失性.由于数据量的巨大和其价值随时间推移的降低,大部分数据并不会持久保存下来,而是在到达后就立刻被使用并丢弃.系统对这些数据有且仅有一次计算机会. 4)无限性

大数据分析平台安全评估的五大要素

大数据分析平台安全评估的五大要素.面对市场形形×××的大数据安全分析产品,用户需要擦亮眼睛,辨伪识真.在考核大数据安全分析平台时,要确保对以下五个要素进行评估,这对实现大数据分析的效果非常关键.这对于快速收集随时产生的海量数据.快速进行数据分析,确保安全人员高效响应非常重要. 要素1:统一的数据管理平台 统一的数据管理平台是大数据分析系统的基础.数据管理平台存储和查询企业数据.这似乎是一个广为所知,并且已经得到解决的问题,不会成为区分不同企业产品的特色,但实际情况却是,这仍是个问题.处理海量数据