Splunk虽无Hadoop撑腰但却分析和运维兼备



说起大数据分析平台,我们每个人基本上都会想起Hadoop,因为Hadoop在结构和非结构大数据分析领域确实无可替代。它提供了HDFS和MapReduce两个基本功能实现分布式存储和大数据索引和分析,最关键的是Hadoop建立起了自己的完整生态环境,包括数据仓库Hive、Pig、数据库HBase、DynamoDB、MongoDB和CouchDB
NoSQL等等,以及Cloudera、Hortonworks、MapR等Hadoop解决方案提供商。

Hadoop从目前来看是最知名的软件架构平台,但它决不是唯一的大数据架构平台,Hadoop主要应用在消费、互联网和运营数据的分析领域。那我们今天花点时间来聊一下,专门基于IT机器设备大数据Volume、Velocity、Variety和Variability特性而设计的IT
Search Engine,它叫Splunk机器数据的引擎。由于在项目中遇到,故而花了点时间进行了简单分析。

Splunk是专门设计给组织和机构使用的IT搜索引擎(SearchEngine),它将雅虎、Google的搜寻技术与概念发扬光大,如今组织和机构可以用Splunk来管理任何复杂的
IT 系统,使用Splunk可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据。

由于Splunk这个产品专门分析IT机器设备产生的大数据,所以在大数据世界里面显得比较低调。Splunk除了具备大数据分析能力外,还突破过去各种IT管理工具(如IBM
Tivoli, HP OpenView, CA UniCenter)的使用方式,Splunk采用简单易懂的关键词搜寻方式,来协助IT人员找寻与解决IT问题。从复杂的机器数据中提取有用的信息。

Splunk本身还是一个可用来开发处理大数据分析应用的一个平台,具备完整强大的API集,可以嵌入Python、Java、Ruby、PHP和C#等一起使用。并提供了基于浏览器界面的SplunkWeb和命令行交互接口。

IT人员就可以透过Browser使用Splunk并对组织和机构的各种ITData进行关键词搜寻,快速地得到所需要的数据,除此之外Splunk本身还具有计算能力,管理者可以透过Splunk将搜寻所得的结果立即做运算处理,产生各种报告、图表与警示,而且还可以设定Splunk进行排程定时搜寻,并将结果以Email
Alert方式通知相关人员。

Splunk的主要功能决定了它既具备大数据分析能力,也拥有IT设备管理能力,下面我们重点看看Splunk的重要特性。

Splunk
具备多样且弹性的数据搜集方法,可以检索各种型态的IT data,不限定 IT Data format,并收集来自各种不同的应用系统和网络设备,同时可搜寻
资安日志、系统日志、应用程序日志。Splunk能够进一步监控文件系统中设定配置的变更,做变更管理,更可链接各种网络通讯端口(Ports)去接收Syslog、SNMP和来自其他各式各样网络装置的数据。

Splunk能够定期排程执行,并依据搜寻结果发出各项警示通知,可以透过email、RSS或SNMP等方式链接其他管理接口,可触发执行自行定义的因应方式,例如重新启动应用程序、系统或网络设备。

Splunk提供强大的报表能力,能够将搜寻结果以各项清晰的图表呈现,更可弹性化地产制出组织和机构管理阶层所想要的报告内容。

由各种设备所产生的ITdata是相当枯燥乏味的,透过Splunk可将它转化为切实可用的重要IT信息,并且能为任何人所用,不需要太多艰深的知识即可找出想要的信息。

IT信息其重要性不言可喻,Splunk可整合组织和机构既有的认证系统进行安全管控,确保数据在存取、分析和稽核时不会破坏数据的完整性。认证与用户许可证管理可与
AD, eDirectory和 LDAP
整合;可使用 SSL/TCP
接收发送日志与 HTTPS
加密管理。

Splunk具备良好的扩展能力,支持分布式部署和HA架构部署提供可靠性,并且在分布式部署时可以提供多站点数据和分析的统一视图。

至此,我们应该对Splunk的功能有了比较全面的了解,那在日常运维和数据管理过程中系统/数据中心管理员是怎么使用Splunk呢,以及Splunk最适合的场景是什么呢,接下来我们一起聊一下这个话题。

第一个场景就是日常运维排错,Splunk根据不同主机来源的日志来分析交易耗时情况、交易量、响应码成功比率等。业务维护人员也可以通过简单的交易流水号、卡号、账号等简单条件快速定位匹配的事件进行关联分析,输出实时报表或定位到问题的根源。

第二个场景是安全合规和日志审计,通常日志分散不便管理,环境复杂、设备品牌繁多日志格式很难统一。但是日志合规性要求重要日志文件保存时间比较长,需要根据审计记录进行分析、并生成统计报表,还要保证数据安全,避免非预期的删除和修改,另外还要遵循统一的安全策略进行审计。

为了解决这些问题,Splunk支持日志格式定义、支持多样日志格式、具备查询快、易分析,通过审计记录保护,灵活定制展现层的能力来实现安全合规和日志审计。

还有一个重要的场景是应用数据分析和监控,例如大型银行拥有大量的应用系统,如交易系统、网上银行等,通过Splunk可以对交易时延进行监控、以便针对用户的体验做出调整。

温馨提示:

请搜索“ICT_Architect”“扫一扫”下面二维码关注公众号,获取更多精彩内容。

时间: 2024-11-06 09:32:34

Splunk虽无Hadoop撑腰但却分析和运维兼备的相关文章

Hadoop HDFS源码分析 关于数据块的类

Hadoop HDFS源码分析 关于数据块的类 1.BlocksMap 官方代码中的注释为: /** * This class maintains the map from a block to its metadata. * block's metadata currently includes blockCollection it belongs to and * the datanodes that store the block. */ BlocksMap数据块映射,管理名字节点上的数据

Hadoop之MapReduce程序分析

摘要:Hadoop之MapReduce程序包括三个部分:Mapper,Reducer和作业执行.本文介绍和分析MapReduce程序三部分结构. 关键词:MapReduce   Mapper  Reducer   作业执行 MapReduce程序包括三个部分,分别是Mapper,Reducer和作业执行. Mapper 一个类要充当Mapper需要继承MapReduceBase并实现Mapper接口. Mapper接口负责数据处理阶段.它采用形式为Mapper<K1,V1,K2,V2>的Jav

打造基于hadoop的网站日志分析系统(5)之spark在日志分析系统里的简单应用

1.下载spark和运行 wget http://apache.fayea.com/apache-mirror/spark/spark-1.0.0/spark-1.0.0-bin-hadoop2.tgz 我这里下载的是1.0.0版,由于我们只是测试spark的用法所以不需要配置spark集群,只需把下好的文件解压,进入bin/文件夹. spark支持scala,java和python. scala和java输入命令:./spark-shell python 输入命令 ./pyspark 进入控制

在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

在HDInsight中开始使用Hadoop与Hive来分析移动手机使用 为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息.然后,你将分析结果在Microsoft Excel中. 注意:如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache Hadoop,MapReduce,HDFS和Hive.要了解HDInsight如何使Hadoop的在Azure中,看HDInsight Hadoop的介绍.

【云分析】《“支持和运维服务”仍然困扰着企业云的应用》

2015-09-06 张晓东 东方云洞察 点击上面的链接文字,可以快速关注"东方云洞察"公众号 云服务目前很火,那么让我们畅想一下:做为企业IT部门负责人,你采购并在企业内部部署了一个云存储服务,某一天存储服务突然出现了故障.那么你服务的用户应该打电话向谁求助?内部IT支持人员?云存储服务供应商?外包的服务团队?还是他/她玩技术的表兄弟? 这些都是采用公有云或者混合云的企业IT部门目前面临的问题.对最终用户来说,IT部门实际上承担了云服务代理角色,并通过转嫁IT服务成本到最终用户的部门

Hadoop 三大调度器分析

如要转载,请注上作者和出处. 须知: 我们下载的是hadoop-2.7.3-src 源码. 这个版本默认调度器是Capacity调度器. 在2.0.2-alpha版本的时候,有人汇报了一个fifo调度器的bug,社区把默认调度器从原来的fifo切换成capacity了. 在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器,然后在配置文件中指定相应的调度器,这样,当Hadoop集群启动时,便会加载该调度器.当前Hadoop自带了几种调度器,分别是FIFO(默认调度

基于hadoop的社交网络的分析

昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的. 首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理. 根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据.以下是两个数据下载的链接 http://snap.stanford.edu/data/egonets-Gplus.html(Google+) http://snap.stanfo

Hadoop TextInputFormat源码分析

InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1).数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的split. (2).为Mapper提供输入数据:读取给定的split的数据,解析成一个个的key/value对,共Mapper使用. InputFormat抽象类中只有两个方法,分别对应上面两个功能,源码

Hadoop的shell脚本分析

你会发现hadoop-daemon.sh用于启动单独的本机节点 而hadoop-daemons.sh 会批量的ssh到别的机器启动 前记: 这些天一直学习hadoop,学习中也遇到了许多的问题,主要是对hadoop的shell脚本和hadoop的源码概念不够清楚,所以我就对hadoop的bin目录下的shell脚本进行了研究,有一些成果想记录下来,也希望大家前来批评指正. 分析原因: 很多hadoop的初学者对hadoop的脚本不是很清楚,不知道为什么可以在命令行中启动hadoop,也不知道为什