大数据分析系统

1. 概念、分类
数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。系统内部对所有的原始数据通过一系列处理转换之后,存储到数据仓库的基础库中;然后,通过业务需要进行一系列的数据转换到相应的数据集市,供其他上层数据应用组件进行专题分析或者展示。
根据数据的流转流程,一般会有以下几个模块:数据收集(采集)、数据存储、数据计算、数据分析、数据展示等等。当然也会有在这基础上进行相应变化的系统模型。
按照数据分析的时效性,我们一般会把大数据分析系统分为实时、离线两种类型。实时数据分析系统在时效上有强烈的保证,数据是实时流动的,相应的一些分析情况也是实时的。而离线数据分析系统更多的是对已有的数据进行分析,时效性上的要求会相对低一点。时效性的标准都是以人可以接受来划分的。

2. 网站流量日志数据分析系统

2.1. 系统的意义
网站流量数据统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。
? 技术上
可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如
1、辅助改进网络的拓扑设计,提高性能
2、在有高度相关性的节点之间安排快速有效的访问路径
3、帮助企业更好地设计网站主页和安排网页内容
? 业务上
1、帮助企业改善市场营销决策,如把广告放在适当的Web页面上。
2、优化页面及业务流程设计,提高流量转化率。
3、帮助企业更好地根据客户的兴趣来安排内容。
4、帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。
终极目标是:
改善网站的运营,获取更高投资回报率(ROI)。也就是赚更多的钱。
2.2. 背景知识—Web访问日志
访问日志指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,打开了哪一个页面,采用了哪个搜索项、总体会话时间等。而所有这些信息都可通过网站日志保存下来。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
日志的生成渠道分为以下两种:
一是:web服务器软件(httpd、nginx、tomcat)自带的日志记录功能,如Nginx的access.log日志;
二是:自定义采集用户行为数据,通过在页面嵌入自定义的javascript代码来获取用户的访问行为(比如鼠标悬停的位置,点击的页面组件等),然后通过ajax请求到后台记录日志,这种方式所能采集的信息会更加全面。
在实际操作中,有以下几个方面的数据可以自定义的采集:
系统特征:比如所采用的操作系统、浏览器、域名和访问速度等。
访问特征:包括停留时间、点击的URL、所点击的“页面标签<a>”及标签的
属性等。
来源特征:包括来访URL,来访IP等。
产品特征:包括所访问的产品编号、产品类别、产品颜色、产品价格、产品利润、产品数量和特价等级等。
以电商某东为例,其自定义采集的数据日志格式如下:
GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【云南白药套装】云南白药 牙膏 180g×3 (留兰香型)【行情 报价 价格 评测】-京东$hn=item.jd.com$fl=16.0r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1

原文地址:http://blog.51cto.com/13587708/2167266

时间: 2024-11-08 15:23:57

大数据分析系统的相关文章

如何筹建公司的大数据分析系统(一)

浅谈下,如标题这个问题: 随着大数据被不停的挖掘,每天有态度的人利用用户数据信息,产生巨大的商业价值,以及风险告警,在筹建大数据分析系统时,大家都很热衷新的东西,在做公司架构体系时,动不动就直接上新的技术,导致项目夭折,最后走人换公司的局面,后来不断的有人去填坑. 随着Splunk 的声势浩大,导致目前公司采用起来的成本太高,所以选择方案的时候需要均衡发展,达到良性可伸缩的系统框架. 采用ELK框架进行日志分析系统构建: ELK是Elasticsearch.Logstash.Kibana的简称,

数字化产业升级大数据分析系统建设BI大数据软件开发

流量为王的时代,大数据分析变得越来越重要.用户更喜欢什么,更愿意购买什么等各类的问题,完全可以通过大数据分析系统分析出来.企业引入BI大数据分析系统也将更好进行数字化转型.并且大数据分析系适用于任何企业,只要是需要将数据有效利用起来,它就能够帮助企业创造更多价值. 大数据分析系统之金融的优势: 1.提高企业内部应用系统问题排查效率,提升数字化业务的持续优化能力: 2.统一的业务运维管理和数字化KPI考核体系,有效提高各部门协同效率 3.为管理者的科学决策提供全局视角 4.快速定位用户端.网络.应

可视化大数据分析软件系统开发_适用于多行业的大数据分析系统

在未有BI可视化大数据分析系统之前,企业通常都是使用Excel做简单的报表分析,但这样往往深度不够,浪费很多数据资源.一旦数据量庞大,Excel是打开都很难.因此企业非常需要一款可视化大数据分析系统软件,这样的软件适用于任何产生数据的行业. 可视化大数据分析系统的优势: 1.一站式数据管理和分析 从数据接入整合,到数据处理.分析.挖掘.再到多终端多样式可视化,对数据进行全价值链管理.为企业制定规划策略提供证明 2.灵活易用的可视化分析 无需任何预处理极客对数据任意维度的多维分析,简单操作即可通过

基于大数据分析的安全管理平台技术研究及应用

[引言]这篇文章原载于内刊,现发布于此.内容有所删减. Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 2014-1-14 [内 容摘要]本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况.接下来,本文阐释了大数据分析技术,对大数据 在信息安全领域尤其是安全管理平台领域的应用做了深入分析,并

Impala:新一代开源大数据分析引擎--转载

原文地址:http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/ 文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐.以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中.今天我们就来谈谈Hadoop系统中的一个新成员 – Impala. I

大数据分析,利用向外扩展技术深入挖掘商业价值

导语:大数据分析技术的价值在企业领域已经非常明确.充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战.现在我们已经拥有了足以解决这一难题的工具,接下来要做的就是想办法使其为自己服务了. 方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能.以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境. 大数据:以需求为导向的审视角度 新型分析工具与极大丰富的处理能力为我们敞开了一道大门,如今企业已经能够借此对庞大的业务及外部数据加以审视

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构.Streaming流计算框架.GraphX图计算与网状数据挖掘.MLlib机器学习支持框架.Spark SQL数据检索语言.Tachyon文件系统.SparkR计算引擎等主要部件.这里做一个简单的介绍. 一.RDD内存数据结构 大数据分析系统一般包括数据获取.数据清洗.数据处理.数据分析.报表输出等子系统.Spark为了方便数据处理.提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似.用户

流式计算形态下的大数据分析

1 介 绍 1.1 流式计算介绍 流式大数据计算主要有以下特征: 1)实时性.流式大数据不仅是实时产生的,也是要求实时给出反馈结果.系统要有快速响应能力,在短时间内体现出数据的价值,超过有效时间后数据的价值就会迅速降低. 2)突发性.数据的流入速率和顺序并不确定,甚至会有较大的差异.这要求系统要有较高的吞吐量,能快速处理大数据流量. 3)易失性.由于数据量的巨大和其价值随时间推移的降低,大部分数据并不会持久保存下来,而是在到达后就立刻被使用并丢弃.系统对这些数据有且仅有一次计算机会. 4)无限性

大数据分析平台安全评估的五大要素

大数据分析平台安全评估的五大要素.面对市场形形×××的大数据安全分析产品,用户需要擦亮眼睛,辨伪识真.在考核大数据安全分析平台时,要确保对以下五个要素进行评估,这对实现大数据分析的效果非常关键.这对于快速收集随时产生的海量数据.快速进行数据分析,确保安全人员高效响应非常重要. 要素1:统一的数据管理平台 统一的数据管理平台是大数据分析系统的基础.数据管理平台存储和查询企业数据.这似乎是一个广为所知,并且已经得到解决的问题,不会成为区分不同企业产品的特色,但实际情况却是,这仍是个问题.处理海量数据