电商大数据学习笔记：理论

1、大数据部门：数据中心、数据平台、数据部……

2、每个部门都有：架构人员、数据分析人员、开发人员、运营人员……

3、团队：数据仓库组、BI组、架构组、数据专家组……

4、团队分的更细：需求组、推荐组、情报组、挖掘组、数据组、营销组……

5、大数据有哪些重要的项目：

1）数据仓库建设；

2）经营分析报表；

3）客户精准营销；

4）推荐系统；

5）移动端数据分析。

6、大数据有哪些重点方向：

1）流量数据；

2）交易数据；

3）会员与活动数据；

4）物流与配送数据；

5）内部财务数据。

7、代表产品：淘宝数据魔方、腾讯用户画像、京东数据罗盘

8、企业的需求：

1）实时监控企业的运转情况；

2）决策未来的发展战略；

3）预测哪些是值得发展的优质客户。

传统数据，分散、数据格式不一致不兼容、应用系统孤立。

BI诞生，集成实时与历史数据，将分析转化为执行力。关键效益：洞察力和协同一致。

9、源数据库 à ODS à ETL à DW à DM à OLAP à Client

10、注意：BI是不产生决策的，它是提供给用户的是报表或图视，但是它不同于传统的静态报表，它可以任意旋转组合报表或图视，是当场计算。

11、数据仓库：是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支撑管理决策。

主题：顾客、供应商等

集成：多个异种数据，统一集成在一起。
相对稳定：不更新，只添加。

反应历史变化：数据仓库记录的是一段时间的信息，不是一点的信息。

12、SCD问题处理方法？

13、ODS是什么，在数据仓库中起的作用？

14、ETL加载策略与举例？

15、事实表：保存了大量业务度量数据的表，事实表的度量值一般称为事实。例如：订单金额、销量等可度量的。

粒度：

1）事务粒度事实表：比如股票按秒来变化；

2）周期快照：按天、按周、按月等；

3）累积快照事实表：记录确定周期的数据；

4）原子事实表：细粒度事实表；

5）聚集事实表：汇总事实表；

6）合并事实表；

7）旋转事实表；

8）预连接聚集表；

9）非事实型事实表：没有确定的事实，存的是外键；

10）切片事实表：把一张大表切成一段时间的；

11）蜈蚣事实表：维度很多；

12）一致性事实。

16、数据集市：小数据仓库，面向部门。它是数据仓库的子集，一般只面向某个主题，缓解访问数据仓库的瓶颈。DM一般存储经过汇总的数据，数据都是经过很多加工后的表。

17、元数据：是关于数据的数据，可以看作是数据仓库系统的“数据字典”，但是这个字典比传统意义上的数据字典强大。他可以帮助管理员和开发人员方便找到他们所关系的数据，并告诉用户数据仓库中有哪些数据，这些数据从哪里来。

分为技术元数据和业务/商业元数据。

18、ETL是将业务系统的数据经过抽取（Extract）清洗转换（Transform）之后加载（Load）到数据仓库的过程。

19、OLAP是联机分析处理，它可以满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”，因此OLAP也可以说是多维数据分析工具的集合。

20、维：是人们观察数据的特定角度，是考虑问题时的一类属性，属性集合构成一个维。如：时间维、地理维等。

21、维度表：可以看作是用户分析数据的窗口，维度表包含事实数据表中事实记录的特性。

事实表与维表的关系如下图：

粒度：数据细化的级别，粒度越细，数据量越大，存储所需的空间越大，查询性能越慢。

层次：举例如：国家-省-市-县等；年-季-月-周-日。

三种模型：星形模型、雪花模型和多维模型。

星形模型如下图：它的维度表没有被新的表连接

22、建模的一般过程

1）确定业务过程每个事实表的粒度；

2）确定维度属性；

3）确定维度层次；

4）确定每个事实所需要关联的维度；

5）确定数字型事实，包括预先计算的；

6）确定缓慢变化维：一种是直接覆盖，另一种是保留历史产品的维度，即追加。

23、

24、数据抽取与装载策略

抽取：每天凌晨会把昨天的数据抽取一份放入数据仓库中，所以数据是T+1的。

1）抽取分为全量抽取和增量数据。小表全量，大表增量。

2）增量抽取可以通过时间戳来控制。

3）每次抽取近一个月有变更的数据，然后和目标表做全外关联得到最新的数据。

4）注意：不要用其它的表的时间戳来控制自己增量。

装载：将落地的文件装入到Hive数据表中。注意字段的顺序，极其重要。

抽取装载：一般使用sqoop来完成。

时间： 2024-12-23 11:00:31

电商大数据学习笔记：理论的相关文章

电商大数据学习笔记：实战

1.YARN:将资源管理和作业调度/监控分成两个独立的进程. 包含两个组件:ResourceManager和ApplicationMaster 2.YARN的特性: 1)可扩展性:2)高可用性(HA):3)兼容性(1.0版本的作业也可以执行):4)提高集群利用率: 5)支持MapReduce编程范式. 3.Hadoop的进程: 1)NameNode HDFS的守护进程: 2)Secondary NameNode 监控HDFS状态的辅助后台程序,备用NameNode: 3)DataNode 负责把

电商大数据学习笔记：用户画像

1.用户画像:用户信息标签化. 2.用户画像可以做什么? ——内容正在整理中 3.show命令用法 show tables 显示所有表例:show table like ‘…_pre_food’; show partitions 显示所有分区例:show partitions fdm_prd_food partition(dt=’2015-01-01’); show table extended 显示扩展信息例:show table extended like fdm_ord_order;

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

电商大数据项目（二）-推荐系统实战之实时分析以及离线分析

电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析http://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法http://blog.51cto.com/6989066/2326209电商大数据项目-推荐系统实战之实时分析以及离线分析http://blog.51cto.com/6989066/2326214 五.实时分析Top IP(实时分析Top用户)一)模块介绍电商网站运营中,需要分析网站访问排名前N的IP,主要用来审计是否

电商大数据项目-推荐系统实战之推荐算法（三）

电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析http://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法http://blog.51cto.com/6989066/2326209电商大数据项目-推荐系统实战之实时分析以及离线分析http://blog.51cto.com/6989066/2326214 (七)推荐系统常用算法协同过滤算法协同过滤算法(Collaborative Filtering:CF)是很常用的一种算法,

电商大数据项目-推荐系统实战

开源项目,请勿用于任何商业用途.源代码地址:https://github.com/asdud/Bigdata_project 本项目是基于Spark MLLib的大数据电商推荐系统项目,使用了scala语言和java语言.基于python语言的推荐系统项目会另外写一篇博客.在阅读本博客以前,需要有以下基础:1.linux的基本命令2.至少有高中及以上的数学基础.3.至少有java se基础,会scala语言和Java EE更佳(Jave EE非必需,但是可以帮助你更快理解项目的架构).4.有gi

电商大数据平台运维案例

技术栈数据流向平台规模差异化,隔离化 YARN: https://baike.baidu.com/item/yarn/16075826?fr=aladdin 今天先到这儿,希望对您在系统架构设计与评估,团队管理, 项目管理, 产品管理,团队建设有参考作用 , 您可能感兴趣的文章: 互联网电商购物车架构演变案例互联网业务场景下消息队列架构互联网高效研发团队管理演进之一消息系统架构设计演进互联网电商搜索架构演化之一企业信息化与软件工程的迷思企业项目化管理介绍软件项目成功之要素人际沟通风格介绍一

电商大数据应用之用户画像

一.?课程目标1.1 了解用户画像是什么1.2 用户画像的作用是什么1.3 学会使用SparkSQL构建用户画像二.?前言大数据时代已经到来,企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为的分析尤为重要.利用大数据来分析用户的行为与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度.本课程是基于大型电商公司的真实用户画像中提练出的精华内容,旨在培养学员了解用户画像的内容,掌握构建用户画像的方法. 三.?初识用户画像右边是一个人的基本属性,通过一个人的基本属性我

大数据学习笔记7·城市计算(1)

前言众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的