数据分析的一些概念

一、什么是商业智能(BI)
二、什么是数据仓库(DW)
三、什么是数据挖掘(DM)
四、数据挖掘的数学基础
五、数据挖掘的十大算法
六、数据可视化的工具
七、什么是用户画像
八、什么是埋点
九、数据采集的几种方式

一、什么是商业智能(BI)

BI：Business Intelegence，商业智能，基于数据仓库，经过数据挖掘后，得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

二、什么是数据仓库(DW)

DW：Data Warehouse，数据仓库，数据库的升级概念，一般量更庞大，将多个数据来源的数据进行汇总、整理而来

三、什么是数据挖掘(DM)

DM：Data Mining，数据挖掘
数据挖掘流程：Knowledge Discovery in Database，也叫数据库中的知识发现，简称KDD
KDD流程：输入数据->数据预处理->数据挖掘->后处理->信息

数据清洗
去除重复数据、干扰数据及填充缺失值
数据集成
将多个数据源中的数据存放在一个统一的数据存储中
数据变换
将数据转换成适合数据挖掘的形式，比如将数值东篱一个特定的0~1的区间

数据挖掘的核心

分类
通过训练集得到一个分类模型，然后用这个模型可以对其他数据进行分类
分类是已知了类别，然后看样本属于哪个分类
聚类
将数据自动聚类成几个类别，
聚类是不知道有哪些类别，按照样本的属性来进行聚类
预测
通过当前和历史数据预测未来趋势，可以更好地帮助我们识别机遇和风险
关联分析
发现数据中的关联规则，被广泛应用于购物、事务数据分析中

数据挖掘的基本流程

商业理解。从商业的角度理解项目需求
数据理解。尝试收集部分数据，对数据进行探索
数据准备。开始收集数据，并进行清洗、集成等操作
模型建立。选择和应用数据挖掘模型，并进行优化，以便得到更好的分类结果
模型评估。对模型进行评价，确认模型是否实现了预定的商业目标
上线发布。把挖掘的知识转换成用户的使用形式

四、数据挖掘的数学基础

概率论与数据统计
线性代数
图论
最优化方法

五、数据挖掘的十大算法

分类
- C4.5。十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据
- 朴素贝叶斯。基于概率论原理，计算未知物体出现的条件下，各个类别出现的概率，取概率最大的分类
- SVM。超平面的分类模型
- KNN。每个样本的分类都可以用其最接近的K个邻居的分类代表
- Adaboost。构建分类器的提升算法，可以让多个弱的分类器组成一个强的分类器
- CART。决策树算法，分类树 + 回归树
聚类
- K-Means。将物体分成K类，计算新点跟K个中心点的距离，哪个距离近，则新点归为哪一类
- EM。最大期望算法，求参数的最大似然估计的一种方法
关联分析
- Apriori。挖掘关联规则的算法，通过挖掘频繁项集揭示物品之间的关联关系
连接分析
- PageRank。起源于论文影响力的计算方式，如果一篇文论被引入的次数越多，就代表这篇论文的影响力越强，Google将其用于计算网页权重

六、数据可视化的工具

数据可视化能让我们直观了解数据分析的结果

python第三方库
- matplotlib
- seaborn
第三方工具
- 微图
- DataV
- Data GIF Maker等

七、什么是用户画像

简单的说，用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模，将海量数据进行标签化，来复以更精准的用户画像
用户标签能产生的业务价值

在获客上，找到优势的宣传渠道，通过个性化的宣传手段吸引有潜在需求的用户
在粘客上，提升用户的单价和消费频次
在留客上，降低流失率，顾客流失率降低 5%，公司利润提升 25% ~ 85%

用户标签4个纬度

基础信息
性别、年龄、地域、收入、学历、职业等
消费信息
消费习惯、购买意向、是否对促销敏感
行为分析
时间段、频次、时长、访问路径
内容分析
浏览的内容、停留时长、浏览次数，内容类型，如金融、娱乐、教育、体育、时尚、科技等

数据处理的3个阶段

业务层
获客预测、个性化推荐、用户流失率、GMV趋势预测
算法层
用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
数据层
用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

八、什么是埋点

在需要的位置采集相应的信息，进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有：友盟、Google Analysis、Talkingdata等，一般是前端埋点的方式

九、数据采集的几种方式

开源数据源
爬虫抓取
日志采集
传感器

原文地址：https://www.cnblogs.com/chenqionghe/p/12247109.html

时间： 2024-10-11 05:20:46

数据分析的一些概念的相关文章

《Spark大数据分析：核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

自学的数据分析书单

入门版适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者. 1.深入浅出数据分析 (豆瓣):HeadFirst 类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知.电子工业出版社的经典书目系列,从数据分析基本步骤开始.实验方法.最优化方法.假设检验方法.贝叶斯统计方法.主观概率法.启发法.直方图法.回归法.误差处理.相关数据库.数据整理技巧一一讲到.图比较多,适合入门. 2.谁说菜鸟不会数据分析 (豆瓣):不仅讲解了一些常见的分析技巧,并附带 Ex

TMF大数据分析指南 Unleashing Business Value in Big Data

大数据分析指南 TMF Frameworx最佳实践 Unleashing Business Value in Big Data 前言此文节选自TMF Big Data Analytics Guidebook. TMF文档版权信息 Copyright © TeleManagement Forum 2013. All Rights Reserved. This document and translations of it may be copied and furnished to other

数据分析的关键是制定聪明的决策，并记住基本原则是不变的——万变不离其宗

转载:http://spss-market.r.blog.163.com/blog/static/731422682011681147704/ 有一句经典语录:"我的广告费有一半浪费掉了,但我不知道是哪一半.",来自于John Wanamaker,1900年代早期的一位美国百货商店商人.(译者注:约翰·沃纳梅克,John Wanamaker,1838年7月11日-1922年12月12日, 是一名美国商人,被认为是百货商店之父.--维基百科数据分析可以找出到底哪一半投资是

【转载】维度表和事实表的区别

免责声明: 本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除. 原文作者:知识点滴原文地址: 维度表, 事实表, 数据仓库, BI... 以前一直对维度表, 事实表, 数据分析, BI等概念等有一些模糊. 这几天的学习终于让这些有了一些眉目了: 维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度.前面的示例就可以有两个维度:类型和区域.

维度表, 事实表, 数据仓库, BI...

以前一直对维度表, 事实表, 数据分析, BI等概念等有一些模糊. 这几天的学习终于让这些有了一些眉目了: 维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度.前面的示例就可以有两个维度:类型和区域.另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性.下面是两个常见的维度表结构: 产品维度表:Prod_id, Product_Name, Category, Color, Si

SSAS——基础--cube

SSAS--基础一.Analysis Services Analysis Services是用于决策支持和BI解决方案的数据引擎.它提供报表和客户端中使用的分析数据. 它可在多用途数据模型中创建高性能查询结构,业务逻辑和KPI(企业关键绩效指标),该数据模型可由任何支持Analysis Services作为数据源的客户端程序访问. 多用途数据模型的创建:使用SQL Server Data Tools,并选择则表格或者多维和数据挖掘项目模板. 多用途数据模型的数据填充:通常是数据仓库多为数据模

5月19日云栖精选夜读：性能追求之路——MaxCompute2.0的前世今生

摘要: <大数据计算服务MaxCompute产品最新动态>,首先介绍了MaxCompute的发展历程和技术架构,然后对MaxCompute 2.0版本新特性和新技术进行了详细介绍. <大数据计算服务MaxCompute产品最新动态>,首先介绍了MaxCompute的发展历程和技术架构,然后对MaxCompute 2.0版本新特性和新技术进行了详细介绍. 热点热议性能追求之路--MaxCompute2.0的前世今生作者:大数据史记 "奔三"了,程序员,你该怎么

大数据云时代游戏分析存在4大误区

最近几年,大数据这个词的火爆以及大数据技术的迅速发展,数据分析和数据挖掘的工作得到越来越多企业的重视,特别是在游戏行业,越来越多关于数据的分析容和观点也井喷式提出,“数据驱动下的精细化运营”,“玩家群体的定量研究”,“移动游戏数据分析体系”等等概念的提出,可以看出游戏的研发和运营过程中,对数据分析的需求是无穷无尽的,相应的,对数据分析的讨论也是各抒己见.而盲目过度依赖数据,或者主观的解读数据,带来的损失则是无法估计的. 以下,我将结合自己的工作经历,阐述以下数据指标会骗人和游戏数据分析中的几