数据分析的一些概念

目录

  • 一、什么是商业智能(BI)
  • 二、什么是数据仓库(DW)
  • 三、什么是数据挖掘(DM)
  • 四、数据挖掘的数学基础
  • 五、数据挖掘的十大算法
  • 六、数据可视化的工具
  • 七、什么是用户画像
  • 八、什么是埋点
  • 九、数据采集的几种方式

一、什么是商业智能(BI)

BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

二、什么是数据仓库(DW)

DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来

三、什么是数据挖掘(DM)

DM:Data Mining,数据挖掘
数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息

  1. 数据清洗
    去除重复数据、干扰数据及填充缺失值
  2. 数据集成
    将多个数据源中的数据存放在一个统一的数据存储中
  3. 数据变换
    将数据转换成适合数据挖掘的形式,比如将数值东篱一个特定的0~1的区间

数据挖掘的核心

  1. 分类
    通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
    分类是已知了类别,然后看样本属于哪个分类
  2. 聚类
    将数据自动聚类成几个类别,
    聚类是不知道有哪些类别,按照 样本的属性来进行聚类
  3. 预测
    通过当前和历史数据预测未来趋势,可以更好地帮助我们识别机遇和风险
  4. 关联分析
    发现数据中的关联规则,被广泛应用于购物、事务数据分析中

数据挖掘的基本流程

  1. 商业理解。从商业的角度理解项目需求
  2. 数据理解 。尝试收集部分数据,对数据进行探索
  3. 数据准备。开始收集数据,并进行清洗、集成等操作
  4. 模型建立。选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果
  5. 模型评估。对模型进行评价,确认模型是否实现了预定的商业目标
  6. 上线发布。把挖掘的知识转换成用户的使用形式

四、数据挖掘的数学基础

  • 概率论与数据统计
  • 线性代数
  • 图论
  • 最优化方法

五、数据挖掘的十大算法

  • 分类

    • C4.5。十大算法之首,决策树算法,特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
    • 朴素贝叶斯。基于概率论原理,计算未知物体出现的条件下,各个类别出现的概率,取概率最大的分类
    • SVM。 超平面的分类模型
    • KNN。每个样本的分类都可以用其最接近的K个邻居的分类代表
    • Adaboost。构建分类器的提升算法,可以让多个弱的分类器组成一个强的分类器
    • CART。决策树算法,分类树 + 回归树
  • 聚类
    • K-Means。将物体分成K类,计算新点跟K个中心点的距离,哪个距离近,则新点归为哪一类
    • EM。最大期望算法,求参数的最大似然估计的一种方法
  • 关联分析
    • Apriori。挖掘关联规则的算法,通过挖掘频繁项集揭示物品之间的关联关系
  • 连接分析
    • PageRank。起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强,Google将其用于计算网页权重

六、数据可视化的工具

数据可视化能让我们直观了解数据分析的结果

  • python第三方库

    • matplotlib
    • seaborn
  • 第三方工具
    • 微图
    • DataV
    • Data GIF Maker等

七、什么是用户画像

简单的说,用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像
用户标签能产生的业务价值

  1. 在获客上,找到优势的宣传渠道,通过个性化的宣传手段吸引有潜在需求的用户
  2. 在粘客上,提升用户的单价和消费频次
  3. 在留客上,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%

用户标签4个纬度

  1. 基础信息
    性别、年龄、地域、收入、学历、职业等
  2. 消费信息
    消费习惯、购买意向、是否对促销敏感
  3. 行为分析
    时间段、频次、时长、访问路径
  4. 内容分析
    浏览的内容、停留时长、浏览次数,内容类型,如金融、娱乐、教育、体育、时尚、科技等

数据处理的3个阶段

  1. 业务层
    获客预测、个性化推荐、用户流失率、GMV趋势预测
  2. 算法层
    用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
  3. 数据层
    用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

八、什么是埋点

在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋点的方式

九、数据采集的几种方式

  • 开源数据源
  • 爬虫抓取
  • 日志采集
  • 传感器

原文地址:https://www.cnblogs.com/chenqionghe/p/12247109.html

时间: 2024-10-11 05:20:46

数据分析的一些概念的相关文章

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

自学的数据分析书单

入门版 适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者. 1.深入浅出数据分析 (豆瓣):HeadFirst 类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知.电子工业出版社的经典书目系列,从数据分析基本步骤开始.实验方法.最优化方法.假设检验方法.贝叶斯统计方法.主观概率法.启发法.直方图法.回归法.误差处理.相关数据库.数据整理技巧一一讲到.图比较多,适合入门. 2.谁说菜鸟不会数据分析 (豆瓣):不仅讲解了一些常见的分析技巧,并附带 Ex

TMF大数据分析指南 Unleashing Business Value in Big Data

大数据分析指南 TMF Frameworx最佳实践 Unleashing Business Value in Big Data 前言 此文节选自TMF Big Data Analytics Guidebook. TMF文档版权信息  Copyright © TeleManagement Forum 2013. All Rights Reserved. This document and translations of it may be copied and furnished to other

数据分析的关键是制定聪明的决策,并记住基本原则是不变的——万变不离其宗

转载:http://spss-market.r.blog.163.com/blog/static/731422682011681147704/ 有一句经典语录:"我的广告费有一半浪费掉了,但我不知道是哪一半.",来自于John Wanamaker,1900年代早期的一位美国百货商店商人.(译者注:约翰·沃纳梅克,John Wanamaker,1838年7月11日-1922年12月12日, 是一名美国商人,被认为是百货商店之父.--维基百科        数据分析可以找出到底哪一半投资是

【转载】维度表和事实表的区别

免责声明:     本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除.     原文作者:知识点滴      原文地址: 维度表, 事实表, 数据仓库, BI...   以前一直对维度表, 事实表, 数据分析, BI等概念等有一些模糊. 这几天的学习终于让这些有了一些眉目了: 维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度.前面的示例就可以有两个维度:类型和区域.

维度表, 事实表, 数据仓库, BI...

以前一直对维度表, 事实表, 数据分析, BI等概念等有一些模糊. 这几天的学习终于让这些有了一些眉目了: 维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度.前面的示例就可以有两个维度:类型和区域.另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性.下面是两个常见的维度表结构: 产品维度表:Prod_id, Product_Name, Category, Color, Si

SSAS——基础--cube

SSAS--基础 一.Analysis Services Analysis Services是用于决策支持和BI解决方案的数据引擎.它提供报表和客户端中使用的分析数据. 它可在多用途数据模型中创建高性能查询结构,业务逻辑和KPI(企业关键绩效指标),该数据模型可由任何支持Analysis Services作为数据源的客户端程序访问. 多用途数据模型的创建:使用SQL Server Data Tools,并选择则表格或者多维和数据挖掘项目模板. 多用途数据模型的数据填充:通常是数据仓库 多为数据模

5月19日云栖精选夜读:性能追求之路——MaxCompute2.0的前世今生

摘要: <大数据计算服务MaxCompute产品最新动态>,首先介绍了MaxCompute的发展历程和技术架构,然后对MaxCompute 2.0版本新特性和新技术进行了详细介绍. <大数据计算服务MaxCompute产品最新动态>,首先介绍了MaxCompute的发展历程和技术架构,然后对MaxCompute 2.0版本新特性和新技术进行了详细介绍. 热点热议 性能追求之路--MaxCompute2.0的前世今生 作者:大数据史记 "奔三"了,程序员,你该怎么

大数据云时代 游戏分析存在4大误区

最近几年,大数据这个词的火爆以及大数据技术的迅速发展,数据分析和数据挖掘的工作得到越来越多企业的重视,特别是在游戏行业,越来越多关于数 据的分析容和观点也井喷式提出,“数据驱动下的精细化运营”,“玩家群体的定量研究”,“移动游戏数据分析体系”等等概念的提出,可以看出游戏的研发和运 营过程中,对数据分析的需求是无穷无尽的,相应的,对数据分析的讨论也是各抒己见.而盲目过度依赖数据,或者主观的解读数据,带来的损失则是无法估计的. 以下,我将结合自己的工作经历,阐述以下数据指标会骗人和游戏数据分析中的几