机器学习之统计分析(2)

前言

最近在阿里云数加平台上学习一下机器学习,把学习中整理的资料记录于此,已备查看,以下资料主要是概念解释及应用。

相关系数矩阵

了解相关矩阵前先了解相关系数。

相关系数的取值范围为[-1,1],当相关系数为1时,表示正相关;当相关系数为-1时,表示负相关;当相关系数为0时,表示不相关。

正相关:因变量随着自变量的增大而增大

负相关:因变量随着自变量的增大而减小

计算公式:

相关矩阵

相关矩阵中每个值都是代表原矩阵中各列之间的相关系数(相关矩阵为方阵,阶数为原矩阵的列数),对角线上都是原矩阵各列与自身的相关系数,所以对角线的值均为1。

参考资料

百度百科

炼数成金 论坛

样本检验

双样本T检验

  1. 独立样本是指两个样本之间彼此独立。独立样本T检验是检测两个样本之间是否有显著性差异。前提是两个样本相互独立,来自的两个总体服从正态分布。
  2. 配对样本T检验是检验来自两配对总体的均值是否有显著性差异。

来自维基百科的定义:

其零假设为两个正态分布的总体的均值之差为某实数,例如检验二群人的身高之平均是否相等。这一检验通常被称为学生t检验。但更为严格地说,只有两个总体的方差是相等的情况下,才称为学生t检验;否则,有时被称为Welch检验。以上谈到的检验一般被称作“未配对”或“独立样本”t检验,我们特别是在两个被检验的样本没有重叠部分时用到这种检验方式。

单样本T检验

单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。T检验的前提是样本总体服从正态分布。

来自维基百科的定义:

检验一个正态分布的总体的均值是否在满足零假设的值之内,例如检验一群人的身高的平均是否符合170公分。

参考资料

维基百科

微博 文章

正态检验

正态性检验是检验观测值是否服从正态分布,本组件由三种检验方法组成,包括Anderson-Darling Test, Kolmogorov-Smirnov Test,以及QQ图。

原假设H0:观测值服从正态分布,H1:观测值不服从正态分布

KS的p值计算方法采用渐进计算KS分布的CDF,无论样本量多大都采用的是该方法

QQ图在样本量>1000时,会采样进行计算和画图输出,因此图中的数据点不一定覆盖所有样本

效果图

洛伦兹曲线

洛伦兹曲线研究的是国民收入在国民之间的分配问题。为了研究国民收入在国民之间的分配问题,美国统计学家(或说奥地利统计学家)M.O.洛伦兹(Max Otto Lorenz,1903- )1907年(或说1905年)提出了著名的洛伦兹曲线。意大利经济学家基尼在此基础上定义了基尼系数。 画一个矩形,矩形的高衡量社会财富的百分比,将之分为N等份,每一等分为1/N的社会总财富。在矩形的长上,将所有家庭从最贫者到最富者自左向右排列,也分为N等分,第一个等份代表收入最低的1/N的家庭。在这个矩形中,将每1/N的家庭所有拥有的财富的占比累积起来,并将相应的点画在图中,便得到了一条曲线就是洛伦兹曲线。

效果图

参考资料

维基百科

分位数及百分位数

Quartile(四分位数)

四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)

百分位

计算某列的百分位。

维基百科定义:

百分位数,统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。运用在教育统计学中,例如表现测验成绩时。(维基百科)

参考资料

维基百科

皮尔森系数

在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs[1], 文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。[2][3]这个相关系数也称作“皮尔森相关系数r”。

公式定义

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:

数值含义

样本的简单相关系数一般用r表示,其中n 为样本量, 分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)

参考资料

维基百科

百度百科

直方图(多字段)

可选择多个字段查看直方图

离散值特征分析

  1. 统计离散值的gini系数、entropy、对应label个数等
  2. 空值不过滤,当做一个枚举值计算
  3. 稀疏格式表示,某列的某个枚举值如果只有1个Label,对于未出现的label不输出0
  4. 对于每个离散值的gini,entropy都乘以该离散值的概率

图示如下:

gini 系数

维基百科定义:

基尼系数(英语:Gini coefficient),是20世纪初意大利学者科拉多·基尼根据劳伦茨曲线所定义的判断年收入分配公平程度的指标[2]。是比例数值,在0和1之间。基尼指数(Gini index)是指基尼系数乘100倍作百分比表示。在民众收入中,如基尼系数最大为“1”,最小为“0”。前者表示居民之间的年收入分配绝对不平均(即该年所有收入都集中在一个人手里,其余的国民没有收入),而后者则表示居民之间的该年收入分配绝对平均,即人与人之间收入绝对平等,这基尼系数的实际数值只能介于这两种极端情况,即0~1之间。基尼系数越小,年收入分配越平均,基尼系数越大,年收入分配越不平均。要注意基尼系数只计算某一时段,如一年的收入,不计算已有财产,因此它不能反映国民的总积累财富分配情况。

entropy(熵)

系统的熵值直接反映了它所处状态的均匀程度,系统的熵值越小,它所处的状态越是有序,越不均匀;系统的熵值越大,它所处的状态越是无序,越均匀。

链接资料

熵,信息增益,信息增益率,Gini

时间: 2024-12-18 11:55:03

机器学习之统计分析(2)的相关文章

机器学习入门阶段程序猿易犯的5个错误

如何进入机器学习领域没有定式.我们的学习方式都有些许不同,学习的目标也因人而异. 但一个共同的目标就是要能尽快上手.假设这也是你的目标.那么这篇文章为你列举了程序猿们在通往机器学习高手道路上常见的五种错误. 1.将机器学习看得高不可攀 机器学习只是是还有一堆技术的集合,你能够用它来解决复杂问题.这是一个飞速发展的领域,因此,机器学习的学术交流一般出如今学术期刊及研究生的课本里,让它看起来高不可攀又难于理解. 要想高效掌握机器学习,我们须要转变观念,从技术转到方法,由精确变为"足够好",

详解数据挖掘与机器学习的区别与联系

1.大数据 (海量数据的存取,会设计到数据库技术) 大数据就是许多数据的聚合: 大数据的特征: 1.数据量大 2.结构复杂 3.数据更新速度快 2.机器学习 (理论和工具) 机器学习是人工智能的核心,要对大数据进行发掘,靠人工肯定是做不到的,要通过一个模型让计算机按照模型去执行,就是机器学习. 3.数据挖掘 (用机器学习对大数据进行分析,挖掘出有用的知识) 机器学习方法在大型数据库中的应用称为数据挖掘(Data Mining) 数据挖掘就是把大数据的价值发掘出来,比如根据过去30年的气象数据,通

数据库系统概念笔记-引言

 数据库管理系统(DBMS)由一个互相关联的数据的集合和一组用以访问这些数据的程序组成.这个数据集合通常称作数据库,其中包含了关于某个企业的信息.   DBMS的主要目标是要提供一种可以方便.高效地存取数据库信息的途径. 1.1 数据视图 1.1.1 数据抽象 一个可用的系统必须能高效地检索数据.这种高效性的需求促使设计者在数据库中使用了复杂的数据结构来表示数据,但是,有很多数据库用户不懂这些.为此,数据库的系统开发人员通过如下几个层次上的抽象来对用户屏蔽复杂性,以简化用户与系统的交互: 物理层

大数据扫盲

大数据扫盲 目录 大数据扫盲????1 0.1.????大数据处理流程????1 0.2.????大数据处理技术架构????2 1.????数据分区与路由????2 1.1.????二级映射机制????3 1.1.1.????哈希分区????3 1.1.2.????虚拟桶(virtual bucket)????3 1.1.3.????一致性哈希(consistent hashing)????4 1.2.????一致性????4 1.2.1.????CAP理论????4 1.2.2.????ACI

我扑在概念上,就像饥饿的人扑在面包上

不夸张地说(提示:群主要吹NB),从小到大,我最喜欢的课就是数学了,含几何.微积分.线性代数.概率论.数学老师是我的最佳暗恋对象,无论年轻小伙还是鹤发童颜.高中时曾经有位聪明的帅哥问过数学老师(一位鹤发童颜的老头),觉得我们班上数学概念掌握的最好的人是谁,老师略一沉吟答:应该是xxx了.因为数学概念掌握得清晰,数学考试经常第一,所以精通N国语言及素描的文科才女也会与我促膝长谈,谦虚地询问我有关数学学习方法的事.我能有什么方法,我只有感觉啊(逃). 无论学什么,概念和定义都是理论的基石,勿在浮沙之

从单体智能到群体统筹,优化算法推动人工智能新浪潮

(上图为斯坦福大学李国鼎工程讲座教授.杉数科技首席科学顾问叶荫宇) 过去两年出现了人工智能的热潮,特别是以深度学习算法为代表人工智能在中国市场出现了井喷现象.根据麦肯锡统计,2016年全球科技巨头在人工智能上投入了 200亿到300亿美元,VC/PE投融资达60亿到90亿美元.在中国,根据钛媒体TMTbase全球创投数据库的数据统计,目前共收录中国人工智能企业398家.共发生571起投资事件,投资总额高达571亿人民币. 就在AlphaGo先后挑战世界和中国围棋高手后,关于人工智能的热炒更有甚嚣

1.spark简介

spark是一个用于大规模数据处理的统一计算引擎.适用于各种各样原先需要多种不同的分布式平台处理的场景,包括批处理.迭代计算.交互式查询.流处理.通过统一的框架将各种处理流程整合到一起. spark特性 快速性 spark通过使用先进的DAG调度器.查询优化器和物理执行引擎,可以高性能地进行批量及流式处理.使用逻辑回归算法进行迭代计算,spark比hadoop速度快100多倍. 简单易用 spark支持多种编程语言,比如Java.Scala.Python.R及SQL. spark提供了超过80多

技术路线抄录

15~20万 WEB应用服务器(Tomcat.Weblogic.Jetty.JBoss.WebSphere) NoSQL(Redis.MongoDB.HBase.Memcache) 消息中间件(Kafka.ActiveMQ.RabbitMQ) 工具(maven.git.svn.jenkins.docker.Nigix) 高并发.高吞吐.高稳定性系统 流式计算框架storm.spark.genfire.esper(CEP) 分布式环境 消息队列 分布式应用,数据库集群.分库分表 SOA Web前端

电销机器人哪些品牌做的比较好?

相信很多身处于人工智能开发,或者正在学习自然语言处理方面的同学或多或少接触了解过电话机器人这个新型的市场.这是一个很蓬勃的市场,虽然泛滥着很多不良企业,但是有着280亿市场价值的行业,或多或少都不可忽略. 人工智能已经成为重点关注产业,商业价值越来越明显,在未来很多行业都会有人工智能的一席之地.目前的电销市场已经开始全面使用电销机器人,那么在行业中,哪些品牌的电销机器人好,在比较中,为广大用户推荐欧能智能电销机器人. 在你进入这个行业时,你一定要了解电销机器人好不好用. 这是很多企业都会去关心的