机器学习前置准备:《爱上统计学入门》

一,基本概念

众数 出现次数最多的

均值
推论统计,用样本来推论总体,样本是总体的子集

方法:多练习,多找实例

二,平均数
平均数:均值、中位数、众数
加权平均数,一样是总数/个数。如1出现4次,2出现6次,3出现1次。加权平均=1*4+2*6+3=19
中位数对极值不敏感,1 2 3 4 99 中位数是3,但平均数是20多,不能代表这个数组。
中位数代表个体的中心点,平均数代表值的中心
应用场景
见书

三,变异性,也叫离散度、散布
平均数,变异性都是统计里的重要方面,计算每个数值和均值的差异性

数据分布共4方面不同:平均值、变异性、偏度、峰度

极差:最大值-最小值
标准差:每个数与均值的平均距离。N-1是为了使计算的标准差大于实际的,科学家的保守性,不得不出错,出错也是过高估计了标准差。

方差:标准差没开根号前。一般标准差更具有解释意义。

四,统计图表
容易说明问题,好图表的十条原则,见书,以后未提到内容均见书
1,频数分布
组距的选择:选择包含2,5,10,20个数据点的组距,使得10-20个这样的组距可以覆盖所有数据。
比如有100-400的范围,我们想分10个组,则组距为300/10=30


2,建立直方图,高度代表频数。每个直放代表一组,从小到大排列好。频数多边形。都类似的展示。
累计频数,把频数叠加起来。


图的应用:
柱状图: 比较不同分类的频数
线图:表示数据的趋势,如每年入学人数变化,
饼图:占比例分析,不同类别项目的比例分布

五,计算相关系数
描述两个变量之间的限行关系,-1  -> 1
两个变量共享许多特征,才有相关性。比如身高和体重,共享了营养,健康状况,基因等等。
皮尔逊系数来计算公式(用于定距和定距变量的相关性,直接用软件计算):


散点图,XY代表两个变量。完全相关是不可能的(代表两个变量共享所有变量),0.7-0.8就是一般统计的最大相关了


关联并不代表因果,如消费冰淇淋和犯罪率相关度高,仅代表共享了一些特征。夏天气温高,因此冰淇淋消费多,气温高,因此开门开窗多,导致犯罪增加

选哪一个公式来计算相关系数?见下表

六,有趣的应用
描t值,两个群体的独立均值t检验 117页图表理解,选检验流程
非独立性t值 一个群体使用xx前和xx后的对比

时间: 2024-10-09 18:58:06

机器学习前置准备:《爱上统计学入门》的相关文章

《看穿一切数字的统计学》:深入浅出的统计学入门 四星推荐

日本统计学家写的统计学入门.深入浅出介绍统计学最常见的几个应用场景:抽样调查,随机对照,回归分析等,挺有趣的.对统计学感兴趣的,想复习统计学的,都可以看看. 同意作者在书中表达的一个思想:统计学思维是现代人应该掌握的非常重要的一种常识.个人感觉,在个体遇到医疗健康相关的问题,企业家遇到经营管理问题的时候,都容易以偏概全,认为个人体验到的就是总体的全局的情况. <看穿一切数字的统计学>:深入浅出的统计学入门 四星推荐,布布扣,bubuko.com

机器学习_深度学习_入门经典(永久免费报名学习)

机器学习_深度学习_入门经典(博主永久免费教学视频系列) https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149 作者座右铭---- 与其被人工智能代替,不如主动设计机器为我们服务. 长期以来机器学习很多教材描述晦涩难懂,大量专业术语和数学公式让学生望而止步.生活中机器学习就在我们身边,谷歌,百度,Facebook,今日头条都运用大量机器学习算法,实现智能

机器学习之微积分与概率论入门1

这两门学科作为机器学习的必备科目! 一.微积分1夹逼定理通俗的讲:A≤B≤C当求极限时,存在A=C,则说明B也等于A和C案例1: 案例2: 2 两个重要极限 3 导数通俗的讲就是曲线的斜率二阶导数是斜率变化快慢的反应,表征曲线的凹凸性常用的函数的导数 案例1:求幂指函数的套路 ===重要公式之,泰勒公式:简单应用: 4 方向导数和梯度函数(1)方向导数:如果函数z=f(x,y)在点P(x,y)是可微分的,那么,函数在该点沿任一方向L的方向导数都存在,且有:其中,ψ为x轴到方向L的转角 (2)梯度

四个机器学习一步一步入门约束波尔兹曼机RBM

《爱上统计学》笔记(一)

计算和理解平均数: 计算均值(算数平均数) 均值是计算平均数最常用的形式.等于数组中所有数值的总和除以该数组值的个数. 计算加权平均数 简单计算的均值,如果出现极端值的情况,并不能反映整体数据的均值,那么我们就需要采用加权平均数. 加权平均数:每一数值乘以它出现的频数,并将所有的积相加,然后除以频数的总和. 1)列出要计算均值的样本的所有数值. 2)列出每一个值出现的频数. 3)每一数值乘以它的频数 4)计算"数值*频数"列的所有数值总和. 5)除以频数的总和. 计算中位数 中位数定义

《爱上统计学》笔记(二) 理解变异性

变异性(也叫散步或离散度)可被看作是对不同数值之间的差异性的测量. 如果把变异性看作是每个数值与特定值的差异程度可能更精确.那么你认为哪个"数值"可能被作为那个特定值呢?通常情况下这个特定值就是均值.因此,变异性成为测量数据组中每一个数值与均值的差异性的数量. 变异性的三种量数通常用于反映一组数据的变异性.散布或者离散度.这三种量数就是极差.标准差和方差. 我们最初正常的想法可能是计算数据组的均值,接着用均值减去每一个数值.然后计算这些距离的平均数.但实际上这并不管用,举个例子看看 数

机器学习入门指南

承网上的前辈所言:机器学习不是一个一个孤立的算法堆砌起来的,想要像看<算法导论>这样看机器学习是个不可取的方法.机器学习里面有几个东西一直贯穿全书,比如说数据的分布.最大似然(以及求极值的几个方法,不过这个比较数学了),偏差.方差的权衡,还有特征选择,模型选择,混合模型等等知识,这些知识像砖头.水泥一样构成了机器学习里面的一个个的算法.想要真正学好这些算法,一定要静下心来将这些基础知识弄清楚,才能够真正理解.实现好各种机器学习算法. 学习的资料,大概分这么几个方面: 1.在线课程 台大林轩田老

机器学习如何入门

作者:Leon链接:https://www.zhihu.com/question/20691338/answer/102249162来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 数 学 很多人翻看任何一本机器学习的书,看到一推的数学公式就开始打退堂鼓了.开始搜索,提问"机器学习需要哪些数学知识?"然后得到的结果可能会是"矩阵分析,概率论,优化设计--"而且还会有大量的人推荐一些例如"All of Statistics&qu

想从事数据科学家的自我修炼(浪叫兽的书单)一年之内从零基础入门(以不抱大腿的姿势)拿下数据竞赛 一等奖 ,二等奖,三等奖

携程赛的初练书单 在科赛网站上,我第一次报名参加了比赛是,酒店未来30天产量预测,当时参加比赛是16年的7月中旬了.距今日的17年5月中旬,不到一年的时间,在科赛网,同样是在携程的出题下拿到了一个冠军一等奖 进入正题把,我来写一下我的历史读书记录  和  自发学习过程: 其实刚刚入门是因为想玩爬虫爬新闻做预测:入门读的书有: PYTHON自然语言处理中文翻译 NLTK 中文版quantmod-R中的金融分析包R数据导入和导出(包括RODBC)RODBC中文介绍上面可能也是一些介绍把 了解了一下R