统计学方法与数据分析学习笔记1

用于质量改进和再造工程的统计工具、技术和方法:

直方图

数值描述量(均值、标准差、比例等)

散点图

线图(在散点图中用线连接各点)

控制图:(样本均值),r(样本极差),及s(样本标准差)

抽样方案

试验设计

收集数据要有意识的做好以下几步:

详细说明研究、调查或试验的目标

确定所关心的变量

为调查或科学研究选择适当的设计方案

收集数据

抽样的方法:

简单随机抽样

分层随机抽样

比估计

整体抽样

系统抽样

统计领域可以分为两个主要分支:描述统计与推断统计

适当的概括性度量可以为原始测量值的集合提供一幅良好的、粗线条的描绘。通过把一大堆测量值缩减到几个这样的描述性统计量,我们可以理解数据所包含的信息

单个变量的数据数值描述性度量

最常用的两类数值描述性度量是 中心趋势度量 和 变异性度量。也就是说,我们希望描述测量值分布的中心,并弄清测量值是如何相对于分布中心变化的。为了把总体的数值描述性度量和样本的数值描述性度量区别开来,称前者为 参数,后者为 统计量。在统计推断的有关问题中,不能计算各种参数的数值,但可以计算来自样本的相应的统计量,并用得到的数值去估计相应的总体参数。

中心趋势度量

众数

中位数

算术平均值

均值      是对一组测量值中心的常用的度量,但它会由于在集合中一个或多个极端值的出现而发生失真。在这样的情况下,极端值(又称作 离群值)会使均值偏向自己一方以找到数据的平衡点,因此而歪曲了均值最为中心值度量的意义。对均值的一种变通方法是截尾均值,即去掉最大和最小的若干数值,对其余的数作平均。

记 众数Mo 中位数Md 均值μ 截尾均值TM

这些中心趋势度量之间有何联系

答案依赖于数据的 偏倚程度(偏度)

要记住的重要一点是:我们不能局限于仅用一种中心趋势度量。对某些数据集合,有必要用多种度量,才能对数据的中心趋势做出准确的描述性的概括。

变异性度量:

极差    最大与最小的差值

百分位数    n个按大小排列的测量值集合的p%分位数 是指这样的一个数值,集合中至多 p%的测量值比它小,有至多(100-p)%的测量值比它大。

四分位数间距(IQR)

指在四分之三和四分之一分数位之间的差异,即

IQR  =  75%的分位数 - 25%的分位数

离差 (测量值与平均值的差)

方差

标准差

变异系数 = 标准差/|均值|

参考文献:

统计学方法与数据分析 R.L.奥特、M.朗格内克

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-13 06:23:59

统计学方法与数据分析学习笔记1的相关文章

【数据分析学习笔记】用户行为分析模型

一.行为事件分析 1.什么是行为事件分析 企业追踪或记录的用户行为或业务过程,如用户注册.浏览产品详情页.成功投资.提现等,通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因.交互影响等. 2.行为事件分析的特点与价值 行为事件分析法一般经过事件定义与选择.下钻分析.解释与结论等环节. 事件定义与选择 事件描述的是,一个用户在某个时间点.某个地方.以某种方式完成了某个具体的事情.Who.When.Where.What.How 是定义一个事件的关键因素. Who 是参与事件的主体,对于未

spark快速大数据分析学习笔记*初始化sparkcontext(一)

初始化SparkContext 1// 在java中初始化spark 2 import org.apache.spark.SparkConf; 3 import org.apache.spark.api.java.JavaSparkContext; 4 5 SparkConf conf=new SparkConf().setMaster("local").setAppName("my app"); 6 //集群url:本例是运行在本地单机local:应用名,可以在集

大数据分析学习之路

大数据分析学习之路 目录: 一.大数据分析的五个基本方面 二.如何选择适合的数据分析工具 三.如何区分三个大数据热门职业 四.从菜鸟成为数据科学家的 9步养成方案 五.从入门到精通--快速学会大数据分析                             一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

MS SQL到Oracle的数据迁移笔记

MS SQL到Oracle的数据迁移笔记 一.任务背景 旧系统使用MS SQL Server数据库,新系统使用Oracle数据库,现在需要将旧系统中的数据迁移到新系统中,旧数据按照约定的规则转换后,能够在新系统中使用或查询.另外,新系统的实施人员并不清楚旧系统的数据结构,且两个新旧两个系统的使用的数据结构有较大的差异.为了叙述方便,将旧系统维护人员简称为A,新系统实施人员简称为B. 二.总体思路 1.  A与B根据各自了解的信息,一起制定中间表: 2.  A从MS SQL Server提取数据,

Python数据分析学习路径图:堪称史上最全

Python是一种面向对象.直译式计算机程序设计语言,由Guido van Rossum于1989年底发明.由于他简单.易学.免费开源.可移植性.可扩展性等特点,Python又被称之为胶水语言.下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上. 图片来源用Python玩转数据 由于Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用.由于Python本身有十分广泛的应用,本期Python数据分析路线图主要从数据分析从业人员的角度讲述Python数据分析路线图.整个路线

winPcap_6_不用回调方法捕获数据包

用 pcap_next_ex() 函数代替 _5_ 中的 pcap_loop()函数: pcap_loop()函数是基于回调的原理来进行数据捕获,这是一种精妙的方法,并且在某些场合中,它是一种很好的选择. 然而,处理回调有时候并不实用 -- 它会增加程序的复杂度,特别是在拥有多线程的C++程序中. 可以通过直接调用pcap_next_ex() 函数来获得一个数据包 -- 只有当编程人员使用了 pcap_next_ex() 函数才能收到数据包. 这个函数的参数和捕获回调函数的参数是一样的 -- 它

【大数据论文笔记】大数据系统和分析技术综述

1.大数据处理与系统   简介 特征 典型应用 代表性的处理系统 适用场景 批量数据处理系统 首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标 1.数据体量巨大2.数据精确度高3.数据价值密度低 1.互联网领域:      a.社交网络      b.电子商务      c.搜索引擎2.安全领域      a.IT安全      b.欺诈检测      c.识别恶意软件和网络攻击模式3.公共服务领域      a.能源(eg.石油

C# CreateDataAdapter 创建 DbDataAdapter,以及用DataTable的Load方法获取数据

ADO.NET中 有了DbConnection,就可用DbConnection的CreateCommand 创建DbCommand,BeginTransaction创建DbTransaction 可以十分方便的实现工厂模式,操作不同的数据库. 但是唯独DbDataAdapter这个重要的对象无法通过DbConnection或DbCommand来创建,也无法实例化,必须使用SqlDataReader这种明确的类来创建实例,导致 获取数据 的方法不能在基类实现 以下是两个解决办法: 1.只有我们自己