推论统计分析-如何避免偏见和抽样分布

什么是总体和样本?

随机数random模块

# 导入 random(随机数) 模块
import random
‘‘‘
使用random 模块的 randint() 函数来生成随机数
语法是:random.randint(a,b)
函数返回数字 N ,
N 为a到b之间的数字(a <= N <= b),包含 a 和 b
下面案例是生成0 ~ 9 之间的随机数,
你每次执行后都返回不同的数字(0 到 9)
‘‘‘
a=random.randint(0,9)
print(a)

案例:抽奖

range() 函数可创建一个整数列表,一般用在 for 循环中。

使用语法:

range(start, stop[, step])

参数说明:

start: 计数从 start 开始。默认是从 0 开始。例如range(5)等价于range(0, 5)

start: 计数从 start 开始,但不包括 stop。例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5

step:步长,默认为1。例如:range(0, 5) 等价于 range(0, 5, 1)
‘‘‘
抽奖:生成多个随机数
应用案例:从395个用户中随机抽取10个人作为中奖者
‘‘‘
for i in range(10):
    userId=random.randint(0,395)
    #用%s格式化字符串
    print(‘第 %s 位获奖用户id是 %s‘ % (i,userId) )

pandas数据框(DataFrame)的抽样方法

‘‘‘
#arange产生一个含有5*4个元素的一维数组
reshape:将数组转换成5行4列的二维数组
‘‘‘
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
df
#随机选择一个n行的子集
sample1=df.sample(n=3)
sample1

什么是中心极限定理?

中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。

这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。

1、样本的平均值约等于总体平均值

2、不管是什么分布、任意一个总体的样本平均朱都会围绕在总体平均值的周围,并且呈正态分布

三、用样本评估总体

样本的数量较总体较少,因此有可能把极端值排除在外(样本的标准差<总体标准差)

目的:样本标准差是用来估计总体标准差

偏见是如何产生的?如何避免偏见?

1、样本偏差:很少的数据得出结论,以偏概全

2、幸存者偏差:通常只关注显而易见的样本,忽视没有机会出现的样本

3、概率偏见:自以为位置的概率,心里概率与实际的概率的偏差

4、信息茧房:个性化推荐

信息茧房其实是现在社会一个很可怕的现象,从字面意思来看的话其实比喻的是信息被虫茧一般封锁住。

这个问题反映了现在随着个性化推荐的普及衍射的一个社会问题。

1

原文地址:https://www.cnblogs.com/foremostxl/p/12112967.html

时间: 2024-10-12 23:45:22

推论统计分析-如何避免偏见和抽样分布的相关文章

专为程序员设计的统计课 彻底学会统计分析

第1章 课程介绍[欢迎学习,学习中有任何疑问请在问答区进行问答,祝愉快学习!]本章将介绍统计学的思考方式,统计学的整体框架,学习统计学有什么用,以及统计学与机器学习的密切联系:并对学习此门课程讲解的形式(编程+可视化)和需要具备的知识和技能进行说明,让大家从这个课程开始,真正学懂统计学!... 第2章 认识数据[必备基础知识,不能跳过]数据是统计学处理的对象,而数据是由变量组成的.本章将讲解什么数据和变量,以及变量的类型和测量尺度.这些基本概念是统计分析的基石. 第3章 描述统计[核心内容,重点

地统计分析笔记——探索数据

来自:http://blog.csdn.net/kikitamoon/article/details/49925147 在执行地统计分析之前,浏览.熟悉.检查自己的数据是至关重要的.绘制和检查数据是地统计分析过程中的必要阶段,我们可以从这些工作中获得一些先验知识,指导后续的工作. Stage 1 绘制数据 通过ArcMap的图层渲染方案绘制数据,我们可以获得对数据的第一印象. 例如,使用单一符号渲染了解采样点的疏密分布,通过分类渲染了解采样点高值低值的分布,等等. Stage 2 检查数据 绘制

大v用户数据统计分析

1,统计数据的基本情况,包括微博总数,用户总数,最活跃和最不活跃的用户id #!/bin/sh source_dir=/home/minelab/data/DATA source_file_name=userinfo_00_au_1_out source_file=$source_dir/$source_file_name #source_file=test.src out_dir=/home/minelab/liweibo/daV out_file_name=basic_satic.txt o

多元统计分析课程

                                                                                                           前言 掌握一门核心课程,一定要从其定义,应用环境,和其他知识点之间的联系入手,纵向对比,横向对比,比较相同点,比较不同点.这样才能加深对知识的掌握,做到灵活应用.从思想方法与具体实践来讲,一旦理解和知识点,思想方法容易记忆,很容易想到,但是具体的算法可能容易忘记,到使用的时候有点无能为

关于欧拉通路、欧拉回路的一些定理,推论

关于欧拉通路.欧拉回路的一些定义: 无向图:G是一个连通的无向图(1)经过G的每条边一次并且仅一次的路径为欧拉通路(起点和终点不一定要一样).(2)如果欧拉通路是回路(起点和终点是同一个),则为欧拉回路.(3)具有欧拉回路的无向图G称为欧拉图. 有向图:D是一个有向图,D的基图(把D的有向边改为无向边)是连通的(1)经过D的每条边一次并且仅一次的路径称为有向欧拉通路(起点和终点不一定一样).(2)如果有向欧拉通路是回路(起点和终点一样),那么称为有向欧拉通路.(3)具有有向欧拉通路的有向图D称为

R语言基本备忘-统计分析

Part1 相关统计量说明 峰度系数Coefficientof kurtosis http://baike.baidu.com/link?url=gS_sgtNYSRdjLnadNWDDa357DIzJma-tdheAx5eKp0WzTvuH_PYg8hnMNIiP4-DRmewtftVQXXUbtIYzvz4bTq 峰度系数(Kurtosis)用来度量数据在中心聚集程度.在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便).>3的峰

MVC与单元测试实践之健身网站(八)-统计分析

?统计分析模块与之前的内容相对独立,用于记录并跟踪各部位围度的变化.还需提供对所作计划的分析,辅助使计划更合理. 一 围度记录 这儿可以记录各项身体围度指标,现在包括体重在内身体上上下下基本全部提供了,虽然貌似用处不大,所以这个界面并不做非空校验,但会有对输入格式的限制,必须是整数或一位小数. 二 围度变化 有了上一步记录的数据后,就可以基于这些数据,以图表的形式直观地反映围度的变化了. a) 模板提供了各种图表插件,最后选择了flotchart,需求比较基础,完全可以满足.用起来也挺方便: 放

学习论中的道德偏见

---恢复内容开始--- 因为我比较关注学习方法论,所以认为学习是生活中的重要组成部分,所以认为每个人都应该学习.那些不愿意主动学习的人,却比我更享受,过得比我更滋润,由此产生一种不平衡的心理,这是一种需要警惕的偏见. 然而真实的世界,并非如此.学习带来成长与痛苦,而享乐则带来快乐,追求什么便得到什么,所以社会是公平的,你还要抱怨什么呢? 我应该为自己是终身学习之人而感到骄傲,而不是苦恼与嫉妒. 这是我今天听到逻辑思维最新节目时得到的结论. 逻辑思维的观点如下:科技的发展,让很多人都不必生活得很

Java学习-025-类名或方法名应用之二 -- 统计分析基础

前文讲述了类名或方法的应用之一调试源码,具体请参阅:Java学习-025-类名或方法名应用之一 -- 调试源码 此文主要讲述类名或方法应用之二统计分析,通过在各个方法中插桩(调用桩方法),获取方法的调用关系.通过调用关系,我们可以统计出被调用次数比较多的方法,同时也可以构建全系统调用关系链:通过操作重要业务流程,可以统计组成重要业务流程的主要方法,加强相应的单元测试.功能.安全.性能等方面的测试.对于软件产品质量控制存在非凡的意义. 下面构建的演示示例调用关系如下所示: GetClassMeth