女士品茶 - 简单摘录

  费歇尔:实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之间的关系,因此,任何有用的实验必须是能够提供估计结果的。

  费歇尔:人们不可避免地会发现以前所得出的观点,至少在一定程度上,明显是过时的或者错误的。

  费歇尔:真实分布只是一个抽象的数学公式,搜集的数据只能用来估计这个真实分布的参数。

  费歇尔:测量值是从所有可能出现的测量值中随机选取的,依据随机选取的数据计算得出的一个参数的任何估计值,其结果本身也具有随机性,因此,也会服从一种概率分布。

  费歇尔定义统计量为:从观察到的测量值得出的、可用来估计其分布参数的一个数值。

  评判一个好的统计量的三个准则:1)一致性(consistency);2)无偏性(unbiasedness);3)有效性(efficiency)。

  对于某一特定数据集,我们永远不知道一个统计量的值是否正确,只能说我们用一种方法得出来一个符合这些准则的统计量。

  高尔顿发现向平均回归:表现为非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。

  K 皮尔逊发现“偏斜分布”,宣传期可以描述科学家在数据中可能遇到的任何散布类型,其分布由四个数字所确定,分别为:平均数、标准差、对称性和峰度。

  K 皮尔逊提出,观测到的现象只是一种随机的映像,不是真实的,所谓的真实是概率分布。即科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。

  K 皮尔逊的所有工作都假定:样本足够大,以至于确定参数可以没有误差。

  蒙特卡罗技术:这是一种一再模拟的数学模型,以确定相关数据的概率分布。

  布利斯发明“概率单位分析”,其模型建立了“杀虫剂的剂量”与“使用该剂量时一只虫子会死掉的概率”这两者间的关系。有可得出:对一只特定的用做试验标本的虫子,要确定杀死它所需要的剂量是不可能的。

  大量数据集合的平均数都有一个统计分布,而中心极限定理则阐明,无论初始数据是怎么来的,这个分布都可以用正态概率分布来逼近。

  由正态随机变量推演得出的许多统计量,其自身也服从正态分布。

  证明林德伯格利维条件成立,那么中心极限定理就成立。一个统计量如果属于U-统计量,则满足林德伯格利维条件。

  混沌理论:某种形式的统计建模明显带着杂乱无序特征的随机性。

  混沌的数学函数对初始条件非常敏感,初始条件的些微差异,经过多次迭代之后,将导致全然不同的结果。

  混沌理论源于这样的观察:一个固定不变的确定性公式生成的数字可能看上去是一个具有随机性的模型。其拥护者认为:现实生活中看上去是纯随机的测量值,实际上是由某个确定性的方程组生成的,这些方程可以从普安卡雷图像的模式推演出来。

  在早期的确定性方法中,有一个信条,越精确的测量,对所考察的自然客体的描述也就越精确。而在统计方法中,分布参数有时候不必有一个自然客体,无论多么精确的测量系统,分布参数的估计值终究是有误差的。

  “假设检验”:在“待检验的假设为真”的假设前提下,用来计算以往观察到的结果发生的概率。

  显著性检验只是告诉他什么是应该忽略掉的,也就是说应该把所有那些无法得到显著性结果的实验忽略掉。

  奈曼:除非至少有两个可能的假设,否则显著性检验根本就没有意义。即,你不可能检验一组数据是否服从正态分布,除非你认为该组数据也可能会被其它的一些分布或分布集来拟合。计算P值是为了检验零假设,而检验的效力则是指备择假设为真的条件下P值的表现效果。

  1)检验的效力是用来测量一个检验方法好坏的指标,两种检验方法中效力较强的方法就是较好的方法;2)备择假设不能太多。

  大数定律指出:如果某事件有给定的概率(比如掷一个色子,得到六点这一事件的概率是六分之一),而且如果我们重复地进行相同的试验时,该事件发生的次数的比率就会越来越接近这个概率值。

  如果我们不能够说某个估计值是绝对准确的,那么我们还有没有办法可以说这个估计值与参数的真值之间有多接近呢?——区间估计。

  数据是观测得来的,参数是固定的值(尽管未知的),因此参数取某个特定值的概率只有两个结果,或者是100%(如果它就是那个值),或者是0(如果它根本不是那个值)。然而,一个95%的置信区间涉及的95%的概率,这个概率指的是什么?

  不应该从每一个结论的角度看待置信区间,而应该将其视为一个过程。从长期来看,对于一直计算95%的置信区间的统计学家来说,他们将发现,在总次数中,参数的真值将有95%的机会落在所计算的区间内。

  萨维奇认为:世界上并没有“已被证明的科学事实”这样的事情。有的只是一些陈述,而那些自认为是科学家的人对这些陈述持有很高的赞成概率。

  贝叶斯方法一开始是假设在一个人的头脑中有一组先验概率,接下来这个人经过观察或实验产生了数据,然后拿这组数据来修正先验概率,生成一组后验概率。

  统计方法核心的数学哲学问题:1)概率的真正数学基础是什么?2)面对像地震过后的余震这类长时间搜集上来的数据时,我们可以做些什么?

  判断样本的缺陷:1)只有当我们确信对大总体具有充分的了解,可以将总体划分为能用一些个体来代表额几个子总体时,判断样本才具有代表性;2)如果判断样本的估计结果是错的,我们无法知道该结果与真值到底相关多少。

  事前研究的缺陷:1)如果研究是小范围的,结论也许只是针对某个特定群体而言的,不能将它推广到更广泛的人群当中;2)为了让事件发生足够多,允许作有意义的分析,研究持续的时间必须很长。

  瑕疵的解决方法:1)如果测量值有瑕疵,就降低瑕疵测量值的影响力;2)如果测量值没有瑕疵,就找出正确答案。

  戴明认为:通常情况下,管理者往往设立一些不可能实现的标准,他们不在意标准是否可以达到,也不尝试着如何通过发送设备等必要手段,来使这些标准得以实现。要改变一个产品的质量,产品的质量就得是可测的。

  利维鞅(martingale)的概念:1)变异是有界的,因此个别值不可能是无穷大的,也不可能是无穷小的;2)下一个数字的最佳估计值必定是它的前一个数值。

  柯尔莫戈洛夫对概率的数学定义:概率是一个抽象空间里对一事件集合的一种测量。

  如果我们不能确定可进行概率计算的事件空间,那么就不能说某种模型比另外一种更适用。

  凯恩斯认为:概率是在某一文化教育背景下的人们,对其既定情况的不确定性的测量,概率的判断不仅是个人内心的直觉,还与个人的文化背景有关系。认为,概率不再以事件空间为基础,而是产生于所涉及人员的个人感觉的数值。



点集拓扑学

有限数学群

无维度向量空间

元数学代数

代数拓扑学

序贯分析

决策理论

经验贝叶斯法(empirical bayes)

层次贝叶斯模型(hierarchal Bayes methods)

分组理论(classification theory)

元数学(metamathematics)

图基引理

快速傅立叶变换

稳健估计

博克斯-考克斯变换(Box-Cox transformation)

斯蒂尔切斯积分(Stieltjes integral)

运算密集法

核密度估计(kernel density estimation)

模糊近似值(fuzzy approximation)

时间: 2024-10-11 22:59:55

女士品茶 - 简单摘录的相关文章

《女士品茶》与统计检验

在2008年参加国家统计局举办的建模大赛期间,书店书架上的<女士品茶(The Lady Tasting Tea)――20世纪统计怎样变革了科学>引起了我们的关注,<女士品茶>书名一改以往统计类书籍的枯燥和灰暗,新意盎然.匆匆翻过后,便买下了.<女士品茶>并不是一本女性读物,也不是一本专门讲茶的读物,而是一本20世纪统计发展史的科普读物,留心一下本书的副标题就可以知道这一点.为什么作者取了这么个名字?其巧妙的构思令人赞叹,原来“女士品茶”是一个统计发展史上非常有名的统计实

读书印记 - 《简单的逻辑学》

这本薄薄的小书真的很不错,深入浅出的对逻辑学做了一个简单介绍,对于我作为一个希望变得有逻辑的实践者帮助很大.这里简单摘录几条我收获最大的内容."逻辑推理的目的是找出某个事物的真相.决定命题真假的依据是现实情况,而逻辑真相是建立在本体真相的基础之上的.""逻辑学的基本原理是同一律.排中律.充足理由律.矛盾律.""逻辑上定义术语的过程分为两步:第一步,将要定义的术语放入最相近的类别当中:第二步,确定其与同类中其他事物的不同特性.""如果一个

[转] - MC、MC、MCMC简述

贝叶斯集锦(3):从MC.MC到MCMC 2013-07-31 23:03:39 #####一份草稿 贝叶斯计算基础 一.从MC.MC到MCMC 斯坦福统计学教授Persi Diaconis是一位传奇式的人物.Diaconis14岁就成了一名魔术师,为了看懂数学家Feller的概率论著作,24岁时进入大学读书.他向<科学美国人>投稿介绍他的洗牌方法,在<科学美国人>上常年开设数学游戏专栏的著名数学科普作家马丁•加德纳给他写了推荐信去哈佛大学,当时哈佛的统计学家Mosteller 正

二、数据挖掘

了解统计学 实用统计 教材 高老师 人大吴喜之老师的 <从数据到结论> 教材和资料 需要懂点统计 population 数据全集 sample 一部分数据 实际处理数据 基本为样本 statistics 统计量 <女士品茶> 统计发展史 mean 平均值 median 中位数 mode 众数 出现最多的数字 range 极差 奥卡姆剃刀定律 keep it simple stupid 原假设 怀疑主义 P值 统计显著性 0-1 <0.05 P值 越小 假设结论正确强度越好 Q

网页flv下载探索_1

最近看了一个优酷视频(非优酷网站,最终地址指向优酷),用chrome开发者工具,可找到flv地址如下,简单摘录如下: http://27.221.100.104/657D4D2878C3382C78116A3BA7/0300011D10570ECAA905BE2D9B7D2F338C9CFD-A474-20BA-9114-E91A51D93FA9.flv.ts?ts_start=200&ts_end=204&ts_seg_no=345&ts_keyframe=0 http://27

读后感 - 《丑陋的中国人》

读后感 - <丑陋的中国人> 忘记了什么时候买的这本书,最大的可能就是因为这刺眼的书名让人过目不忘就买下了吧.买回来在书架上躺的时间比较久了,前段时间看到,就拿出来读了一遍.这本书很多内容触动了很多人的神经,因为骂了太多的人,自然也招到了无数人的骂.这篇读后感只是书中内容的一些总结和反思,并不完全代表我的看法. 这是一本抨击中国文化中有毒部分的书,并赤裸裸地揭示了中国人表现出的种种丑陋行径,同时给出了一些解决的方法.这本书的书名没有加量词,诚然,不是所有的中国人都丑陋,中国当然有美的人,而西方

linux下dup/dup2函数的用法

系统调用dup和dup2能够复制文件描述符.dup返回新的文件文件描述符(没有用的文件描述符最小的编号).dup2可以让用户指定返回的文件描述符的值,如果需要,则首先接近newfd的值,他通常用来重新打开或者重定向一个文件描述符. 他的原型如下: #include <unsitd.h> int dup(int oldfd); int dup2(int oldfd,int newfd); dup 和dup2都是返回新的描述符.或者返回-1并设置 errno变量.新老描述符共享文件的偏移量(位置)

Android图片加载库的封装实战之路

前言 主流图片加载库的对比 Android-Universal-Image-Loader Picasso Glide Fresco 按需选择图片加载库 如何更好地封装图片加载库 为什么要封装 使用策略模式封装图片加载策略 源码地址 部分参考链接 前言 图片加载是Android开发中最最基础的功能,为了降低开发周期和难度,我们经常会选用一些图片加载的开源库 选取第三方SDK需要谨慎 二次封装 主流图片加载库的对比 共同点 使用简单:一句话实现图片的获取和显示 可配置性高:可配置各种解码.缓存.下载

iOS开发必读-GitHub 上Top100 的 Objective-C 项目

这篇文章是官方账号在简书推出的文章,感兴趣的请点击下面: 点我看<iOS开发必读-GitHub 上Top100 的 Objective-C 项目> 简单摘录5个项目: 1.AFNetworking 作者是 NSHipster 的博主, iOS 开发界的大神级人物, 毕业于卡内基·梅隆大学, 开源了许多牛逼的项目, 这个便是其中之一, AFNetworking 采用 NSURLConnection + NSOperation, 主要方便与服务端 API 进行数据交换, 操作简单, 功能强大, 现