再聪明,你也会常犯的数据分析错误  

如果你不了解大数据,你就不会明白大数据的核心价值有多大。当然你不光要了解大数据,还要学会科学的数据分析方法,才能让大数据产生价值。而在数据分析过程中,聪明的数据分析师也会常犯些错误,纽带线CRM小编跟大家分享这些常犯的错误,在以后应用过程中尽量避免。

错把相关性当成因果性  correlation vs. causation

经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了。这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活、学习、工作中,时不时的就会有人犯这样的错误。

举个栗子:

数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。

根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。

-- 声明:非科比粉,路人偏黑。

幸存者偏差 survivorship bias

数据分析中看到的样本是“幸存了某些经历”才被观察到的,进而导致结论不正确。

比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性/因果性真是限魂不散。

再比如 Uber 发现新用户有10块钱优惠券,但是平均评价却只有3星。相反,第二次再用的时候没有优惠券了,评价却高达4星半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。

样本跟整体存在着本质的不同

以知乎为例,会有种错觉人人年薪百万,985/211起,各种GFSBFM,天朝收入水平直逼湾区码工。然而一方面这是幸存者偏差,知乎大V们的发声更容易被看到(看,幸存者偏差也是阴魂不散)。另一方面,不要小瞧知乎跟天朝网民的差别,以及天朝网民跟天朝老百姓的差别--样本跟整体的差别。

类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。

过于追逐统计上的显著性 statistical significance

统计101告诉我们,要比较两组数是否不同,最基本的一点可以看它们的区别是不是统计上显著。

比如 Linkedin 又要改版了(我为什么要说又呢),有两个版本 A 和 B. 灰度测试发现,跟现有版本比起来,A 的日活比现有版本高20%,但是统计不显著。而 B 的日活跟现有版本虽然只高了3%,但是统计显著。于是 PM 拿出统计101翻到第二页说,来,咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 A 的数据吧(具体分析略过一万字)。

很显然,这个例子也是我瞎扯的。

不做数据可视化,以及更可怕的:做出错误或者带误导性的数据可视化

在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。

(一下步就是要编排一个 twitter 的例子了23333,因为数据分析表明,有 twitter 公司这样的例子读起来会更有趣)

数据分析提供的结果和建议不具有可行性

twitter通过分析文本数据发现。。。

算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵。。。

不做数据分析

别笑,据以前的校内后来的人人现在不知道叫什么的 PM 说,这是真的。

再聪明,你也会常犯的数据分析错误

时间: 2024-10-07 15:34:39

再聪明,你也会常犯的数据分析错误  的相关文章

Python程序员最常犯的十个错误

不管是在学习还是工作过程中,人都会犯错.虽然Python的语法简单.灵活,但也一样存在一些不小的坑,一不小心,初学者和资深Python程序员都有可能会栽跟头.本文是Toptal网站的程序员梳理的10大常见错误,非常有参考意义.大家在开发过程中需要格外注意.译文中如有理解错误的地方,可以在网站留言或通过微信公众号编程派回复. 常见错误1:错误地将表达式作为函数的默认参数 在Python中,我们可以为函数的某个参数设置默认值,使该参数成为可选参数.虽然这是一个很好的语言特性,但是当默认值是可变类型时

Verilog与SystemVerilog编程陷阱:如何避免101个常犯的编码错误

这篇是计算机类的优质预售推荐>>>><Verilog与SystemVerilog编程陷阱:如何避免101个常犯的编码错误> 编辑推荐 纠错式学习,从"陷阱"中学习编程,加深对语言本身的理解. 逆向式学习,从错误中学习避免错误的方法,让读者写出更好的代码. 案例式学习,将101个"陷阱"分类汇编,以针对性案例引导读者掌握编程要点. 译者序 译者序 随着电子设计自动化(Electronic Design Automation,EDA)

Java开发者常犯的十个错误

翻译自:Top 10 Mistakes Java Developers Make 文章列出了Java开发者最常犯的是个错误. 1.将数组转换为ArrayList 为了将数组转换为ArrayList,开发者经常会这样做: List<String> list = Arrays.asList(arr); Arrays.asList()会返回一个ArrayList,但这个ArrayList是Arrays的私有静态类,不是java.util.ArrayList.java.util.Arrays.Arra

女性求职常犯错误你中枪了吗?

在郴州找工作的求职群中,女性也占据了主要地位.但是,女性在这个社会上貌似不是那么好找工作.在女性的观念里,她们往往很容易地认为她们的成就和技术不如男人,她们常常没有足够的信心来相信和认知自己的能力,小编身边有女性朋友也存在着一些对性别求职的错误理解.如果你是女性,你在求职时是否也犯了以下这些常见的错误? 一.不相信自己是优秀的 这个是女性最常犯的一个错误认知,以前遇到过一个在餐厅做服务员的女士,她用自己的劳动养活了自己以及他的家庭,但是当我问她,你是否觉得自己是个职场女性,她连忙否决,觉得自己只

Spring常犯的十大错误,你踩过吗?

1.错误一:太过关注底层 我们正在解决这个常见错误,是因为 "非我所创" 综合症在软件开发领域很是常见.症状包括经常重写一些常见的代码,很多开发人员都有这种症状. 虽然理解特定库的内部结构及其实现,在很大程度上是好的并且很有必要的(也可以是一个很好的学习过程),但作为软件工程师,不断地处理相同的底层实现细节对个人的开发生涯是有害的. 像 Spring 这种抽象框架的存在是有原因的,它将你从重复地手工劳作中解放出来,并允许你专注于更高层次的细节 -- 领域对象和业务逻辑. 因此,接受抽象

【小编亲历】10个新手UI设计师常犯错误,小编已中招,你呢?

以下内容由Mockplus团队翻译整理,仅供学习交流,Mockplus是更快更简单的原型设计工具. 新手入坑,难免会做蠢事,犯错误.当初,作为UI设计新手菜鸟的小编, 也没少犯错误,走弯路.所以,小编这里为大家分享10个当初常犯的设计错误,希望能够帮助刚入行的小伙伴们尽量少走一些弯路. 接下来我们就一起看看都有哪些坑吧: 1.从未归类整理设计文件和资料 事实上,在最初开始UI设计阶段,小编根本就不知道:设计相关文件资料是需要从一开始就打包分类整理,以确保其他团队成员能够随时查看和取用. 而且重点

职业经理人常犯的11种错误-余世维

★课程提纲 ——通过本课程,您能学到什么? 第一讲 拒绝承担个人责任 1. 引言 2.          有效的管理者,为事情的结果负责 3.          “努力的表现”与“不停的辩解” 4.          观察你自己,别光是观察市场/管区/办公室/人手 第二讲 未能启发工作人员 1.          引言 2.          离开办公室一天,不会引发混乱 3.          主管需要“少不了他们”的感觉 4.          未能自己训练员工,提升其绩效 5.     

C# 程序员最常犯的 10 个错误

关于C# C#是达成微软公共语言运行库(CLR)的少数语言中的一种.达成CLR的语言可以受益于其带来的特性,如跨语言集成.异常处理.安全性增强.部件组合的简易模型以及调试和分析服务.作为现代的CLR语言,C#是应用最为广泛的,其应用场景针对Windows桌面.移动手机以及服务器环境等复杂.专业的开发项目. C#是种面向对象的强类型语言.C#在编译和运行时都有的强类型检查,使在大多数典型的编程错误能够被尽早地发现,而且位置定位相当精准.相比于那些不拘泥类型,在违规操作很久后才报出可追踪到莫名其妙错

销售人员常犯的九项错误

1.忘了自己的微笑 2.争辩 3.离客户太近,过于热情 4.轻易地作出了让步 5.忽略了客户正真的需求 6.轻易地给客户下结论 7.忽略了老客户 8.过于专业 9.轻易地承诺 1.忘了自己的微笑 销售人员走南闯北,有时是刮风下雨.有时天寒地冻.有时烈日炎炎,还有一些人为的因素,不可避免地会带有一些情绪,与客户见面的时候,忘了自己的微笑.心里学上讲,人与人之间的交往,前10秒钟最关键,10秒中决定对方以何种态度跟你接触,微笑是上天赐给我们重要的肢体语言,如果一开始你的肢体语言给对方的印象是:"其实