tidyverse 生态链

一套完整的数据分析流程 , 如下图所示

从图中可以看到,整个流程包括读取数据,整洁数据,数据探索和交流部分。经过前两部分, 我们可以得到一个整理好的数据,它的每一行都是一个样本 , 每一列是一个变量。

然后我们就可以进入最核心的数据探索部分。数据探索包括数据转换,可视化,建模三部分。数据转换的内容包括构建新的变量,选出子集,对数据进行分组并获取统计量 。进而可以通过可视化把变量或变量之间关系用图形表示出来;在对数据有大体上的认知后,可以尝试用精确的数学语言来对数据进行建模 。模型的结果会给我们一些新的洞察和知识,驱动我们去提出新的问题,构成一个反馈循环。

数据探索完成后我们要把所做的工作借助文章清晰地表达出来,从而与其他人沟通

分析汽车排放数据集

首先载入 tidyverse 包 , 并观察 mpg 数据的头部:

library(tidyverse)
mpg

可视化:ggplot

先提出一个问题 , 汽车排放量和高速路上的每公里耗油量有什么关系? 这两个变量都是数值变量,可以先用散点图的形式将它们的关系展示出来:

ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy))

绘图的核心要素:

数据 : ggplot 的数据集必须是一个数据框,这里我们的数据是 mpg
图形属性映射:将数据变量映射到图形中,我们这里使用 aes(x = displ, y = hwy) 把 x 坐标映射到排气量,y 坐标映射到每公里耗油量
几何对象 : geom 代表几何对象,比如我们这里想画散点图,就用 geom_point 来生成散点图

从这张图我们可以发现排气量与耗油成反向关系,排气量越大,耗油越少,它们的关系大致是线性的,但也有一些例外,比如左上和右上的一些点 。很容易想到,耗油量不仅与排气量有关,还与车的类型有关,我们可以尝试把车型的信息加入到图中:

ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, color = class))

可以看到排气量较大但耗油量也大的大多属于 2seater (2 个座位的跑车)这一类型,类型与耗油确实有很大关系

为了进一步地分析类型与耗油的关系,我们会想到把不同的类型的车的数据分离开来,而不是画在一张图上,我们可以使用 facet_wrap 把他们分离开来:

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_wrap(~ class)

从原来的图上我们可以看到一种强烈的线性关系,能不能拟合一条曲线并把它画到图上呢?

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  geom_smooth(mapping = aes(x = displ, y = hwy))

上面拟合所用的方法是 loess,翻译成中文就是近邻多项式回归,是一种非参数方法,所以由于几种跑车的存在,曲线右边翘了起来

曲线的阴影部分是置信区间的上下界

如果我们想拟合普通的线性回归,我们可以改变 method 参数:

ggplot(mpg , aes(x = displ, y = hwy)) + 
  geom_point() + 
  geom_smooth(method = "lm")

数据转换:dplyr

filter 是一个用于筛选行的函数,例如我们想筛出排量大于等于 5,高速路每公里耗油小于 20 的车:

mpg %>% filter(displ >=5 , hwy < 20)

得到了这些排量较大,耗油较小的车,我们想按照生产日期降序排列 , 耗油量升序排列

mpg %>% filter(displ >=5 , hwy < 20) %>% arrange(desc(year) , hwy)

这 11 个变量太多 , 我们只关心车型 , 那么可以通过 select 函数把这一个变量单独提出来

mpg %>% filter(displ >=5 , hwy < 20) %>% arrange(desc(year) , hwy) %>% select(model)

我们回到原来的 mpg 数据集,按照常识,排气管越多,排量越大,我们想生成一个新变量来看一看每根排气管的平均排气量是不是很接近

mpg %>% mutate(ave_displ= displ / cyl)  %>% select(ave_displ)

var(mpg %>% mutate(ave_displ= displ / cyl)  %>% select(ave_displ))

可以发现我们的猜想大致正确,大多数车的平均排气量都在 0.5 到 0.7 之间 , 计算出来的方差也非常小

有的时候我们不想看单个样本,而是想按照某个标准把数据分成几组,再来分别看这些组的统计特征有什么差异,那么我们可以先用 group_by 按照条件分组,再用 summarise 算出每组组内的统计特征。例如我们想看不同车型的平均排气量和平均耗油量

mpg %>% group_by(class) %>% summarise(mean(displ) , mean(hwy))

时间: 2024-10-08 15:47:41

tidyverse 生态链的相关文章

刘德:小米已投89家生态链企业 有品要做百亿电商平台(本质上是是利用了小米的大火炉的余热,但也有反向的正面作用)

小米科技联合创始人.副总裁,小米生态链负责人刘德(微博)文/腾讯科技 王潘 小米对生态链企业的投资正在接近雷军(微博)当初预期的100家目标,截至6月30日,小米已经投资了89家. 通过三年左右的布局,小米投资的多家生态链企业都在市场上有不错的表现,如小米手环和移动电源都已经成为全球销量第一的产品. 小米科技联合创始人.副总裁,小米生态链负责人刘德今日在接受腾讯科技专访时说,小米生态链之所以能做起来,本质是享受了小米的红利,小米相当于一个火炉,是有余热的,不用也许就浪费了,所以就利用到这些生态链

雷军:小米生态链企业已有77家 去年总收入达150亿(护航舰队斩获细分领域的第一)

腾讯科技讯(王潘)5月18日,中国(廊坊)国际经济贸易洽谈会暨“大智移云产业发展论坛”正式拉开帷幕,小米创始人.董事长兼CEO雷军(微博)受邀参会并发表了演讲. 雷军说,三年前,在小米手机业务取得突破以后,小米希望在未来取得更大的发展.于是启动了生态链的计划. “我们的想法是用小米模式切入100个细分领域,带动整个智能硬件的发展,把小米从一个大船变成整个舰队.这是在2014年我们过了100亿美金时提出的计划.” 在雷军透露,过去的3年里,小米投资孵化了77家企业,绝大部分是从一开始就投资的,涉及

说好的口碑开放生态链,服务商盈利模式却在掉链子

近日,支付宝口碑首次披露了餐饮.商超之外的综合生活业务的主要运营数据:"在40天时间里,支付宝口碑综合生活业务覆盖全国324个城市,吸引到近9万家本地生活服务商家入驻,日交易额突破1700万元.不管是商家入驻数,还是日交易额,还在以每月100%以上的环比增速在快速增长." 过分渲染运营成绩   压力之下远离平台初衷 从口碑披露的数据不难计算,其综合生活业务平均每个城市的日交易额峰值只有5万多元,平均每个商家日交额不足200元.对于像美容美发.结婚.摄影.亲子.KTV这类客单价较高的生活

《浪潮之巅》读书笔记——第4章 计算机工业的生态链

第4章 计算机工业的生态链  摩尔定律    Intel创始人戈登‘摩尔 1965年    集成电路集成度每18个月翻一番    推广:同样的IT产品,18个月价钱降一半    也不是严格的18个月,在附近徘徊,基本准确  安迪-比尔定律    Intel CEO 安迪+比尔盖茨    软件的更新必须消耗掉硬件的提升,使人们不断主动更新自己的硬件  反摩尔定律    google CEO 埃里克施密特    18个月后卖同样的产品,营业额下降一半,要好好应对才行 <浪潮之巅>读书笔记--第4章

HTC VIVE生态链揭晓,多款VR大作即将登陆

原文标题:HTC VIVE生态链揭晓,多款VR大作即将登陆   2017世界移动大会上海站正式的落下了帷幕,该会由全球通信标准组织于6月28日至7月1日在上海的新国际博览中心举行. 作为VR头显的重量级企业HTC Vive在展会现场也展示了其在VR生态链的最新研究成果,同时展示了Vive丰富的周边硬件,流行的IP大作,以及各种行业应用范围覆盖娱乐.教育.医疗.体育等垂直领域,为在场的上万名的观众呈现了最前端的科技成果,也为VR产业的发展指明了新的风向. "移动"是MWC的核心主题,Vi

计算机工业的生态链

1.摩尔定理 源自英特尔公司的创始人:戈登.摩尔 内容:每十八个月,计算机等IT产品的性能会翻一番:或者说相同性能的计算机等IT新产品,每十八个月价钱会降一半 2.安迪-比尔定理 由于摩尔定理的原因,如果遵循此定理,那么硬件厂商的日子可就难过了,因为人们没有新的动力去购买和更新硬件设备. 而事实情况却是人们拥有足够的动力去购买和更新硬件设备,这就是安迪-比尔定理的作用. 内容:比尔要拿走安迪所给的 安迪,即原英特尔公司CEO安迪.格鲁夫 比尔,即微软的比尔.盖茨 原理: 因为即使是同样功能的软件

乐视商城新域名价格低廉:从短域名带流量进入生态链经营

5月5日,乐视在北京召开了主题为"乐视生态"的发布会. 这个发布会继承了乐视的其他发布会特征--除了一如既往地讲述乐视生态理念之外,这个发布会也透露了其他产品消息,比如超级电视近况和超级手机预约数量等情况.除此之外,乐视还在这个发布会上公布了乐视整体业务的未来打算和下一步计划,其中最重要的举措在于乐视在这次发布会上,正式对外推出乐视"生态电商"的全新域名lemall.com. 将电商业务从此前的二级域名剥离出来独立运营,这是乐视首次将电商业务作为企业战略提上日程,也

运营或生态链没做好,APP质量再高有个鸟用(下)

上篇文章已经阐述了对于一款产品卖不卖作,其实很依赖于运营的打造和生态链的建立,这里可以解释为什么许多优秀的游戏产品功底很好,但开始并不卖作,只有碰到一家肯出力推的渠道游戏才迅速火了起来.这是不是有点像千里马遇到了伯乐,呵呵!其实道理是一样的.一款好的产品要借助渠道已经搭建的生态系统和用户群体来把产品推荐给玩家.换句话说,就是产品需要找到适合生长的生态系统才能茁壮成长. 但是对于一款有地域特色,和博彩沾边的小众类游戏,可能通用的被无数游戏产品证明的大众化渠道不一定适用于这样一款游戏.首先从产品特色

京东游戏生态链,又一个“闲子”的尴尬布局

当联想.华为乃至努比亚.魅蓝等硬件厂商们都相继抛出打造"游戏生态链"的口号后,主要在做硬件销售的京东,也抛出了自家的游戏生态链. 日前,京东游戏联手Intel.NVIDIA及网吧行业等多方,在北京举办 "竞时迭代京东游戏生态链大会",共同商讨游戏产业的发展问题,并宣布成立"京东游戏生态共建平台",推动游戏产业生态链的形成. 这样一个生态链,是否和众多游戏产业的联盟.以及生态链"前辈"一样,在开完发布会后,雷声大雨点小,成为绝唱