什么是Watson Analytics
Watson Analytics是IBM基于Watson认知技术构建的一个创新云分析平台,它为用户提供了一系列自助式的分析服务,包括数据准备、数据探索、预测、构建分析仪表盘等。Watson Analytics的一项重要特点是简单易用的基于自然语言的自助式分析,使得“人人都能做分析“,即便是不懂IT的人士。在体验这项服务时,用户只需要上传数据,点击“探索Explore”,Watson
Analytics就会分析数据,用自然语言列举出用户可能感兴趣的一系列问题。点击其中的问题,Watson Analytics会针对该问题,展现出精美的图表,和用户进行交互式的分析。然后,用户可以利用“预测Predict”功能进一步做深入分析,或者通过“组合Assemble”功能,组合一系列的分析图表进行综合分析。
最近,笔者试用了一下Watson Analytics服务,虽然目前Watson Analytics的自然语言部分还不支持中文,但Watson Analytics易用、直观的启发式自助分析服务,还是给人留下非常深刻的印象。下面就让我们一起体验一下吧。
数据准备
根据Watson Analytics社区的一篇教程,笔者使用的数据是下载自 www.happyplanetindex.org 的各国的幸福指数数据(不代表官方数据,这里纯粹作为学习使用。)目前网站的数据时间大约是2010-2012年的,很多数据是根据盖洛普Gallup等咨询公司的问卷调查统计得到的。
数据是一个简单的Excel表格,共11个字段,字段描述如上图,数据中包括各个国家的HPI(Happy Planet Index)幸福指数和排名,以及一些相关数据例如人均GDP,人口,生活水平期望指数,生态足迹(Footprint gha/capita这个指标八卦几句,指标评估人均对生态的影响,是个有趣的指标,有兴趣的同学可以在http://ecologicalfootprint.org/Global%20Footprint%20Calculator/GFPCalc.html网站计算自己的生态足迹。)
数据分析
数据准备好了,让我们开始分析吧!分析前需要在Watson Analytics上注册一个免费的试用账号,https://watson.analytics.ibmcloud.com/。注册登录后,进到欢迎页面,点击Add,然后选择Desktop,选择你的Excel数据文件,选择Upload,页面显示Transfer,完成后数据就绪了。
下面点击Explore开始分析。什么?还没有建模,还没有设计报表格式?对不起,在Watson Analytics上真的不需要。更惊喜的是,点击Explore后,Watson Analytics会分析Excel数据,并且通过自然语言处理,生成一系列你可能感兴趣的问题(英文显示,这里翻译成中文易于理解),例如:
- 各个国家的幸福年份数是多少?(What are the values of Happy Life Years by Country?)
- 各个国家目前的HPI幸福指数是多少?(What are the values of Happy Planet Index by Country?)
- 哪些国家的幸福生活期望指数和幸福指数比较高?(Which countries have high measurements for life expectancy and well-being?)
- 幸福指数和人均GDP关系大吗?(What is the relationship between Well-being and GDP/capita by Country?)
让我们首先点击第一个问题:各个国家的幸福年份数是多少?(What are the values of Happy Life Years by Country?) Watson Analytics 会自动识别我们数据中包含国家数据,通过世界地图展示 :
其中,颜色越深的部分代表这个国家幸福的年份越久。好吧,这项数据显然老牌发达国家占优势。那么撇开历史,活在当下的话,哪些国家更幸福?
点击图中的分析指标”Happy Life Years”,从下拉菜单中将指标替换“Happy Planet Index”,图形发生了变化,现在显示的是当下的各个国家的幸福指数:
嗯,显然金砖四国为首的发展中国家当下更幸福。
下面我们想找出那些对幸福生活标准期望高而且现实也确实生活幸福(梦想成真)的国家,回到开始的界面,点击另一个问题:哪些国家的幸福生活期望指数和幸福指数都比较高?(Which countries have high measurements for life expectancy and well-being?) 我们得到了下图:
这里纵轴代表幸福感(Well-being),横轴代表对幸福生活的期望(Life Expectancy),因此越靠近右上角的国家在两个指标上都越高,越接近梦想成真了。这里有丹麦(Denmark),加拿大(Canada),哥斯达黎加(Costa Rica)…
慢着,为什么气泡有大有小?原来图里还有一个玄机,这里气泡大小代表了另一个指标:生态足迹(Footprint),气泡越大代表人均生态足迹越高,即对环境影响越大。光幸福还不够,幸福不能以破坏自然环境为代价,保持可持续发展,才能持续幸福。比较一下右上限的气泡大小,我们发现哥斯达黎加实在是人类楷模,不仅幸福指数高,而且那个气泡比起丹麦,加拿大小了几圈呢,说明人家对生态环境的影响还要小,给个大拇指吧!
说到幸福感(Well-being),脑中不由浮起了那首歌“幸福在哪里?”,那么幸福感和哪些因素有关呢?是财富吗?让我们点开这个问题:幸福指数和人均GDP关系大吗?(What is the relationship between Well-being and GDP/capita by Country?),出现了下图:
这里纵轴代表人均GDP,越靠上越高,横轴代表幸福感(Well-being),越靠右越幸福。先看看右上角,丹麦,芬兰,奥地利,比利时,还有加拿大,澳大利亚,这些国家不但富有而且幸福指数高。那么难道真的没钱就没幸福,还不给人穷着乐了?请看回右下角,哥斯达黎加,巴西,阿根廷这些国家,虽说人均GDP只有15K左右,离右上角那些国家的40K人均GDP差了一倍多,但是幸福指数却差距不大。看来幸福指数并不由人均GDP决定,钱确实不是万能的。
那么到底什么才是幸福感的主要因素呢?
这里我们就需要用到Watson Analytics中的预测(Predict)功能了,回忆一下我们的数据,在Excel的每一行数据中都含有幸福指数,以及相关的人均GDP,人口数量,人均生态足迹等数据,我们可以建立一个预测模型,看看哪些相关变量对幸福指数影响最大。点击预测(Predict)功能,把上述指标放进要预测的列表,然后开始预测,我们得到下图:
这张图对关联指标进行了各种组合(纵轴的Sub Region),并分析了它们对幸福指数(横轴)的影响。我们发现第一组指标对幸福感的影响是最强的。那么第一组中都有哪些因素?我们点击最上面的横条,具体来分析它:
在这张图中,我们有了答案。图中的标题显示,原来对幸福指数贡献最大的是生态足迹(Footprint)和幸福的年数(Happy Life Years),可信度是81%。图中横轴是生态足迹(Footprint),纵轴是幸福的年数(Happy Life Years),颜色越深代表幸福指数越高。对比这两个指标,又以纵轴幸福的年数(Happy Life Years)影响更大,就是说幸福的年数越多,则继续幸福的可能性越大。为什么?难道幸福是可以遗传的?非也,笔者的结论是只有每一代人都努力减少生态足迹,减少对环境的破坏,保持长期可持续发展,才能造福子孙后代,世代幸福。你赞同吗?
如果对这个结论背后的算法感兴趣,可以切换一下视图,下图中Watson Analytics会告诉你它用的算法,由于我们需要分析的幸福指数是一个连续变量,Watson Analytics自动使用了线性回归(Liner Regression)算法,建立了一个多阶方程式来计算相关变量如人均GDP,生态足迹等因素与幸福指数之间的关系,并选择了其中关联性最紧密的组合。当然,这都是图形背后的故事,Watson Analytics的强大之处在于分析人员根本不需要关注复杂的模型和算法,一切都已经自动化,用户需要关注的只是分析结果和它的含义。
怎么样?通过本次对Watson Analytics分析服务的体验,是不是对分析过程的易用性和基于自然语言的智能化引导印象深刻?通过Watson Analytics,只要有数据,点点按钮,每个人都可以进行数据分析,而且并不需要关注高深的模型和算法。实际上,“看图讲故事”,透过精致的图表,分析后面的业务含义,才是分析员真正的关注点,这不正是分析师们期待已久的下一代自助式分析吗?
另外,本次体验只使用了Watson Analytics基本的数据探索(Explore)和预测(Predict)服务,可以说只使用了Watson Analytics丰富服务的冰山一角。Watson Analytics上还提供了对数据的加工(Refine)服务,对各种分析结果进行综合的组合(Assemble)服务,甚至可以让Watson根据分析结果生成令人信服的故事。Watson Analytics还可以结合IBM Bluemix公有云上的服务一起使用,例如使用Bluemix的DashDB存储更复杂更大量的数据源进行分析;进行社交数据、天气数据、物联网数据的分析等。目前,各行业的分析人员正在使用Watson
Analytics构建自己的创新分析应用。在Watson Analytics的社区中,有些有趣的案例令人脑洞打开,例如用到Watson Analytics来挑选球员,构建自己攻守兼备的最佳阵型https://community.watsonanalytics.com/dream-el-salvador-soccer-team/;
另一个案例则分析读个本科学历对个人工作收入、工作时间的影响:
https://community.watsonanalytics.com/what-will-a-graduate-degree-give-me-exploring-the-american-time-use-survey-data-set/
笔者还有同事上传自己的每月开销来进行分析
有了数据,有了Watson Analytics,分析如此简单,人人都能成为数据分析师。不多说了,祝您圣诞快乐,一起为中国的幸福指数加分吧!