这几个月我以斯坦福大学Andrew Ng(中文译作吴恩达,他也是Coursera网站的创始人)的机器学习讲义为参考,在CSDN博客上写了一些机器学习和数据挖掘相关的总结笔记(还有独立成分分析和强化学习两章没有完成),通过学习和总结,对以前学过的统计学和数据挖掘等有了一些新的认识(很多公式最好自己去推导,这样能够真正的加深认识、记忆深刻)。但在学习时,也感觉自己主要有两大不足:1、理论不够扎实。如在前几天总结贝叶斯机器学习的相关概念,才发现自己根本没吃透贝叶斯学派的本质思想,而仅仅是知道个贝叶斯公式而已;2、缺乏实际应用的经验。在面对实际问题,设计具体方案时就会纠结于各种方法的选择,数据挖掘不仅是理论科学,更是一种经验科学。
前几天在著名的免费公开课网站Coursera新出炉了一系列的专项课程,其中有一门就是约翰霍普金斯大学布隆伯格公共卫生学院开设的数据科学(Data
Science)系列课程。惊叹老外将全世界最好的教育无私分享给大家之余,更加不解为何国内很多专家教授连讲座的PPT都不肯与学员分享(相信大家都有听过讲座后索要PPT被拒的经历)。
既然有这么好的课程,希望能够通过对课程的学习,提高自己的能力,弥补不足,下面我就根据该课程的官网,将这门课的目的和内容进行一个简要的介绍:
一、 您将学到什么?
(1)制定与研究背景相关的问题和假设,以驱动数据科学的研究;
(2)识别、获取以及转换数据,形成统计学证据,使其适合书面交流;
(3)基于新的数据类型、实验设计和统计推断建立模型。
二、 课程内容
这个系列课程以R语言为工具,共分为9个部分:
(1) 数据科学家的工具箱(The Data Scientists’Toolbox)
(2) R语言编程(R Programming)
(3) 获取和清理数据(Getting and CleaningData)
(4) 探索性数据分析(Exploratory DataAnalysis)
(5) 可重复性研究(Reproducible Research)
(6) 推断统计(Statistical Inference)
(7) 回归模型(Regression Models)
(8) 实用机器学习(Practical MachineLearning)
(9) 开发数据产品(Developing DataProducts)
三、 总体要求
上图是课程讲义给出的数据科学需要具备的能力,可以看出:成为一个数据需要同时计算机技能、数理统计知识以及专业能力。
最后再附上一个成为一个数据科学家的成长路线图,下图并不属于这个课程的讲义,但是给出了一个数据科学家需要掌握的具体知识和技能。从这个图可以看出,成为一个数据科学家,路漫漫其修远兮。
既然希望进步,就需要坚持,我会以这个课程为基础,坚持学习,坚持记录。