约翰霍普金斯大学数据科学系列课程——导论

这几个月我以斯坦福大学Andrew Ng(中文译作吴恩达,他也是Coursera网站的创始人)的机器学习讲义为参考,在CSDN博客上写了一些机器学习和数据挖掘相关的总结笔记(还有独立成分分析和强化学习两章没有完成),通过学习和总结,对以前学过的统计学和数据挖掘等有了一些新的认识(很多公式最好自己去推导,这样能够真正的加深认识、记忆深刻)。但在学习时,也感觉自己主要有两大不足:1、理论不够扎实。如在前几天总结贝叶斯机器学习的相关概念,才发现自己根本没吃透贝叶斯学派的本质思想,而仅仅是知道个贝叶斯公式而已;2、缺乏实际应用的经验。在面对实际问题,设计具体方案时就会纠结于各种方法的选择,数据挖掘不仅是理论科学,更是一种经验科学。

前几天在著名的免费公开课网站Coursera新出炉了一系列的专项课程,其中有一门就是约翰霍普金斯大学布隆伯格公共卫生学院开设的数据科学(Data
Science)系列课程。惊叹老外将全世界最好的教育无私分享给大家之余,更加不解为何国内很多专家教授连讲座的PPT都不肯与学员分享(相信大家都有听过讲座后索要PPT被拒的经历)。

既然有这么好的课程,希望能够通过对课程的学习,提高自己的能力,弥补不足,下面我就根据该课程的官网,将这门课的目的和内容进行一个简要的介绍:

一、  您将学到什么?

(1)制定与研究背景相关的问题和假设,以驱动数据科学的研究;

(2)识别、获取以及转换数据,形成统计学证据,使其适合书面交流;

(3)基于新的数据类型、实验设计和统计推断建立模型。

二、  课程内容

这个系列课程以R语言为工具,共分为9个部分:

(1)   数据科学家的工具箱(The Data Scientists’Toolbox)

(2)   R语言编程(R Programming)

(3)   获取和清理数据(Getting and CleaningData)

(4)   探索性数据分析(Exploratory DataAnalysis)

(5)   可重复性研究(Reproducible Research)

(6)   推断统计(Statistical Inference)

(7)   回归模型(Regression Models)

(8)   实用机器学习(Practical MachineLearning)

(9)   开发数据产品(Developing DataProducts)

三、  总体要求

上图是课程讲义给出的数据科学需要具备的能力,可以看出:成为一个数据需要同时计算机技能、数理统计知识以及专业能力。

最后再附上一个成为一个数据科学家的成长路线图,下图并不属于这个课程的讲义,但是给出了一个数据科学家需要掌握的具体知识和技能。从这个图可以看出,成为一个数据科学家,路漫漫其修远兮。

既然希望进步,就需要坚持,我会以这个课程为基础,坚持学习,坚持记录。

时间: 2024-10-13 10:25:23

约翰霍普金斯大学数据科学系列课程——导论的相关文章

约翰霍普金斯大学数据科学系列课程——R语言:数据类型

1.原子对象 R语言有5类最基本的原子对象: 1)  字符型character 字符型对象用" "包括. 2)  数值型numeric(real numbers) 数字对象在R中默认为数值型(numeric),如果你需要指定一个数据为整数型,需要在改数字后加上L.如:数字123默认为numeric型,如果需要其为integer型,可表示为123L. 3)  整数型integer 4)  复数型complex 复数的实部用实数表示,虚部用实数+i表示.如:3+2i,2+1i等. 5) 

约翰霍普金斯大学数据科学系列课程——R语言:提取子集

在R语言中,有下面三种操作符可以提取对象的子集: ? "["通常返回的对象与原对象的类型相同:它也可以返回一个对象中的多个元素 ? "[["用来从列表(list)或数据框(data.frame)中提取对象:也可从列表或数据框中提取单个元素,且返回对象的类型可以不为列表和数据框. ? "$"可以通过名称从列表和数据框中提取元素:如果仅从抽取元素的角度来看,和"[["没有区别 (1) 向量 向量可以使用"[]"

约翰·霍普金斯大学

约翰·霍普金斯大学(The Johns Hopkins University),简称Hopkins或JHU,成立于1876年,是一所世界顶级的著名私立大学,美国第一所研究型大学,也是北美顶尖大学学术联盟美国大学协会(AAU)的14所创始校之一.美国国家科学基金会连续33年将该校列为全美科研经费开支最高的大学.截止目前,学校的教员与职工共有36人获得过诺贝尔奖(世界第17)[1].2015-16年<美国新闻与世界报道>世界大学排名将其列为世界第12,美国第10:2016年英国<泰晤士报&g

数据科学002Coursera课程Algorithmic Toolbox 第二周总结

为什么学习算法 简单编程问题 可以进行线性扫描 无法做到更好 程序是否工作很显而易见 算法问题 不清楚如何做 简单方法往往效率很低 有优化空间 人工智能问题很难描述清楚 而本课主要研究的是算法问题 明确且清晰描述的算法问题 很难高效执行的算法问题 从问题描述到提出算法,直观算法往往很低效.因此才需要研究算法. 斐波那契数列 0, 1, 1, 2, 3, 5, 8, 13, 21 ,34,- 最早是为了研究兔子繁殖提出的模型 定义很简单: 给出输入n,求序列为n的斐波那契数列元素作为输出,直观算法

20本机器学习与数据科学必读书籍

高校的暑假即将来临,有没有想利用这个暑假为自己充电,为未来的自己赢在起跑线上,成为人工智能界的人生赢家呢?来自 KDnuggets 的 Matthew Mayo 就提供了这份书单,小编在翻译此书单的同时,还贴心搜索了相应的中文译本,并提供了中文版的购买链接.加油吧,骚年! 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 1. <统计思维:程序员数学之

数据科学行业已被挤爆?4点建议献给准备入行的小白

数据科学家被称为"21世纪最性感的职业",也被认为是最容易找工作的职业,但如今,真实情况如何呢? 数据科学刚刚度过了它的黄金五年.自2012年以来,这个行业发展迅速.它几乎完整经历了Gartner技术成熟度曲线的每个阶段. 度过了初期使用阶段.有关AI和偏见的负面新闻.Facebook等公司的第二三轮风投.现在的数据科学正处于高增长使用阶段:即使是银行.医疗保健公司和落后市场五年的其他100强企业,也在招聘机器学习中的数据科学岗位. 但现实正在发生巨大的变化. 来自captech基金的

数据科学入门

目录 前言 第1章导论1 1.1数据的威力1 1.2什么是数据科学1 1.3激励假设:DataSciencester2 1.3.1寻找关键联系人3 1.3.2你可能知道的数据科学家5 1.3.3工资与工作年限8 1.3.4付费账户10 1.3.5兴趣主题11 1.4展望12 第2章Python速成13 2.1基础内容13 2.1.1Python获取13 2.1.2Python之禅14 2.1.3空白形式14 2.1.4模块15 2.1.5算法16 2.1.6函数16 2.1.7字符串17 2.1

Kaggle泰坦尼克数据科学解决方案

原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions 看完一遍,什么也没记住,于是干脆直接翻译一遍. 然鹅,依旧没记住什么. ---------------------------------------------------------------- p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px SimSun } p.p1 { margin:

百度推荐~『办理圣安德鲁斯大学毕业证』原件一模一样证书

办理圣安德鲁斯大学毕业证 [微/Q:9798 3838--WeChat:9798 3838][帖子永久有效,看不到请点击百度快照]联系人Allen[办理毕业证,成绩单,学历认证.文凭.学位证.成绩单等]代办国外(海外)澳洲美国 加拿大 韩国 美国 新西兰 等各大学毕业证,修改成绩单分 数,学历认证,文凭,diploma,degree [删除请点击百度快照]真实认证.海外回囯的同学定制毕业证.真实认证.毕业证.学位证书.使馆公证.囯外真实学位认证.使馆留学回囯人员证明.录取通知书.Offer.在读