数据科学

作者:Vamei 出处:http://www.cnblogs.com/vamei
欢迎转载,也请保留这段声明。谢谢!

数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理,从数据中提取信息,进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融、医学、自动驾驶等领域得到广泛使用。(如果你熟知中情局的棱镜泄密事件,你会发现数据科学已经在情报领域广泛使用。)

在这系列文章中,我希望能完成从概率论,统计,到机器学习的整个数据分析的链条。传统意义上的数据处理是用统计方法实现的,而概率论是统计的基础。随着计算机处理能力的增强,一些需要大量运算的数据分析方法得到快速发展。机器学习实际上是一个混合体,包括一些在计算机领域中发展的算法,也包括一些传统统计中已经存在,但受限于计算能力的统计方法。另一方面,从数据中提炼知识是机器学习的主要目的,这与统计推断密切相关。因此,从传统的概率和统计出发,更容易理解机器学习的内涵。

当然,这样做的困难之处是要覆盖许多内容。严格的叙述有时会显得比较无聊。我会尽力引入实用的编程例子,以便能形成更好的触觉。编程工具会以Python语言为主,配以第三方的包,如NumpyScipyMatplotlibscikit-learn。统计和机器学习同样可以在其他语言中实现,比如Matlab和R语言。如果你熟悉相应的工具,不难写出类似功能的代码。

概率论


计数

概率公理

条件概率

随机变量

离散分布

连续分布

联合分布

随机变量的函数

期望

方差与标准差

协方差与相关系数

矩与矩生成函数

中心极限定律

数学与编程:“概率论”总结

统计基础


统计Go,
Go, Go

数据描述

参数估计

区间估计

假设检验

线性回归

ANOVA

无参估计

贝叶斯方法

多变量数据


线性代数基础

PCA分析

时序分析


信号与频谱

机器学习


监督学习

无监督学习

绘图工具


1) matplotlib:

matplotlib简介

matplotlib
Basemap简介

matplotlib核心剖析

参考书籍


豆列

数据科学,布布扣,bubuko.com

时间: 2024-10-02 21:39:12

数据科学的相关文章

Data Science(什么是数据科学)

科学上网时看到的有关于Data Science的理解,感觉挺好的,就翻一下. Data science is about understanding systems, whether they be natural systems such as climate, or man-made systems like the economy. (数据科学可以称之为理解系统,无论这个系统是自然系统,例如天气系统,或者人造的生态环境系统). Scientists have been conducting

数据科学入门

目录 前言 第1章导论1 1.1数据的威力1 1.2什么是数据科学1 1.3激励假设:DataSciencester2 1.3.1寻找关键联系人3 1.3.2你可能知道的数据科学家5 1.3.3工资与工作年限8 1.3.4付费账户10 1.3.5兴趣主题11 1.4展望12 第2章Python速成13 2.1基础内容13 2.1.1Python获取13 2.1.2Python之禅14 2.1.3空白形式14 2.1.4模块15 2.1.5算法16 2.1.6函数16 2.1.7字符串17 2.1

高维度下的数据科学—线性空间(上)

使得集合Y的元素和集合X的元素相对应起来的规则f. 广义的概念: 电影票也是一种映射,发工资也是一种映射,男女朋友也是映射.只要有对应关系,我么就可以认为是映射.映射这个概念就是发明用来对自然界和社会上对应关系的一种抽象. 非常需要注意的是:一定要记住:映射的概念是非常广泛的一个概念,任何两种有关系的事物都可以用映射的概念进行描述,比如张三映射到高三一班,高纬度向量映射到低维度空间. 映射与线性空间的概念对于数据科学来说至关重要,因为现实世界的数据总是包含着许许多多的维度.因此线性空间这个数学工

10 天 100 小时学数据科学

#转自wx公众号:Python开发者 #问题/答案来源:Quora 英文:Roman Trusov 译文:伯乐在线专栏作者 - XiaoxiaoLi 链接:http://python.jobbole.com/85704/ [伯乐在线导读]:有位网友在 Quora 提问,并补充说「我有10天空闲时间,每天想花十个小时学习数据科学入门知识,应该学点什么呢?谢谢」伯乐在线摘编了 Roman Trusov 的回复,非常值得新手参考. 哥们我太羡慕你了,不是谁都有像你这样的机会的. 10天100小时的学习

命令行中的数据科学

目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数据科学工作 6 1.5.1 命令行的灵活性 6 1.5.2 命令行可增强 6 1.5.3 命令行可扩展 7 1.5.4 命令行可扩充 7 1.5.5 命令行无处不在 7 1.6 一个现实用例 8 1.

数据科学实战手册(R+Python)书中引用资料网址

本文会持续将<数据科学实战手册(R+Python)>一书中的附带参考资料网址手打出来, 方便访问. 由于书中的参考资料网址太多, 这个文档将可能花费一段时间才能完成. 第一章 P7  Rstdio (http://www.rstdio.com/) 参考Gettinng Started with R文章: http://support.rstdio.com/hc/en-us/articles/201141096-Getting-Started-With-R 访问RStdio的主页: http:/

[数据科学] 从text, json文件中提取数据

文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取. #-*- coding: utf-8 -*- fpath = "data/textfile.txt" f = open(fpath, 'r') ## 按照字符读取字符 first_char = f.read(1) print "first char: ", first_char ## 改变文件对象的位置, 位置是按照bytesize计算的 ## 如果不把位置

云计算与数据科学:Microsoft Azure 机器学习与R 简介

通过易于使用的强大的基于云技术的数据处理与机器学习工具,微软Azure机器学习平台 (Azure ML)极大地简化了机器学习模型的开发和部署. O'Reilly 发布的技术文档 < Data Science in the Cloud with Microsoft Azure Machine Learning and R >介绍了基于Microsoft Azure 机器学子平台 数据操作.建模.模型评估等方面的内容. 该文档利用 R 语言深入探讨了Azure机器学习平台.(另一篇使用 Pytho

哪些数据科学技能是雇主所需要的

这是一个好消息,如果你希望在2016年找一份数据科学的工作-在该领域职位空缺的数量正在不断增加,企业希望利用大数据来获得竞争优势.但事实上,找一份梦寐以求的数据科学工作就意味着你要具备一些技能的组合,你可能会惊讶学习哪些技能是雇主所最需要的. 最近,人们在CrowdFlower上针对Linkedin的3490个数据科学职位做了分析,并对最常出现的21个技能进行了排序.有些结果并不那么令人惊讶-SQL排在最前,而其它的结果可能是数据科学领域不断发展的领先指标. 如上所述,SQL是最常见的技能,在L

瑞柏匡丞:数据科学可视化之要途

大数据的概念越来越多的被人们提及的今天,数据可视化也同样被提上了日程. 可视化已经成为了解数据的最佳方式(或唯一的方法),而且如果我们不可视化的话,我们就会落伍. 人们使用计算机创建图形图表,可视化提取出来的数据,将数据的各种属性和变量呈现出来.随着计算机硬件的 发展,人们创建更复杂规模更大的数字模型,发展了数据采集设备和数据保存设备.同理也需要更高级的计算机图形学技术及方法来创建这些规模庞大的数据集.随 着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,以及增加了诸如实时动态效果.用