从事数据科学,这5本书无论如何都要读一读

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

转自 | 程序员书库(ID:OpenSourceTop)

2010 年,我在华盛顿大学(UW)写下我第一行 R 代码,我开始意识到编程比电子表格更强大。过去的 10 年里,“数据科学”这个词越来越被广泛使用,接连出现的还有大数据、商业智能、数据分析还有现在大火的人工智能等。

我的专业是“计算金融学”,金融危机在每个人的脑海中都记忆犹新,对工程师们来说,这也是十分值得重视的,如果你想要一份高薪的工作就进入金融行业,成为一名定量分析师,就像今天的数据科学一样。

如今的数据科学家经常被要求学习一系列的建模技术、方法等。诸如线性回归,很多人都在使用它,但却不知道为什么使用它,因此就会出现这么一种情况,很多新人随时都准备好部署模型,但却不了解实际情况,这些技术群体没有把重心放在解决技术盲目性上面,而是放在关于选择何种工具的争论上(R 或 Python)。

本文我将列出了一份书单,这些书可以帮助你在部署之前激发关于模型技术假设的问题,帮助你成为更加优秀的数据科学家。

01《Incerto》

这本书是纳西姆·塔勒布的作品集,他最著名的书是《黑天鹅》(我认为最好的是《反脆弱》)。塔勒布是我们这个时代最伟大的思想者之一。他也是一个推特狂魔,从他的经历来看,他曾在纽约和伦敦交易多种衍生性金融商品,后来成为数学哲学家。你要么爱他,要么恨他,因为他会在所有的写作中不断挑战你的假设。如果他写了什么,你应该马上把它列在你的阅读清单上。

02《财富公式》

这本书讲述了麻省理工学院早期诞生的凯利公式的故事,它被称之为巨大财富背后的故事。通过它你将了解信息论之父克劳德·香农以及点卡骗局的起源,后来在埃德·索普(Ed Thorpe)的《Beat the Dealer》中成名。索普现在被认为是量化对冲基金的教父。最重要的是,这本书展示了一个好的模型永远不会被忽视,但不好的模型一定会让你崩溃。这个故事是历史上第一次通过计算机科学和数学合作来解决一个现实世界的问题(恰好是为了赌博)。这个故事是数据科学产业在 60 年前诞生的一个预兆。

03《混沌学传奇》

美国最伟大的科普畅销书作家詹姆斯·格雷克的成名之作,作者深入浅出地记录了混沌现象的研究历程,写就了一部图文并茂的报告文学。由于非线性过程的原因,目前正在开发和部署的许多深度学习模型无法得到真正的理解。这本书将帮助你理解这些局限性。此外,对 Benoit Mandelbrot 个人生活和工作的全面回顾使其成为任何数据科学家都必须阅读的一本书。詹姆斯·格莱克是一位出色的作家,他的许多书籍都值得你读。

04《暗池》

本书描写了科技如何改变了股票交易市场,如今,预测模型被应用于高频交易领域,在那里,决策是以纳秒的速度做出的。这本书介绍了这个隐藏但强大的生态系统的创建过程。这个故事的奇妙之处在于,它讲述了当你知道一些代码时,就可以解决许多问题,以及让你明白创造真正的价值是做一些真正创新的事情,而不是依赖于现有的假设。有时候你必须疯狂一点才能解决一个难题。

05《The Theory That Would Not Die》

本书讲述了贝叶斯公式和贝叶斯统计的历史以及频率理论,统计的历史和对关键技术主题的回顾配上通俗易懂的语言使得本书备受欢迎,通过它你将了解历史上一些伟大人物的思想,如皮埃尔·拉普拉斯和R.A.费舍尔,以及他们的哲学如何塑造了几个世纪以来的数据处理方式。

这五本书虽然不详尽,但将有助于你处理实际工作中的难题,帮助你建立一个哲学基础,寻找更好的技术和模型,而不仅仅是机械地运用某种技术,记住我们的专业是无价的。

作者 Isaac Faber:斯坦福大学博士候选人,MatrixDS公司首席数据科学家。

原文链接:https://towardsdatascience.com/five-books-every-data-scientist-should-read-that-are-not-about-data-science-f7335fb1f84f

端午到来,希望这几本书能帮你度过一个愉快的假期~

|| 推荐阅读 ||

https://mp.weixin.qq.com/s/ZcSfzHjxEd1lnWB4nitJ5A

https://mp.weixin.qq.com/s/QrNgOuG6E6ZVk-gayociWQ

数智优质活动推介

由上海市经济和信息化委员会、上海市商务委员会、上海市长宁区人民政府指导,上海市长宁区青年联合会、亿欧公司联合主办的“ 2019全球新经济年会-产业互联网峰会”将在上海长宁举办。

本次大会邀请了慧聪集团、甲骨文、盛景网联、千方科技、找钢网、金山云等产业巨头 ,明势资本、远望资本、阿尔法公社、赛意产业基金等产业互联网一线投资人。产业互联网从业与创业者将共同参会交流产业互联网的未来,共话产业变革新机遇。

大会截止日期6月13日,感兴趣的小伙伴可“扫描下方海报二维码”或点击“阅读原文”进行活动报名和查看大会议程安排。

活动页面链接:https://www.iyiou.com/a/cyhlw_shanghai_2019/

扫描海报二维码 或 点击阅读原文

进行“活动报名”以及“查看大会议程安排

星标我,每天多一点智慧

原文地址:https://www.cnblogs.com/shuzhiwuyu/p/10985046.html

时间: 2024-08-09 21:55:01

从事数据科学,这5本书无论如何都要读一读的相关文章

敏捷数据科学:用Hadoop创建数据分析应用

敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路.工具与方法) [美]Russell Jurney(拉塞尔·朱尔尼) 著   冯文中 朱洪波 译 ISBN 978-7-121-23619-8 2014年7月出版 定价:49.00元 184页 16开 编辑推荐 对大数据的挖掘需要投入大量的人力和时间.怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用. 使用诸如Python.

Kaggle泰坦尼克数据科学解决方案

原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions 看完一遍,什么也没记住,于是干脆直接翻译一遍. 然鹅,依旧没记住什么. ---------------------------------------------------------------- p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px SimSun } p.p1 { margin:

20本机器学习与数据科学必读书籍

高校的暑假即将来临,有没有想利用这个暑假为自己充电,为未来的自己赢在起跑线上,成为人工智能界的人生赢家呢?来自 KDnuggets 的 Matthew Mayo 就提供了这份书单,小编在翻译此书单的同时,还贴心搜索了相应的中文译本,并提供了中文版的购买链接.加油吧,骚年! 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 1. <统计思维:程序员数学之

《数据科学入门》pdf格式下载免费电子书下载

<数据科学入门>pdf格式下载免费电子书下载 https://u253469.ctfile.com/fs/253469-300325729更多电子书下载: http://hadoopall.com/book 内容简介 数据科学是一个蓬勃发展.前途无限的行业,有人将数据科学家称为"21世纪头号性感职业".本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识--数学和统计学. 作者选择了功能强大.简单易学的Python语言环境,亲手搭

数据科学书籍

数据科学相关书籍 数据分析 实习的时候只会Matlab,公司小,没钱买正版,所以领导要我两星期把R学会,当时看的有这些书 1.R语言实战 评价:很好的入门书,从安装.入门.基本的统计分析,作图命令,以及常见的分类.回归.降维等方法都有写 推荐指数:五颗星 2.数据分析-R语言实战 评价:专门用R语言写的数据分析的书,掌握R的基础后可以看看,侧重数据分析的基本方法,介绍了一些常见的分析方法,比较基础. 推荐指数:四星半 3.探索性数据分析 评价:外国人写的书,但是翻译真的太烂了.而且内容其实没什么

正确地学习数据科学中的Python,小白学习Python

大多数有抱负的数据科学家是通过学习为开发人员开设的编程课程开始认识 python 的,他们也开始解决类似 leetcode 网站上的 python 编程难题.他们认为在开始使用 python 分析数据之前,必须熟悉编程概念. 资深数据分析师 Manu Jeevan 认为,这是一个巨大的错误,因为数据科学家使用 python 来对数据进行检索.清洗.可视化和构建模型,而不是开发软件应用程序.实际上,为了完成这些任务,你必须将大部分时间集中在学习 python 中的模块和库上. 请按照下面这个步骤来

高维度下的数据科学—线性空间(上)

使得集合Y的元素和集合X的元素相对应起来的规则f. 广义的概念: 电影票也是一种映射,发工资也是一种映射,男女朋友也是映射.只要有对应关系,我么就可以认为是映射.映射这个概念就是发明用来对自然界和社会上对应关系的一种抽象. 非常需要注意的是:一定要记住:映射的概念是非常广泛的一个概念,任何两种有关系的事物都可以用映射的概念进行描述,比如张三映射到高三一班,高纬度向量映射到低维度空间. 映射与线性空间的概念对于数据科学来说至关重要,因为现实世界的数据总是包含着许许多多的维度.因此线性空间这个数学工

10 天 100 小时学数据科学

#转自wx公众号:Python开发者 #问题/答案来源:Quora 英文:Roman Trusov 译文:伯乐在线专栏作者 - XiaoxiaoLi 链接:http://python.jobbole.com/85704/ [伯乐在线导读]:有位网友在 Quora 提问,并补充说「我有10天空闲时间,每天想花十个小时学习数据科学入门知识,应该学点什么呢?谢谢」伯乐在线摘编了 Roman Trusov 的回复,非常值得新手参考. 哥们我太羡慕你了,不是谁都有像你这样的机会的. 10天100小时的学习

命令行中的数据科学

目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数据科学工作 6 1.5.1 命令行的灵活性 6 1.5.2 命令行可增强 6 1.5.3 命令行可扩展 7 1.5.4 命令行可扩充 7 1.5.5 命令行无处不在 7 1.6 一个现实用例 8 1.