在数据科学领域有成千上万的包和数以百计的函数公式,你虽然不需要掌握所有的这些知识,但是有一个速查表在你的学习中是非常重要的。学习大数据包括对统计学、数学、编程知识(尤其是R、python、SQL)等知识的理解,还需要理解业务来驱动决策。这些表单也许能给你一些帮助。
Python的速查表
Python在初学者中非常受欢迎,同样足以支持那些最受欢迎的产品和应用程序,它的设计让你在编程的时候感觉同用英语写作一样自然,Python basics 或者Python Debugger的速查表覆盖了重要的语法,
Python 2.7 Quick Reference Sheet
Python Cheat Sheet by DaveChild
NumPy / SciPy / Pandas Cheat Sheet
Python 2.4 Quick Reference Card
Python Language & Syntax Cheat Sheet
R的速查表
R的生态系统一直在扩大,大量的引用是必需的。R的速查表覆盖了大部分的R知识,Rstudio也发表了一些速查表让R学起来更简单。当你要展示结果的时候,用ggplot2来进行数据可视化可能是不错的选择。
R functions for Regression Analysis
R functions for Time series Analysis
R Reference Card for Data Mining
Data Analysis the data.table way
Interactive Web Apps cheatsheet by R studio
Data Visualisation with ggplot2 cheatsheet by R studio
Package Development with devtools cheatsheet by R studio
R Cheatsheet for graphical parameters
MySQL & SQL速查表
对一个数据分析师来说,SQL基础是非常重要的。PIG和 Hive Query语言和SQL一样都是普通的结构化语言。SQL的速查表提供了5分钟的快速阅读,之后你就可以进入Hive & MySQL!
MySQL Cheatsheet by Dave child
Spark速查表
Apache Spark是一个用于大规模数据处理的引擎,对于某些应用程序,比如机器学习,Spark会比Hadoop MapReduce快100倍。Apache Spark的速查表解释了大数据的生态系统,并说明常用的行为和操作。
https://dzone.com/refcardz/apache-spark
Scala from DZone Reference Card
Essential Apache Spark cheatsheet by MapR
Hadoop & Hive的速查表
Hadoop是一种传统的工具,提供开源软件框架开源并行处理大量的数据。
Getting Started Apache Hadoop Reference Card
Hadoop Command Line cheatsheet
Working with HDFS from the command line - Hadoop Cheat sheet
Machine learning速查表
我们经常会花很多时间思考用哪种算法,这些速查表给出了关于你的数据和你需要解决的问题,然后提出你可以尝试的算法。
Choosing the right estimator Machine Learning cheatsheet
Patterns for Predictive learning cheatsheet
Machine learning algorithm cheat sheet for Microsoft Azure
Machine Learning cheatsheet Github 1
Machine Learning cheatsheet Github 2
Machine Learning which algorithm performs best?
Cheat sheet 10 machine learning algorithms R commands
Patterns for Predictive Analytics
Django速查表
Django是一个免费和开源的web应用程序框架,用Python编写的。
如果你刚入门Django,通过这些速查表你快速了解到概念,进入更深层次。
Django Quick start guide & Cheatsheet