PyconChina2015丁来强Pydata Ecosystem

pydata ecosystem基于python的数据分析生态系统

0.

Agenda

Data Science ecosystem

Data Wrangling

Data Analysis

Data Visualization

3 Real Case Demo

Bigger Data Consideration

Spark Data Frame Demo

1.

Data Science Process

Data Collection

Databases

Applications

3rdpart data

Data Wrangling

Enrichment

ETL/Blending

Data

Intergration

Data Analysis

insights

Statistics

Visualization

Modeling

2.

Data Wrangling

Data scientists spend 80% of their time convert data into a usable form.

Clean data:handle messy or missed data

Transform and Extract data

Merge,Join and Reshape data

Time series Resampling

3.Data Analysis

Interactive Data Exploration

Rich visualzation

Satistical Modeling

4.python vs R

TIOBE Index

5.Pros and Cons

R+visualization = perfect match

R,Lingua Franca of Statistics(develop by Statistics)

R is slow

Python is multi-purpose language

Python is challenger for either visualization or essential R packages replacement

6.PyData Ecosystem

Fundamental Libs

numpy\scipy

AdvancedLibs

pandas\sympy\Scikit-lean\xray\Blaze

7.Numpy

High performance N-Arrary operation lib

高性能多维

8.pands

打包

9.Blaze

High-level user interface for databases and array computing systems

10.Spark

11.DataFrame

12.matplotlib

13.seaborn

14.Bokeh

15.IPython

时间: 2024-08-05 07:08:26

PyconChina2015丁来强Pydata Ecosystem的相关文章

数字整除(南阳oj664)(模拟数学)

数字整除 时间限制:1000 ms  |  内存限制:65535 KB 难度:2 描述 定理:把一个至少两位的正整数的个位数字去掉,再从余下的数中减去个位数的5倍.当且仅当差是17的倍数时,原数也是17的倍数 . 例如,34是17的倍数,因为3-20=-17是17的倍数:201不是17的倍数,因为20-5=15不是17的倍数.输入一个正整数n,你的任务是判断它是否是17的倍数. 输入 输入文件最多包含10组测试数据,每个数据占一行,仅包含一个正整数n(1<=n<=10^100),表示待判断的正

nyoj 488 素数环(深搜)

素数环 时间限制:1000 ms  |  内存限制:65535 KB 难度:2 描述 有一个整数n,把从1到n的数字无重复的排列成环,且使每相邻两个数(包括首尾)的和都为素数,称为素数环. 为了简便起见,我们规定每个素数环都从1开始.例如,下图就是6的一个素数环. 输入 有多组测试数据,每组输入一个n(0<n<20),n=0表示输入结束. 输出 每组第一行输出对应的Case序号,从1开始. 如果存在满足题意叙述的素数环,从小到大输出. 否则输出No Answer. 样例输入 6 8 3 0 样

天干地支

天干地支对照表 天干 1 2 3 4 5 6 7 8 9 10 甲 乙 丙 丁 戊 己 庚 辛 壬 癸 地支 1 2 3 4 5 6 7 8 9 10 11 12 子 丑 寅 卯 辰 巳 午 未 申 酉 戌 亥 六十年甲子(干支表) 1 2 3 4 5 6 7 8 9 10 甲子 乙丑 丙寅 丁卯 戊辰 己巳 庚午 辛未 壬申 癸酉 11 12 13 14 15 16 17 18 19 20 甲戌 乙亥 丙子 丁丑 戊寅 己卯 庚辰 辛己 壬午 癸未 21 22 23 24 25 26 27 2

nyoj473 A^B Problem (快速幂)

题目473 题目信息 运行结果 本题排行 讨论区 A^B Problem 时间限制:1000 ms  |  内存限制:65535 KB 难度:2 描述 Give you two numbers a and b,how to know the a^b's the last digit number.It looks so easy,but everybody is too lazy to slove this problem,so they remit to you who is wise. 输入

nyoj473 A^B Problem (高速幂)

题目473 题目信息 执行结果 本题排行 讨论区 A^B Problem 时间限制:1000 ms  |  内存限制:65535 KB 难度:2 描写叙述 Give you two numbers a and b,how to know the a^b's the last digit number.It looks so easy,but everybody is too lazy to slove this problem,so they remit to you who is wise.

我大中华微软MVP中国区人才库(转)

出处:http://www.genshuixue.com/i-cxy/p/15349735 刘海峰:国内知名微软开源技术网站51Aspx 创始人,十年以上的asp.net从业经验,微软MSDN特约讲师.Teched讲师.ImagineCup大赛评委.人大出版社研修班特约讲师,曾多次受邀访问美国西雅图的微软总部,2009年与业内知名MVP组建易纵互联(北京)科技有限公司并任运营总监.现专注于微软Azure技术领域,在Azure平台进行功能实践和传统Web平台迁移方面有诸多实战经验.陈锐:2002-

NYOJ 题目587 blockhouses(二分图最大匹配)

blockhouses 时间限制:1000 ms  |  内存限制:65535 KB 难度:3 描述 Suppose that we have a square city with straight streets. A map of a city is a square board with n rows and n columns, each representing a street or a piece of wall. A blockhouse is a small castle th

南阳oj488--素数环(Dfs + 剪枝)

素数环 时间限制:1000 ms  |  内存限制:65535 KB 难度:2 描述 有一个整数n,把从1到n的数字无重复的排列成环,且使每相邻两个数(包括首尾)的和都为素数,称为素数环. 为了简便起见,我们规定每个素数环都从1开始.例如,下图就是6的一个素数环. 输入 有多组测试数据,每组输入一个n(0<n<20),n=0表示输入结束. 输出 每组第一行输出对应的Case序号,从1开始.如果存在满足题意叙述的素数环,从小到大输出.否则输出No Answer. 样例输入 6 8 3 0 样例输

互联网巨头的金融边界在哪里 无直接涉及P2P_

从目前看,BAT及京东在金融领域开疆拓土,几乎涉及当前互联网金融的所有领域,背后直指打通各个环节,实现闭环,为用户提供一套完整的金融解决方案.但,携用户之优势,这些互联网巨头的金融边界在哪里? 经济观察网 记者 胡群 5月18日,京东金融全新打造的股票平台"财谜"上线.次日,蚂蚁金服副总裁韩歆毅表示,蚂蚁金服将筹备上线股权众筹平台,并将其命名为"蚂蚁达客",为创业者提供股权众筹融资服务. 然而,蚂蚁金服金融事业部总经理袁雷鸣向经济观察网表示,每个公司都会有自己的边界