python数据转换工具Into

转:http://python.jobbole.com/81564/

再次介绍Into包:整洁地数据迁移

2015/03/12 ·  基础知识 ·  into数据迁移

分享到:3

本文由 伯乐在线 - xianhu 翻译,toolate 校稿。未经许可,禁止转载!
英文出处:matthewrocklin。欢迎加入翻译组

动机

我们花费大量的时间将数据从普通的交换格式(比如CSV),迁移到像数组、数据库或者二进制存储等高效的计算格式。更糟糕的是,许多人没有将数据迁移到高效的格式,因为他们不知道怎么(或者不能)为他们的工具管理特定的迁移方法。

你所选择的数据格式很重要,它会强烈地影响程序性能(经验规律表明会有10倍的差距),以及那些轻易使用和理解你数据的人。

当提倡Blaze项目时,我经常说:“Blaze能帮助你查询各种格式的数据。”这实际上是假设你能够将数据转换成指定的格式。

进入into项目

into函数能在各种数据格式之间高效的迁移数据。这里的数据格式既包括内存中的数据结构,比如:

列表、集合、元组、迭代器、numpy中的ndarray、pandas中的DataFrame、dynd中的array,以及上述各类的流式序列。

也包括存在于Python程序之外的持久化数据,比如:

CSV、JSON、行定界的JSON,以及以上各类的远程版本

HDF5 (标准格式与Pandas格式皆可)、 BColz、 SAS、 SQL 数据库 ( SQLAlchemy支持的皆可)、 Mongo

into项目能在上述数据格式的任意两个格式之间高效的迁移数据,其原理是利用一个成对转换的网络(该文章底部有直观的解释)。

如何使用它

into函数有两个参数:source和target。它将数据从source转换成target。source和target能够使用如下的格式:

Target     Source     Example

Object    Object      A particular DataFrame or list

String     String      ‘file.csv’, ‘postgresql://hostname::tablename’

Type                   Like list or pd.DataFrame

所以,下边是对into函数的合法调用:

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

>>> into(list, df) # create new list from Pandas DataFrame

>>> into([], df) # append onto existing list

>>> into(‘myfile.json‘, df) # Dump dataframe to line-delimited JSON

>>> into(Iterator, ‘myfiles.*.csv‘) # Stream through many CSV files

>>> into(‘postgresql://hostname::tablename‘, df) # Migrate dataframe to Postgres

>>> into(‘postgresql://hostname::tablename‘, ‘myfile.*.csv‘) # Load CSVs to Postgres

>>> into(‘myfile.json‘, ‘postgresql://hostname::tablename‘) # Dump Postgres to JSON

>>> into(pd.DataFrame, ‘mongodb://hostname/db::collection‘) # Dump Mongo to DataFrame

Note that into is a single function. We’re used to doing this with various to_csv, from_sql methods on various types. The into api is very small; Here is what you need in order to get started:

注意,into函数是一个单一的函数。虽然我们习惯于在各种类型上使用to_csv, from_sql等方法来完成这样的功能,但接口into非常简单。开始使用into函数前,你需要:

Python

1

2

3

$ pip install into

>>> from into import into

在Github上查看into工程

实例

现在我们展示一些更深层次的相同的实例。

将Python中的list类型转换成numpy中的array类型

Python

1

2

3

4

5

>>> import numpy as np

>>> into(np.ndarray, [1, 2, 3])

array([1, 2, 3])

加载CSV文件,并转换成Python中的list类型

Python

1

2

3

4

5

6

7

8

9

10

11

>>> into(list, ‘accounts.csv‘)

[(1, ‘Alice‘, 100),

(2, ‘Bob‘, 200),

(3, ‘Charlie‘, 300),

(4, ‘Denis‘, 400),

(5, ‘Edith‘, 500)]

将CSV文件转换成JSON格式

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

>>> into(‘accounts.json‘, ‘accounts.csv‘)

$ head accounts.json

{"balance": 100, "id": 1, "name": "Alice"}

{"balance": 200, "id": 2, "name": "Bob"}

{"balance": 300, "id": 3, "name": "Charlie"}

{"balance": 400, "id": 4, "name": "Denis"}

{"balance": 500, "id": 5, "name": "Edith"}

将行定界的JSON格式转换成Pandas中的DataFrame格式

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

>>> import pandas as pd

>>> into(pd.DataFrame, ‘accounts.json‘)

balance id name

0 100 1 Alice

1 200 2 Bob

2 300 3 Charlie

3 400 4 Denis

4 500 5 Edith

 它是如何工作的?

格式转换是有挑战性的。任意两个数据格式之间的健壮、高效的格式转换,都充满了特殊情况和奇怪的库。常见的解决方案是通过一个通用格式,例如DataFrame或流内存列表、字典等,进行格式转换。(见dat)或者通过序列化格式,例如ProtoBufThrift,进行格式转换。这些都是很好的选择,往往也是你想要的。然而有时候这样的转换是比较慢的,特别是当你在实时计算系统上转换,或面对苛刻的存储解决方案时。

考虑一个例子,在numpy.recarray和pandas.DataFrame之间进行数据迁移。我们可以非常快速地,适当地迁移这些数据。数据的字节不需要更改,只更改其周围的元数据即可。我们不需要将数据序列化到一个交换格式,或转换为中间的纯Python对象。

考虑从CSV文件迁移数据到一个PostgreSQL数据库。通过SQLAlchemy(注:一个Python环境下的数据库工具箱)使用Python迭代器,我们的迁移速度不太可能超过每秒2000条记录。然而使用PostgreSQL自带的CSV加载器,我们的迁移速度可以超过每秒50000条记录。花费一整晚的时间和花费一杯咖啡的时间进行数据迁移,是有很大区别的。然而这需要我们在特殊情况下,能足够灵活的使用特殊代码。

专门的两两互换工具往往比通用解决方案快一个数量级。

Into项目是那些成对地数据迁移组成的一个网络。我们利用下图展示这个网络:

每个节点是一种数据格式。每个定向的边是一个在两种数据格式之间转换数据的函数。into函数的一个调用,可能会遍历多个边和多个中间格式。例如,当我们将CSV文件迁移到Mongo数据库时,我们可以采取以下路径:

•将CSV文件加载到DataFrame中(利用pandas.read_csv)

•然后转换为np.recarray(利用DataFrame.to_records)

•接着转换为一个Python的迭代器类型(利用np.ndarray.tolist)

•最终转换成Mongo中的数据(利用pymongo.Collection.insert)

或者我们可以使用MongoDB自带的CSV加载器,编写一个特殊函数,用一个从CSV到Mongo的定向边缩短整个处理过程。

为了找到最有效的路线,我们利用相对成本(引入权重的ad-hoc)给这个网络的所有边赋予权重值。然后我们使用networkx找到最短路径,进而进行数据迁移。如果某个边由于某种原因失败了(引发NotImplementedError),我们可以自动重新寻找路径。这样我们的迁移方法是既高效又健壮的。

注意,我们给某些节点涂上红色。这些节点的数据量可以大于内存。当我们在两个红色节点之间进行数据迁移时(输入和输出的数据量都可能大于内存),我们限制我们的路径始终在红色子图中,以确保迁移路径中间的数据不会溢出。需要注意的一种格式是chunks(…),例如chunks(DataFrame)是一个可迭代的,在内存中的DataFrames。这个方便的元格式允许我们在大数据上使用紧凑的数据结构,例如numpy的arrays和pandas的DataFrames,同时保持在内存中数据的只有几十兆字节。

这种网络化的方法允许开发者对于特殊情况编写专门的代码,同时确信这段代码只在正确的情况下使用。这种方法允许我们利用一个独立的、可分离的方式处理一个非常复杂的问题。中央调度系统让我们保持头脑清醒。

历史

很久以前,我写过into链接到Blaze的文章,然后我立即就沉默了。这是因为旧的实现方法(网络方法之前)很难扩展或维护,也没有准备好进入其黄金期。

我很满意这个网络。意想不到的应用程序经常能够正常运行,into工程现在也准备好进入其黄金期了。Into工程可以通过conda和pip得到,而独立于Blaze。它主要的依赖为NumPy、Pandas和NetworkX,所以对于阅读我博客的大部分人来说,它算是相对轻量级的。如果你想利用一些性能更好的格式,例如HDF5,你将同样需要安装这些库(pro-tip,使用conda安装)。

如何开始使用into函数

你应该下载一个最近版本的into工程。

Python

1

2

3

4

5

$ pip install --upgrade git+https://github.com/ContinuumIO/into

or

$ conda install into --channel blaze

然后你可能想要通过该教程的上半部分,或者阅读该文档

又或者不阅读任何东西,只是试一试。我的希望是,这个接口很简单(只有一个函数!),用户可以自然地使用它。如果你运行中出现了问题,那么我很愿意在[email protected]中听到它们。

时间: 2024-10-29 12:46:19

python数据转换工具Into的相关文章

Python 图论工具

networkx: 一个用Python语言开发的图论与复杂网络建模工具, 内置了常用的图与复杂网络分析算法, 可以方便的进行复杂网络数据分析.仿真建模等工作. 依赖工具: numpy  pyparsing  datautil  matplotlib  networkx  采用随机图做个实验: from random import random, choice import networkx as nx import matplotlib.pyplot as plt def dist(a, b):

[转]Python打包工具

作者:Tarek Ziadé,翻译:张吉 原文:http://www.aosabook.org/en/packaging.html 转载地址:http://www.ituring.com.cn/article/19090 14.1 简介 对于如何安装软件,目前有两种思想流派.第一种是说软件应该自给自足,不依赖于其它任何部件,这点在Windows和Mac OS X系统中很流行.这种方式简化了软件的管理:每个软件都有自己独立的“领域”,安装和卸载它们不会对操作系统产生影响.如果软件依赖一项不常见的类

Python开发工具PyCharm个性化设置(图解)

Python开发工具PyCharm个性化设置,包括设置默认PyCharm解析器.设置缩进符为制表符.设置IDE皮肤主题等,大家参考使用吧. JetBrains PyCharm Pro 4.5.3 中文汉化专业版 授权:特别软件 类型:国外软件 语言:简体中文 大小:197.79 MB 日期:2015-07-10 环境:WinXP, Win2008, Win7, Win8 下载 1.设置默认PyCharm解析器: 操作如下: Python–>Preferences–>Project Interp

常用的十大Python开发工具

据权威机构统计,Python人才需求量每日高达5000+,但目前市场上会 Python 的程序员少之又少, 竞争小,很容易快速高薪就业.可能你并不太了解常用的十大Python开发工具都有哪些,现在告诉你. 1.Micro Python Micro Python基于ANSI C,语法跟Pyton 3基本一致,拥有自家的解析器.编译器.虚拟机和类库等.目前支持基于32-bit的ARM处理器,比如说STM32F405. 借助它,用户完全可以通过Python脚本语言实现硬件底层的访问和控制,如控制LED

Python 小工具集合

PyTools Python小工具的集合,工具彼此间无联系.基于Python 3.4. Github 地址: https://github.com/ChenZhongPu/PyTools 目前实现了: 查看新闻 查看微博 发布微博 搜索1024网站 Usage 查看新闻 python3 App.py news 使用腾讯新闻的RSS源. 查看微博 python3 App.py weibo 使用了Yahoo pipes.你需要得到要查看用户的微博ID, "` Hanhan's weibo accou

Python绘图工具matplotlib的安装

今天在机子上安装matplotlib遇到一些问题,特将此记录下来,供大家分享以少走弯路. 1:下载matplotlib 去官网上下载你所需要的版本http://matplotlib.org/download.html,  注意这里的32位和64位指的是python版本.由于是exe文件,直接安装即可. 2:import matplotlib 当我在python shell 中使用命令import matplotlib时出现了以下错误 此时我们需要安装dateutil,这里需要使用easy_ins

Python画图工具matplotlib的使用(图形并茂)

matplotlib官网文档: http://matplotlib.org/gallery.html 支持win7_64_bit的matplotlib库下载网址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#matplotlib 简介: matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图.而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中.它的文档相当完备,并且 Gallery页

你不得不看的Python机器学习工具

IEEE Spectrum排行榜第一,Skill UP排名第一的开发工具,Stack Overflow年度调查中程序员最感兴趣的选择,Stack Overflow 6月份访问量最多的编程语言......没错,这些盛誉都指向了一个编程语言--Python. Python在科学计算中用途广泛:计算机视觉.人工智能.数学.天文等.它同样适用于机器学习也是意料之中的事.这里将列举并描述Python的最有用的机器学习工具和库. 另外,尽管有些模块可以用于多种机器学习任务,在这里只列出主要焦点在机器学习的库

Python 日志工具(logging) 基础教程

什么是 logging ? 日志是跟踪软件运行时发生的事件,软件的开发人员可以通过日志快速的定位问题的位置.事件也分重要性即事件的严重程度. 什么时候使用日志? logging 提供了一组方便操作日志记录的功能,这些是 debug(), info(),warning(),error(),critical(). 通过想要执行的任务确定使用日志记录的方法. 你想要执行的任务 日志记录的最佳方法 一个脚本或程序显示在终端上 print() 程序正常运行过程中发生的事件 logging.info() o