Pandas操作数据库及保存csv

数据的保存

import pandas as pd
import numpy as np
from pandas import Series

col_db = [[‘one‘,1,2,3,4,np.nan],[‘two‘,5,6,8,‘world‘,np.nan],[‘three‘,9,10,11,12,‘foo‘]]
data = pd.DataFrame(col_db,columns = [‘somthing‘,‘a‘,‘b‘,‘c‘,‘d‘,‘message‘])
data

    somthing    a   b   c   d   message
0   one 1   2   3   4   NaN
1   two 5   6   8   world   NaN
2   three   9   10  11  12  foo

# 利用DataFrame的to_csv方法,csv默认为逗号分隔
data.to_csv(‘save.csv‘)
# 指定分隔符
data.to_csv(‘save_.csv‘,sep=‘|‘)
# 缺失值在输出结果中会被表示为空字符串,你可以指定
data.to_csv(‘save_1.csv‘,na_rep=‘NULL‘)
# 禁用行和列的标签,只保留数据
data.to_csv(‘save_2.csv‘,header=False,index=False)
# 输出指定的列,并以指定的顺序排列
data.to_csv(‘save_2.csv‘,index=False,columns=[‘a‘,‘b‘,‘c‘])
# Series也有一个to_csv方法,from_csv可以直接读取csv
Series.from_csv(‘save_2.csv‘)

a     b
1     2
5     6
9    10
dtype: object

手工处理分隔符格式

大部分的表格型数据都能用pd.read_table进行加载,但是由于含有畸形行的文件而使read_table出毛病的情况并不少见

例如如下的格式文件:

a, b, c d
1, 2, 3
1, 2, 3, 4
import csv
# 直接使用pd.read_csv会报错,这里需要引入csv模块,进行处理
f = open(‘save_2.csv‘)
# 将已打开的文件型对象传给csv.reader
reader = csv.reader(f)
for line in reader:
    print(line,type(line))

[‘a‘, ‘b‘, ‘c‘] <class ‘list‘>
[‘1‘, ‘2‘, ‘3‘] <class ‘list‘>
[‘5‘, ‘6‘, ‘8‘, ‘10‘] <class ‘list‘>

# 整理这个reader
lines = list(csv.reader(open(‘save_2.csv‘)))
lines

[[‘a‘, ‘b‘, ‘c‘], [‘1‘, ‘2‘, ‘3‘], [‘5‘, ‘6‘, ‘8‘, ‘10‘]]

header, values = lines[0], lines[1:]
# 压缩为元组,再把值恢复矩阵
p = zip(header, zip(*values))
for i in p:
    print(i)

(‘a‘, (‘1‘, ‘5‘))
(‘b‘, (‘2‘, ‘6‘))
(‘c‘, (‘3‘, ‘8‘))

# 字典推导式
{h:v for h,v in zip(header, zip(*values))}

{‘a‘: (‘1‘, ‘5‘), ‘b‘: (‘2‘, ‘6‘), ‘c‘: (‘3‘, ‘8‘)}

# 手工输出分隔符文件,可以使用csv.writer
# w模式会覆盖并重新生成
with open(‘save_2.csv‘,‘w‘) as f:
    writer = csv.writer(f)
    writer.writerow((‘new_1‘,‘new_2‘))

JSON数据

如何将JSON对象转为DataFrame或其他便于分析的数据结构


import json
obj = ‘‘‘
{
"name":"wes",
"places_lived":["United Statues","Spain","Germany"],
"pet": null,
"siblings":[{"name":"Scott","age":25,"pet":"Zuko"},
    {"name":"Katie","age":33,"pet":"Cisco"}]
}
‘‘‘
# 选取一部分符合dataFrame格式的
result = json.loads(obj)
pd.DataFrame(result[‘siblings‘])

    age name    pet
0   25  Scott   Zuko
1   33  Katie   Cisco

使用数据库

# 导入内置的SQLite数据库
import sqlite3
query = ‘‘‘
CREATE TABLE test
(
a VARCHAR(20),
b VARCHAR(20),
c REAL,
d INT
);
‘‘‘

# 直接在内存中创建
con = sqlite3.connect(‘:memory:‘)
con.execute(query)
con.commit()

# 插入几行数据
data = [(‘Atlanta‘,‘Georgia‘,1.25,6),
        (‘Tallahassee‘,‘Florida‘,2.6,3),
        (‘Sacramento‘,‘California‘,1.7,5)
       ]
stmt = ‘INSERT INTO test VALUES(?,?,?,?)‘
con.executemany(stmt,data)
con.commit()

# 从表中选取数据
cursor = con.execute(‘select * from test‘)
rows = cursor.fetchall()
rows

[(‘Atlanta‘, ‘Georgia‘, 1.25, 6),
 (‘Tallahassee‘, ‘Florida‘, 2.6, 3),
 (‘Sacramento‘, ‘California‘, 1.7, 5)]

 #取出列表名
cursor.description
((‘a‘, None, None, None, None, None, None),
 (‘b‘, None, None, None, None, None, None),
 (‘c‘, None, None, None, None, None, None),
 (‘d‘, None, None, None, None, None, None))

 # zip(*)返回矩阵,与zip作用相反
k = zip(*cursor.description)
# for i in k:
#     print(i)
# 直接使用k[0]会报错,zip对象不支持‘zip‘ object is not subscriptable,需要借助list包装
list(k)[0]

(‘a‘, ‘b‘, ‘c‘, ‘d‘)

pd.DataFrame(rows,columns=list(zip(*cursor.description))[0])

    a   b   c   d
0   Atlanta Georgia 1.25    6
1   Tallahassee Florida 2.60    3
2   Sacramento  California  1.70    5
pandas有一个可以简化上面过程的read_sql函数,只需要传入select语句链接对象即可
import pandas.io.sql as sql
sql.read_sql(‘select * from test‘,con)

    a   b   c   d
0   Atlanta Georgia 1.25    6
1   Tallahassee Florida 2.60    3
2   Sacramento  California  1.70    5

# pandas链接mysql同理
import pymysql

conn = pymysql.connect(host=‘127.0.0.1‘,port=3306,user=‘root‘,passwd=‘123456‘,db=‘taobao‘,charset=‘utf8‘)
sql.read_sql(‘select * from tblive2‘,conn)
存取MongoDB中的数据
import pymongo

# 创建链接对象
con2 = pymongo.MongoClient(‘localhost‘,port=27017)

# 链接数据库
db = con2.wechat_spider

# 使用posts集合(这是我电脑里的)
find_list = db.posts.find()
# 这里由于不能直接传入迭代对象,需要借助list
pd.DataFrame(list(find_list))

原文地址:https://www.cnblogs.com/lishi-jie/p/9996013.html

时间: 2024-11-09 20:17:06

Pandas操作数据库及保存csv的相关文章

Python操作数据库(mysql redis)

一.python操作mysql数据库: 数据库信息:(例如211.149.218.16   szz  123456) 操作mysql用pymysql模块 #操作其他数据库,就安装相应的模块 import  pymysql ip='211.149.218.16' port=3306 passwd='123456' user='root' db='szz' conn=pymysql.connect(host=ip,user=user,port=port,passwd=passwd,db=db,cha

mysql基本认识【关系型数据库和nosql、mysql操作流程和体系,库操作,表操作,数据的操作,字符集的操作,以及php作为client操作数据库】对连接本身没有疑问

1.关系型数据库永久性保存数据的仓库php的变量只是php脚本执行期间,临时性保存变量的空间[使用内存空间临时保存] 关系型数据库:利用二者的关系来描述实体的信息.[利用二维表字段名和字段值来进行描述][关系型数据库根本不是可以使用外键将两个表构建成关联的意思,而是实现描述实体的二维表的形式] nosql:not only sql[sql表示操作关系型数据的语言]所以nosql指的就是非关系型数据库[典型的是键值对型的数据(redis.memcache)][nosql可以视情况添加信息,不需要对

【Cocos2d-x Lua】操作数据库封装类

Lua中操作数据库封装类 使用示例 lua代码: require("DB") -- 保存一个字符串(数据库中存储的数据都是以字符串的形式保存的) DB:getInstance():setString("level",level) -- 根据key(isOpenMusic)返回一个数字,第二个参数为默认返回值 local result = DB:getInstance():getNumber("isOpenMusic",1) -- 根据key(is

超简单使用批处理(batch)操作数据库

超简单使用批处理(batch)操作数据库 批处理(batch)是什么 批处理的执行就好比快递员的工作: 未使用批处理的时候,快递员一次从分发点将一件快递发给客户: 使用批处理,则是快递员将所有要派送的快递都用车带到发放处派给客户. 批处理(batch)操作数据库 批处理指的是一次操作中执行多条SQL语句,批处理相比于一次一次执行效率会提高很多. 批处理操作数据库的过程主要是分两步: 1.将要执行的SQL语句保存 2.执行保存的SQL语句 如何实现批处理 Statement和PreparedSta

Android开发之使用sqlite3工具操作数据库的两种方式

使用 sqlite3 工具操作数据库的两种方式 请尊重他人的劳动成果,转载请注明出处:Android开发之使用sqlite3工具操作数据库的两种方式 http://blog.csdn.net/fengyuzhengfan/article/details/40193123 在Android SDK的tools目录下提供了一"sqlite3.exe工具,它是一个简单的SQLite数据库管理工具,类似于MySQL提供的命令行窗口在有些时候,开发者利用该工具来査询. 管理数据库. 下面介绍两种方式: 第

Spring MVC基础知识整理?Spring+SpringMVC+Hibernate整合操作数据库

概述 Hibernate是一款优秀的ORM框架,能够连接并操作数据库,包括保存和修改数据.Spring MVC是Java的web框架,能够将Hibernate集成进去,完成数据的CRUD.Hibernate使用方便,配置响应的XML文件即可.由于spring3.x,基于asm的某些特征,而这些asm还没有用jdk8编译,所以采用Spring 3+JDK8就会报错,提示错误信息( java.lang.IllegalArgumentException),具体解决方案有:1.Spring 3+JDK7

Djaogo-Model操作数据库(增删改查、连表结构)

一.数据库操作 1.创建model表 基本结构 1 2 3 4 5 6 from django.db import models    class userinfo(models.Model):     #如果没有models.AutoField,默认会创建一个id的自增列     name = models.CharField(max_length=30)     email = models.EmailField()     memo = models.TextField() 更多字段: 1

编写hibernate 操作数据库的dao层简单代码

Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一个全自动的orm框架,hibernate可以自动生成SQL语句,自动执行,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库. Hibernate可以应用在任何使用JDBC的场合,既可以在Java的客户端程序使用,也可以在Servlet/JSP的Web应用中使用,最具革命意义的是,Hibernate可以在应用EJB的J2EE架构中取代CMP,完成数据持久

Qt的Model/View Framework解析(数据是从真正的“肉(raw)”里取得,Model提供肉,所以读写文件、操作数据库、网络通讯等一系列与数据打交道的工作就在model中做了)

最近在看Qt的Model/View Framework,在网上搜了搜,好像中文的除了几篇翻译没有什么有价值的文章.E文的除了Qt的官方介绍,其它文章也很少.看到一个老外在blog中写道Model/View是他认为Qt中最不好的一部分了.真的是这样吗?为了回馈开源社区,我写了这篇blog,写的是我认为比较有价值的东东.题目起得是解析,但也没有特别细节的介绍,点到为止,有兴趣的Tx可以继续讨论.我所看的资料有<C++ GUI Programming with Qt 4, Second Edition