Python-dataframe合并(merge函数）

import pandas as pd
import numpy as np

df1=pd.DataFrame({‘key‘:[‘b‘,‘b‘,‘a‘,‘c‘,‘a‘,‘a‘,‘b‘],‘data1‘:range(7)})
df2=pd.DataFrame({‘key‘:[‘a‘,‘b‘,‘d‘], ‘data2‘:range(3)})

pd.merge(df1,df2)  #没有指明联结的建，会将重叠列的列名当作键。

pd.merge(df1,df2,on=‘key‘).sort_values(by=‘key‘)

df3=pd.DataFrame({‘lkey‘:[‘b‘,‘b‘,‘a‘,‘c‘,‘a‘,‘a‘,‘b‘],‘data1‘:range(7)})
df4=pd.DataFrame({‘rkey‘:[‘a‘,‘b‘,‘d‘],‘data2‘:range(3)})

pd.merge(df3,df4,left_on=‘lkey‘,right_on=‘rkey‘)
#若两列所要联结的键不同可以分别制定，且默认也是inner

pd.merge(df1,df2,how=‘outer‘) #两个数据框不都有的key值会出现NaN

多对多

df1=pd.DataFrame({‘key‘:[‘b‘,‘b‘,‘a‘,‘c‘,‘a‘,‘b‘],‘data1‘:range(6)})df2=pd.DataFrame({‘key‘:[‘a‘,‘b‘,‘a‘,‘b‘,‘d‘],‘data2‘:range(5)})

pd.merge(df1,df2,how=‘left‘) #left保证df1的data1全部出现
#多对多联结产生的结果是笛卡儿积，左边df1有3个b,右边df2有2两个b,共得6个b

pd.merge(df1,df2,how=‘inner‘)

根据多个列合并

left=pd.DataFrame({‘key1‘:[‘foo‘,‘foo‘,‘bar‘],
                  ‘key2‘:[‘one‘,‘two‘,‘one‘],
                  ‘lval‘:[1,2,3]})
right=pd.DataFrame({‘key1‘:[‘foo‘,‘foo‘,‘bar‘,‘bar‘],
                   ‘key2‘:[‘one‘,‘one‘,‘one‘,‘two‘],
                   ‘rval‘:[4,5,6,7]})pd.merge(left,right,on=[‘key1‘,‘key2‘],how=‘outer‘)pd.merge(left,right,on=[‘key1‘,‘key2‘])

重复列名处理

pd.merge(left,right,on=‘key1‘)  #对于key2来说其是重复的列名

pd.merge(left,right,on=‘key1‘,suffixes=(‘_left‘,‘_right‘))

索引上的合并 (列名上无重复，index上有重复）

left1=pd.DataFrame({‘key‘:[‘a‘,‘b‘,‘a‘,‘a‘,‘b‘,‘c‘],
                   ‘values‘:range(6)})
right1=pd.DataFrame({‘group_val‘:[3.5,7]},index=[‘a‘,‘b‘])

pd.merge(left1,right1,left_on=‘key‘,right_index=True)
#将left1的key列与left2的index列联结

left2=pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],index=[‘a‘,‘c‘,‘e‘],
columns=[‘ohio‘,‘nevada‘])
right2=pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13.,14]],
index=[‘b‘,‘c‘,‘d‘,‘e‘],columns=[‘missouri‘,‘alabama‘])

pd.merge(left2,right2,how=‘outer‘,left_index=True,right_index=True)

join方法

left2.join(right2,how=‘outer‘) #直接实现按索引合并left1.join(right1,on=‘key‘)  #是merge里的outer联结

原文地址：https://www.cnblogs.com/daxixixixi/p/10225167.html

时间： 2024-10-31 22:57:55

Python-dataframe合并(merge函数）的相关文章

python pandas.merge() 函数解析

merge()函数主要参数注:(一定要看下面的图!) merge()的默认参数: 我这里就解释两个参数一个是on :他就相当于sql表中的外键另一个是how:他就相当于两个表是左外连接.右外连接.内连接.全连接送大家一个图秒懂原文地址:https://www.cnblogs.com/wtq-0201/p/11072387.html

【转】Python——DataFrame基础操作

Python——DataFrame基础操作 DataFrame理解 DataFrame可以看做是有序排列的若干Series对象,这里的“排列”是指这些Series都有共同的索引. 一.读取文件 dt = pd.read_csv(path) dt = pd.read_excel(path) dt = pd.read_table(path, sep=',') 二.索引第一类索引是iloc属性,表示取值和切片都是显式的,dt.iloc[1:3] #注:从0开始的左闭右开区间第二类索引是loc属性,

Python 多进程实战 & 回调函数理解与实战

这篇博文主要讲下笔者在工作中Python多进程的实战运用和回调函数的理解和运用. 多进程实战实战一.批量文件下载从一个文件中按行读取 url ,根据 url 下载文件到指定位置,用多进程实现. #!/usr/local/python27/bin/python2.7 from multiprocessing import Process,Pool import os,time,random,sys import urllib # 文件下载函数 def filedown(url,file):

Python基础之内置函数和递归

本文和大家分享的主要是python中内置函数和递归相关内容,一起来看看吧,希望对大家学习python有所帮助. 一.内置函数下面简单介绍几个: 1.abs() 求绝对值 2.all() 如果 iterable 的所有元素都为真(或者如果可迭代为空),则返回 True 3.any() 如果 iterable 的任何元素为真,则返回 True .如果iterable为空,则返回 False 4.callable() 如果 object 参数出现可调,则返回 True ,否则返回 Fal

Python基础----内置函数补充、匿名函数、递归函数

内置函数补充 python divmod()函数:把除数和余数运算结果结合起来,返回一个包含商和余数的元组(a // b, a % b) 语法: 1 divmod(a, b) #a.b为数字,a为除数,b为被除数示例: 1 >>> divmod(7, 2) 2 (3, 1) #3为商,1为余数 3 >>> divmod(7, 2.5) 4 (2.0, 2.0) 应用:web前端页数计算 1 total_count=73 2 per_count=23 3 res=div

python encode和decode函数说明【转载】

python encode和decode函数说明字符串编码常用类型:utf-8,gb2312,cp936,gbk等. python中,我们使用decode()和encode()来进行解码和编码在python中,使用unicode类型作为编码的基础类型.即 decode encode str ---------> unicode --------->str u = u'中文' #显示指定unicode类型对象u str = u.encode('gb2312') #以

python基础之内置函数补充、匿名函数、递归函数

Python之路Python作用域、匿名函数、函数式编程、map函数、filter函数、reduce函数

Python之路Python作用域.匿名函数.函数式编程.map函数.filter函数.reduce函数一.作用域 return 可以返回任意值例子 def test1(): print("test1") def test(): print("test") return test1 res = test() print(res) 输出结果 test <function test1 at 0x021F5C90> 分析:这里print(res)输出的是te

Python 集合内置函数大全（非常全！）

Python集合内置函数操作大全集合(s).方法名等价符号方法说明 s.issubset(t) s <= t 子集测试(允许不严格意义上的子集):s 中所有的元素都是 t 的成员 s < t 子集测试(严格意义上):s != t 而且 s 中所有的元素都是 t 的成员 s.issuperset(t) s >= t 超集测试(允许不严格意义上的超集):t 中所有的元素都是 s 的成员 s > t 超集测试(严格意义上):s != t 而且 t 中所有的元素都是 s 的成