2018.03.27 pandas duplicated 和 replace 使用

 1 #.duplicated / .replace
 2 import numpy as np
 3 import pandas as pd
 4 s = pd.Series([1,1,1,1,1,2,3,3,3,4,4,5,6,6])
 5 print(s)
 6 print(s.duplicated())#True表示重复 得到布尔型
 7 print(s[s.duplicated() == False])#
 8 #通过布尔类型的判断来得到不重复的值
 9
10 s_re = s.drop_duplicates()#直接去除重复值
11 #inplace=True 表示直接修改原来的值
12 print(s_re)
13 print(‘------‘)
14
15 #DataFrame测试
16 df = pd.DataFrame({‘key1‘:[‘a‘,‘a‘,3,4,5],
17                    ‘key2‘:[‘a‘,‘a‘,‘b‘,‘b‘,‘c‘]})
18 print(df)
19 print(‘---------------------‘)
20 print(df.duplicated())
21 print(‘---------------------‘)
22 print(df.drop_duplicates())

结果：

0     1
1     1
2     1
3     1
4     1
5     2
6     3
7     3
8     3
9     4
10    4
11    5
12    6
13    6
dtype: int64
0     False
1      True
2      True
3      True
4      True
5     False
6     False
7      True
8      True
9     False
10     True
11    False
12    False
13     True
dtype: bool
0     1
5     2
6     3
9     4
11    5
12    6
dtype: int64
0     1
5     2
6     3
9     4
11    5
12    6
dtype: int64
------
  key1 key2
0    a    a
1    a    a
2    3    b
3    4    b
4    5    c
---------------------
0    False
1     True
2    False
3    False
4    False
dtype: bool
---------------------
  key1 key2
0    a    a
2    3    b
3    4    b
4    5    c

1 #.replace()
2 s = pd.Series(list(‘aaabbbcdd‘))
3 print(s)
4 print(s.replace(‘a‘,np.nan))
5 print(s.replace([‘a‘,‘d‘],np.nan))
6 print(s.replace({‘a‘:‘Hello‘,‘d‘:‘World‘}))

结果：

0    a
1    a
2    a
3    b
4    b
5    b
6    c
7    d
8    d
dtype: object
0    NaN
1    NaN
2    NaN
3      b
4      b
5      b
6      c
7      d
8      d
dtype: object
0    NaN
1    NaN
2    NaN
3      b
4      b
5      b
6      c
7    NaN
8    NaN
dtype: object
0    Hello
1    Hello
2    Hello
3        b
4        b
5        b
6        c
7    World
8    World
dtype: object

原文地址：https://www.cnblogs.com/jxzhu/p/8658987.html

时间： 2024-10-03 09:08:53

2018.03.27 pandas duplicated 和 replace 使用的相关文章

【VSCode】Windows下VSCode编译调试c/c++【更新 2018.03.27】

--------– 2018.03.27 更新--------- 便携版已更新,点此获取便携版已知BUG:中文目录无法正常调试用于cpptools 0.15.0插件的配置文件更新新的launch.json // Available variables which can be used inside of strings. // ${workspaceRoot}: the root folder of the team // ${file}: the current opened file

网易2018.03.27算法岗，三道编程题100%样例AC题解

博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/8660814.html特别不喜欢那些随便转载别人的原创文章又不给出链接的所以不准偷偷复制博主的博客噢~~ 1. 自定义排序第一题是第一行给出n(1<=n<=100),表示下面有n行,每行A(0<=A<24)和B(0<=B<60),表示定的闹钟为AhBmin. 接下来给定X,表示小明从起床到教室需要X分钟,最后一行给出A(0<=A

数据分析03 /基于pandas的数据清洗、级联、合并

目录数据分析03 /基于pandas的数据清洗.级联.合并 1. 处理丢失的数据 2. pandas处理空值操作 3. 数据清洗案例 4. 处理重复的数据 5. 处理异常的数据 6. 级联 7. 合并操作数据分析03 /基于pandas的数据清洗.级联.合并 1. 处理丢失的数据两种丢失的数据: 种类 None:None是对象类型,type(None):NoneType np.nan(NaN):是浮点型,type(np.nan):float 两种丢失数据的区别: object类型比floa

20172319 2018.03.05-2018.03.11 《程序设计与数据结构》第1周学习总结

学号20172319 2018.03.05-2018.03.11 <程序设计与数据结构>第1周学习总结教材学习内容总结复习上学期导论课所学知识认识.了解与Java相关的基本知识:二符一字.四类编程语言.三种机器程序中定义的标识符不能以数字开头且有&符号的标识符无效教材学习中的问题和解决过程问题1:什么是URL? 解决过程:上网查询相关资料:URL简单来说就是我们常说的网址,其实是统一资源定位符,包含协议与IP地址,其作用是定位资源及显示其所在位置代码调试中的问题和解决过程

20172319 2018.03.12-19 《程序设计与数据结构》第2周学习总结

学号 20172319 2018.03.12-19 <程序设计与数据结构>第2周学习总结教材学习内容总结 1.字符串:基本定义:print与println方法的区别:字符串的拼接:转义序列的应用. 2.变量与赋值:变量:常量:赋值语句. 3.基本数据类型:四整二浮点一字符一布尔. 4.表达式:运算符的种类及其使用规则. 5.数据类型转换:基本数据类型间的转换(扩展及压缩):数据转换方式:赋值(只能扩展).提升.强制. 6.交互式程序:Scanner 类. 教材学习中的问题和解决过程问题1:

20172319 2018.03.27-04.05 《Java程序设计》第4周学习总结

20172319 2018.03.27-04.05 <Java程序设计>第4周学习总结教材学习内容总结第四章编写类类与对象的回顾:对象是有状态的,状态由对象的属性值确定.属性由类中的声明的变量所定义.对象的操作可能改变该对象的状态.对象的操作由类中声明的方法定义. 类的分析:类的成员(类的数据和方法):构造方法(给类赋初值):实例数据(变量声明的位置定义其作用域):UML类图(类及其对象关系可视化描述). 封装:(1) 可见性修饰符:public(公有):private(私有,只能从

数据分析03 /基于pandas进行股票分析

数据分析03 /基于pandas的DateFrame进行股票分析需求1:对茅台股票分析使用tushare包获取某股票的历史行情数据. tushare:财经数据接口包 pip install tushare 输出该股票所有收盘比开盘上涨3%以上的日期. 输出该股票所有开盘比前日收盘跌幅超过2%的日期. 假如我从2010年1月1日开始,每月第一个交易日买入1手股票,每年最后一个交易日卖出所有股票,到今天为止,我的收益如何? 代码实现: 1.使用tushare包获取某股票的历史行情数据 impor

2018.03.26 Python-Pandas 字符串常用方法

import numpy as np import pandas as pd 1 #字符串常用方法 - strip 2 s = pd.Series([' jack ','jill',' jease ','feank']) 3 df = pd.DataFrame(np.random.randn(3,2),columns=[' Column A',' Column B'],index=range(3)) 4 print(s) 5 print(df.columns) 6 7 print('----')

2017/03/27学习笔记

程序的输入是指从输入文件讲数据传送给程序,程序的输出是指从程序将数据传送输出文件.C++输入输出包含以下三方面内容:对系统指定标准设备的输入和输出.即从键盘输入数据,输出到显示器.这种输入输出称为标准输入输出,简称标准IO.以外出磁盘文件为对象进行输入输出,即从磁盘文件输入数据,将数据输出到文件.以外存为对象的输入输出称为文件的输入输出,简称文件IO.度内存中指定的空间进行输入输出,通常指定一个字符串数组作为储存空间(实际上可以利用该空间储存任何信息).这种输入输出称为字符串输入输出,简称串IO