python 学习的第六天 数据的预处理

1、空格值得删除:空格值得意思为数据文件上下之间没有对齐,,存在空格,不是空缺值

from pandas import read_csv;

df = read_csv(‘D://PA//4.5//data.csv‘)

newName = df[‘name‘].str.strip();

df[‘name‘] = newName;

  2、缺失值的删除

from pandas import read_csv;

df = read_csv(‘D://PA//4.4//data.csv‘);

newDF = df.dropna();

  3、重复值得删除

from pandas import read_csv;

df = read_csv(‘D://PA//4.3//data.csv‘)

newDF = df.drop_duplicates();

  

原文地址:https://www.cnblogs.com/manjianlei/p/11266495.html

时间: 2024-10-19 10:26:34

python 学习的第六天 数据的预处理的相关文章

python 学习笔记 3 -- 数据结构篇上

数据结构是可以处理一些 数据 的 结构 .或者说,它们是用来存储一组相关数据的.在Python中有三种内建的数据结构--列表.元组和字典.本文主要对这三种数据类型以及相关的使用做介绍,以例子的形式演示更加容易理解! 1.列表(List) 列表是处理一组有序项目的数据结构,即你可以在一个列表中存储一个 序列 的项目.在Python中,你在每个项目之间用逗号分割. 列表中的项目应该包括在**方括号**中,这样Python就知道你是在指明一个列表.一旦你创建了一个列表,你可以添加.删除或是搜索列表中的

python 学习笔记 3 -- 数据结构篇下

5.引用 当你创建一个对象并给它赋一个变量的时候,这个变量仅仅 引用 那个对象,而不是表示这个对象本身!也就是说,变量名指向你计算机中存储那个对象的内存.这被称作名称到对象的绑定.eg. [python] view plaincopy # -*- coding: utf-8 -*- shoplist = ['apple', 'mango', 'carrot', 'banana'] print "we copy the shoplist to mylist directly \"with

python学习_处理数据编程实例(一)

目的:用一个实例总结学习到的with语句,函数,列表推导,集合,排序,字符分割等内容 要求:分别以james,julie,mikey,sarah四个学生的名字建立文本文件,分别存储各自的成绩,时间格式都精确为分秒,时间越短成绩越好,分别输出每个学生的无重复的前三个最好成绩,且分秒的分隔符要统一为"." 数据准备:分别建立四个文本文件 james.txt     2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 julie.txt        2

python学习的第六天数据类型及内置方法part2

一.元祖:就是一个不可变的列表 1.用途:用于存放多个值,当存放的多个值只能读的需求没有改的需求时用元祖最合适 2.定义方式:在()内用逗号分隔开多个任意类型的值 # t=(1,) # print(t,type(t) 3.常用的操作和内置的方法 (1)按索引取值(正向取,反向取):只能取 (2).切片(顾头不顾尾,步长) # t=('h','e','l','l','o') # res=t[1:3] # print(res) # print(t) (3)长度(len) (4)成员运算in和not

python学习13之数据泄密

在本教程中,您将了解什么是数据泄漏以及如何防止数据泄漏.如果你不知道如何防止它,泄漏将经常出现,它将破坏您的模型在微妙和危险的方式.因此,对于实践数据科学家来说,这是最重要的概念之一. 1.摘要 数据泄漏(或泄漏)发生在您的训练数据包含关于目标的信息时,但是当使用模型进行预测时,将无法获得类似的数据. 这将导致训练集上的高性能(甚至可能是验证数据),但是模型在生产中表现很差. 换句话说,泄漏导致模型看起来很精确,直到您开始使用模型做出决策,然后模型变得非常不准确. 泄漏主要有两种类型: targ

★★★★[转载]Python学习笔记一:数据类型转换★★★★

一.int函数能够     (1)把符合数学格式的数字型字符串转换成整数     (2)把浮点数转换成整数,但是只是简单的取整,而非四舍五入. 举例: 1 aa = int("124") #Correct 2  print "aa = ", aa #result=124 3  bb = int(123.45) #correct 4  print "bb = ", bb #result=123 5  cc = int("-123.45&q

Python 3 学习的第六天——文件操作

Python 学习的第六天 写此博客 是为了激励自己,并且将自己的心得以及遇到的问题与人分享 一.课堂笔记 1.一切皆文件  对文件的操作一般都三个过程:打开.操作.关闭. f = open ('小文件','r',encoding = 'utf8') # r 为读模式 w 为写模式 整体为得到文件的操作句柄 data = f.read() print(data) f.close() 打开文件,得到文件的操作句柄 通过文件操作句柄对文件进行操作 关闭文件 2.read方法 read(5) 取出来的

Python 3 学习的第六天——Python基础

Python 学习的第六天 写此博客 是为了激励自己,并且将自己的心得以及遇到的问题与人分享 一.课堂笔记 1.能调用方法的一定是对象. 2.文件操作基本流程: 打开--操作--关闭 (重点就在于操作) 3. 打开文件的模式有:(三种最基本的工作模式) r,只读模式(默认). w,只写模式.[不可读:不存在则创建:存在则删除内容:] a,追加模式.[可读:   不存在则创建:存在则只追加内容:] 原文地址:https://www.cnblogs.com/jinzejun/p/8447402.ht

Python学习笔记_Chapter 6定制数据对象

1. 有用的BIF a. 判断字符串中是否包含子字符串 1 if s_a in s_b: b. pop() 描述:从指定的列表位置删除并返回一个数据项. 1 (sarah_name,sarah_dob)=l_rah.pop(0),l_rah.pop(0) 2 #pop(0)中0位置为list中第一个数据项 3 #第一次执行pop赋值给sarah_name c. strip() 输入的是字符串,返回的是列表 d.open 读文件时可以多种方式打开文件,取出的数据是不同的,可以是文本也可以是二进制.