数据清洗

import xlrd
import pandas as pd
import numpy as np

data = xlrd.open_workbook(‘D:\\Data\\basket.xlsx‘)

table= data.sheets()[0]
nrows = table.nrows
ncols=table.ncols
j=2
for i in nrows:
	 if table.cell(i,0).value != table.cell(i+1,0).value:
	 	 li(i,j)= table.cell(i,0)
	 	 li[i,]
	 	 j=j+1
	 else :
	 	j=2
	 	i = i+1

df=pd.read_excel(‘D:\\Data\\basket.xlsx‘)
df.iloc[1,1]---取某个值
st=np.empty([330000,20],dtype=str)
st=np.empty([330000,20],dtype=unicode)
n = 330000
i=1
j=2
z=1
st[0,0]=df.iloc[0,0]
st[0,1]=df.iloc[0,1]
for i in n:
	if df.iloc(i,0) != df.iloc(i-1,0):
		st[i,0]=df.iloc(i,0)
		st[i,1]=df.iloc(i,1)
		i=i+1
		j=2
		z=1
	else:
		st[i-z,j]=st[i,1]
		j=j+1
		z=z+1
df=pd.read_excel(‘D:\\Data\\basket.xlsx‘)
df.iloc[1,1]---取某个值
st=np.empty([330000,20],dtype=str)
st=np.empty([330000,100],dtype=int)
n = 330000
i=1
j=2
z=1
st[0,0]=i-1
st[0,1]=df.iloc[0,1]

for i in range(1, n):
	if df.iloc[i,0] != df.iloc[i-1,0]:
		st[i,0]=i
		st[i,1]=df.iloc[i,1]
		i=i+1
		j=2
		z=1
	else:
		st[i-z,j]=st[i,1]
		j=j+1
		z=z+1
时间: 2024-08-04 18:56:40

数据清洗的相关文章

【数据清洗】2007-数据清洗研究综述

王曰芬 章成志 张蓓蓓 吴婷婷 定义:数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等.与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成. 目的:数据清洗的目的是为信息系统提供准确而有效的数据. 基本原理:利用有关技术,如统计方法.数据挖掘方法.模式规则方法等将脏数据转换为满足数据质量要求的数据.数据清洗按照实现方式与范围,可分为以下4种: Ⅰ  手工实现 Ⅱ  编写专门的应用程序 Ⅲ  解决某类特定应用域的问题 Ⅳ  与特定应用领

机器学习中的数据清洗与特征处理综述

背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富.通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向.目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐.筛选排序.搜索排序.用户建模等等,为公司创造了巨大的价值.本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法.主要内容已经在内部公开课"机器学习InAction系列"讲过,本博客的内容主要是

【数据清洗】2012-数据清洗及其一般性系统框架

(1)准备.包括需求分析.信息环境分析.任务定义.方法定义.基本配置,以及基于以上工作获得数据清洗方案等.通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整的数据清洗方案,并整理归档.      (2)检测.包括检测必需的数据预处理,并进行相似重复记录.不完整记录.逻辑错误.异常数据等数据质量问题的检测,对检测结果进行统计,以获得全面的数据质量信息,并将

自制数据挖掘工具分析北京房价 (二) 数据清洗

上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗.不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野.而你不能指望核心算法为你处理错误或者短缺的数据.所以,数据清洗(ETL)就变得必不可少了. 如果数据分析是炒菜阶段,那么清洗就是洗菜,绝对是非常重要的一环. 而实际上,ETL工具可以很简单,也可以很复杂.简单到只需要把字符串转换为数字

数据质量及数据清洗方法

先对其进行介绍:    数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息.纠正存在的错误,并提供数据一致性.[1] 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等.因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据.有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的

使用SSIS进行数据清洗

简介     OLTP系统的后端关系数据库用于存储不同种类的数据,理论上来讲,数据库中每一列的值都有其所代表的特定含义,数据也应该在存入数据库之前进行规范化处理,比如说"age"列,用于存储人的年龄,设置的数据类型为INT类型.存入数据库的值是2000虽然看起来没有任何问题,但结合业务规则,这样的"Noisy"数据在数据分析过程中就会造成数据分析的结果严重失真,比如极大的拉高平均年龄.在真实的OLTP系统中,这类不该存在的数据往往会由于各种各样的原因大量存在,类似这

windows下python3 使用cx_Oracle,xlrd插件进行excel数据清洗录入

我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作.当然python这个语言,我比较喜欢,开发效率高,基本上怎么写都能运行,而且安装配置简单,基本上有网的环境pip install全部都搞定,没网的话,把whl包copy过来一行命令也就解决了(windows下python3.5使用pip离线安装whl包). 本篇博客就针对,在windows平台下使用python3(python2社区将要停止支持,使用3是大势所趋),读取xls,xlsx格式的数

Salesforce 数据清洗

新系统上线后,需要导入历史数据,但是旧数据格式,数据缺失,数据错误,奇异值,属性归类与新系统有很大的gap.因此我们需要建立一套数据动态清洗规则给Salesforce系统,通过这些规则自动清洗导入数据,清洗规则可以让function自己配置.而不需要IT负责 下面将详细举一个例子如何在salesforce中做数据处理.数据清洗需要分成5个步骤 1,建立2个关联数据的Object的和 一个数据清洗后台设置的Object的 2,数据导入页面csv 3,定义每个字段的范围.属性,如果是错误的则自动重新

网站日志分析项目案例(二)数据清洗(MiniMapreduce)

网站日志分析项目案例(二)数据清洗 一.数据情况分析 1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29.这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式. (2)自2013-05-30起,每天生成一个数据文件,约150MB左右.这也说明,从2013-05-30之后,日志文件不再是在一个文件里边. 图1展示了该日志数据的记录格式,其中每行记录有5部分组成:访问者IP.访问时间.访问资源.访问状态(HTTP状态码).

如何在日志分析中进行数据清洗

如何在日志分析中进行数据清洗 前提 我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的.所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串. 下面便是我们需要去过滤的原始数据: 183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=c