Python基本的数据清洗

  接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼···

业务场景:

  领导拿来几个Excel,共150W条保险数据,需要按照特定规则筛选出满足条件的数据。

  字段:业务机构、保单号、案件号、被保险人、代码1、标的车号、VIN码、驾驶员、电话、出险时间、出险经过、维修企业、定损金额、三者车号、三者VIN、三者驾驶员、代码2、三者维修企业、查勘定损人员;

  150W条数据没有唯一标识字段:同一个案件号对应一个标的车号、0-多个三者车号,一个标的车号对应一个或多个保单号,所以需要通过标的车号、保单号、报案号三个字段唯一确定一条理赔记录。

  筛选规则:

  电话频率大于等于3次(1年内);车架号(标的及三者大于等于3次(1年内;驾驶员姓名(标的及三者)大于等于3次(1年内),标的与三者维修单位为同一修配厂的;同一车号或是车架号在10日内出险两次的;出险时间在21:00~6:00的案件,做风险标识。

  给到的数据,有以下几个问题:

  1. 部分记录数据不完整,整体缺失率较低
  2. 部分字段信息录入错误,比如,电话字段中出现字符、时间字段中出现11位数字(疑似电话信息)
  3. 有重复数据
  4. Excel数据表列名不一致

问题总结:

  这就是一个简单的数据筛选工作!

  但是刚好工作不忙,刚好也想拿数据练练手,于是就开始操练起来了~

    动手之前,要通过各种途径对数据进行全方位的了解,否则,浪费时间!

         通过向数据来源方询问变量之间的关系、通过常识判断各变量的取值特性、通过探索性分析了解各变量的缺失/取值情况、结果导向分析数据清洗过程中可能会遇到的问题。

问题分解:

  1. 数据存储在多个Excel表格中,将这些数据读到一个变量中
  2. 按筛选条件整理数据
  3. 输出筛选数据

代码部分,我要放到另一篇文章里面~

原文地址:https://www.cnblogs.com/cyxiaer/p/9501926.html

时间: 2024-08-15 03:57:32

Python基本的数据清洗的相关文章

python简单的数据清洗,数据筛选方法归类

创建数组有两种方式,1.直接赋值 2.随机变量生成随机生成包括4种:np.arange(20),np.linspace(0,10,5),np.logspace(0,2,5),np.random.random(3,2,3)np.arange(10,20,2) ##左闭右开区间,起始值,终止值,步长np.linspace(0,10,5) ##闭区间,起始值,终止值,元素个数 等差数列np.logspace(0,2,5) ##闭区间,起始值(以指数形式存在),终止值(以指数形式存在, 以10为底,2的

Python 爬虫 大量数据清洗 ---- sql语句优化

1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time(时间) 大于7月一号,小于10月31号. 2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1号,小于10月31号,在这里用索引的效率很低, 并且要重复的查询出来五十家公司,效率很低,有没有好的解决方案呢??? 3.解决问题思路 1.查询五百条数据,我

python做数据分析-简单库的介绍和运用

一.数据分析能做什么,简单举几个例子: 1.淘宝可以观察用户的购买记录.搜索记录以及人们在社交媒体上发布的内容选择商品推荐 2.股票可以根据相应的数据选择买进卖出 3.今日头条可以将数据分析应用到新闻推送排行算法当中 4.爱奇艺可以为用户提供个性化电影推荐服务 二.python常用库 Numpy Numpy是Numerical Python的简写,主要可以用来做Python数值计算.它提供了多种数据结构.算法以及大部分涉及Python数值计算所需的接口. 快速.高效的多维数组对象ndarray

review-反思当程序猿的小一年来

误打误撞进入这个行业,也算是缘分把,不到一年的时光里,剖析一下自己,别写了半天代码,学了一堆东西,不知道干嘛.反省一下. 1.目标与知识库 就目前在我看来,是想成为一名优秀的数据工程师,掌握全栈数据分析技术. 技术链: 爬虫  -python 数据清洗 -linux,shell,python,awk,grep,sed等 并发,并行 -linux,python多线程/多进程编程 大数据 -hadoop,scalar 算法 -机器学习库,tensor flow,sklearn 可视化 -django

Pandas系列之入门篇

Pandas系列之入门篇 简介 pandas 是 python用来数据清洗.分析的包,可以使用类sql的语法方便的进行数据关联.查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储.另外pandas还提供了大数据存储的API--HDFStore,来对接HDF5. 安装 pandas 利用豆瓣源,速度快 pip install pandas numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com pytabl

3.15-3.21 hive项目实战

一.创建表并导入日志数据,引出问题 ##建表 hive (default)> create table IF NOT EXISTS default.bf_log_src( > remote_addr string, > remote_user string, > time_local string, > request string, > status string, > body_bytes_sent string, > request_body stri

量化分析

学习目标 金融量化简介 数据分析简介 常用库简介 1.学习目标 ? 谈到金融量化分析,可能大多数人想到的肯定就是海量的股票数据,交叉错乱的股票数据图表,让从未接触过金融的人无法入手,就会想这种东西我怎么可能学的会.但是在我们有着扎实的Python编程基础就完全不需要担心这些东西了,我们只需要通过编程的方式编写出对应的策略就能通过计算机帮我们进行自动化交易. ? 从本文的标题当中就可以看到,我们的目标就是金融量化分析,在前面已经简单介绍过金融了,所以说我们就直接来看量化,量化这个词在当前这个时代已

第一章、数据分析介绍

目录 一.数据分析介绍 1.数据分析是什么 2.数据分析能干什么 3.为什么利用Python进行数据分析 4.数据分析过程概述 5.常用库简介 一.数据分析介绍 数据分析是什么? 数据分析能干什么? 为什么利用Python进行数据分析? 数据分析过程概述 常用库简介 1.数据分析是什么 在我们如今这个时代,相信大多数人都能明白数据的重要性,数据就是信息,而数据分析就是可以让我们发挥这些信息功能的重要手段. 2.数据分析能干什么 对于数据分析能干什么其实我们可以简单的举几个例子: 1.淘宝可以观察

数据分析初识、Anaconda安装、Juypyter notebook配置与快捷键

一.数据分析介绍 数据分析是什么? 数据分析能干什么? 为什么利用Python进行数据分析? 数据分析过程概述 常用库简介 1.1数据分析是什么 在我们如今这个时代,相信大多数人都能明白数据的重要性,数据就是信息,而数据分析就是可以让我们发挥这些信息功能的重要手段. 1.2数据分析能干什么 对于数据分析能干什么其实我们可以简单的举几个例子: 1.淘宝可以观察用户的购买记录.搜索记录以及人们在社交媒体上发布的内容选择商品推荐 2.股票可以根据相应的数据选择买进卖出 3.今日头条可以将数据分析应用到