《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理

重复数据的处理

  • 识别重复数据
  • 删除重复数据

一、识别重复数据

  • 函数法
  • 高级筛选法
  • 条件格式法
  • 数据透视法
  1. 函数法

    函数:=countif(范围,条件)

    可以看出在列字段为A的范围内,“男”重复4次,“女”重复4次。
    那么,看到的重复项是第几个重复项呢?在countif函数中调节范围即可:=COUNTIF(A$2:A2,A2)----------A$2固定从A列的第二行开始,A2会变动,下拉时会变成A3,A4,A5...; ||   A$2:Ai: 范围从A的第2行到第i行。

    可以C2:男出现一次,C3:当下,男出现2次,C4:自此,男出现3次。C5:女第一次出现,C6:自此,女出现两次了。

  2. 高级筛选法

    开始--排序与筛选--筛选(高级)

    结果是:

    注:为什么会出现两个“男”呢?看我再做一个就明白啦。

    现在明白了吗,因为第一次做高级筛选时,没有表头,此时进行,会将第一个单元格的内容作为表头一起复制过去。

  3. 条件格式法

    选择区域--开始--条件格式--重复值

    选择自己需要的标识方式。我选第一种,可以看到,有重复的标红了。

  4. 数据透视法

    插入--数据透视表--创建数据透视表:选择用的区域和透视表放置区域---设置透视表:把表头拖到行和列的字段

    我选择在当前的工作表汇总汇总透视表

    透视表框架出现:

    在框架的最右边,可以设置透视表的行、列字段。
    将行字段设置为表头对应的内容,不难看出,每行的字段将为:男、女和未知。
    将列字段设置为表头的内容,列字段对应的是计数项,所以内容应为男、女和未知对应的个数。

    数据透视表创建成功:

    可以看出:“男”的重复个数为4,“女”的重复个数为14,“未知”的为1,总个数为19.

总结:

  • 函数法:根据范围选择不同,可以看到重复的个数,也可以得到这是第几个重复值。
  • 高级筛选法:将多余的去除,只留下唯一一个。
  • 条件格式法:将有重复项的标记,可以直观看出哪些有重复项。缺点是只能看到该内容是重复的,不能区分不同的内容的重复项。但可以灵活运用,如果重复项过多,将条件设为找唯一项,可以很快找唯一项也不错。
  • 数据透视法:将计算重复项这个工作直接做成表格,可以直观看到每个字段的重复个数。

二、删除重复数据

  • 通过菜单删除重复项
  • 通过排序删除重复项
  • 通过筛选删除重复项
  1. 通过菜单删除重复项

    数据--数据工具--删除重复项


    包括表头,共有20行,表头还是作为表头,内容为19个,结果是删除了16个重复值,留下了唯一值:男、女、和未知。(高级筛选法也可以有这个效果)

  2. 通过排序删除重复项(此处和书本可能有点不同,我觉得我这样做可能更方便些,所以记录我自己采用的那种)

    排序--删除
    对第一列,也就是我们想删除重复项的内容排序,将相同内容放在一起,通过countif,标记每个内容是第几个重复值,这几个重复值就是我们所需的
    第一列排序的效果是,女全在前面,男全在后面,countif的结果排序,效果是女列或者男这列,它们按属于第几个重复值排好序

    删除大于1的。

    同理删除“女”的大于1的。

  3. 通过筛选删除重复项(此处多加了点自己的想法)

    countif排序---排序--筛选--删除重复项,具体如下
    通过countif,标记每个内容是第几个重复值,这几个重复值就是我们所需的
    数据--排序和筛选:排序
    点击排序,出现下拉格

    因为靠第三列做筛选,所以点击第三列下拉框,会出现下面选项,把除了1以外的全部去掉。这里有几种方式都可以达到这个效果,我也在下面列出

    第二种方式:

    第一种结果如下:可以看出每个重复值有几个,然后复制粘贴到别处即可

    第二种方式结果:

    留下的就是唯一的了,把灰色筛选那个点一下,就变成不是灰色了,结果就出来了。

    总结

    • 通过菜单删除重复项:快捷。
    • 通过排序删除重复项:较为复杂,排序好还需人工看是否大于1,然后删除。
    • 通过筛选删除重复项:较为复杂,但比第二种好一点,可以自动先筛选大于1的,再删除。
时间: 2024-08-02 00:54:57

《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理的相关文章

谁说菜鸟不会数据分析-入门篇

第一章 数据分析那些事儿  1.1 数据分析是"神马" 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用.数据分析是 为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.    帮助管理者进行判断和决策 探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明. 分析方法:对比分析法.平均分析法.交叉分析法等 高级:相关分析.因子分析.回归分析等. 作用:现状

谁说菜鸟不会数据分析

本文首先对数据分析做了一个总体的描述,然后介绍数据分析的基本步骤,各步骤使用的工具都是excel.入门系列,不足颇多,望诸君指点. 参考书籍: <谁说菜鸟不会数据分析>(人门篇+工具篇) <Excel图表拒绝平庸> 总体介绍 所有的分析都是这六步,明确分析目的和思路-收集数据-数据处理-数据分析-数据展现-撰写报告.技能树也是围绕这六部展开,数据处理方面为数据清洗和加工,数据分析为统计学和数据挖掘,数据展现为数据可视化,撰写报告为PPT,而这些步骤中都可以用excel.python

《谁说菜鸟不会数据分析》 读书笔记

1.数据分析步骤 2 常用指标:平均数,绝对数与相对数,百分比与百分点,频数与频率,比例与比率,倍数与番数,同比与环比 3 常用数据分析方法论 (1)PEST分析法 (2)5W2H (3) 逻辑树分析法(要素化.框架化 .关联化) (4)4p营销理论 (5)用户行为理论 4.数据处理的内容:数据清洗->数据加工 清洗:(1)重复数据的处理 (2)缺失数据处理 (3)检查数据逻辑错误 加工:(1)数据抽取 (2)数据计算 (3)数据分组 (4)行列转换 5 数据分析方法

python 数据分析--数据处理工具Pandas(1)

说明: 本文用到的数据集下载地址: 链接:https://pan.baidu.com/s/1zSOypUVoYlGcs-z2pT2t0w 提取码:z95a Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换.缺失值的处理.描述性统计分析.数据的汇总等.Pandas模块的核心操作对象就是序列(Series)和数据框(DataFrame).序列可以理解为数据集中的一个字段,数据框是指含有至少两个字段(或序列)的数据集. 1. 序列和数据框的构造 1.1 构造序列 构造一个序

python 数据分析--数据处理工具Pandas(2)

在前面的学习中主要了解了Pandas如何构造序列和数据框,如何读取和写入各种格式的数据,以及如何对数据进行初步描述,本文将进一步了解Pandas如何处理字符串和日期数据,数据清洗,获取数据子集,透视表,分组聚合操作等内容. 4. Pandas处理字符串和日期数据 待处理的数据表 数据处理要求: 更改出生日期birthday和手机号tel两个字段的数据类型. 根据出生日期birthday和开始工作日期start_work两个字段新增年龄和工龄两个字段. 将手机号tel的中间四位隐藏起来. 根据邮箱

数据分析------数据处理(1)

1.数据导入 数据存在的形式多种多样,如文件有 csv.Excel.txt 格式,数据库有 MySQL.Access.SQL Server 等形式. 1.1 导入 txt 文件 read_table 函数,导入 txt 文件,格式如下: read_table(file, names=[列名1,列名2,...], spe = "", ...) 其中,file 为文件路径与文件名: names 为列名,默认为文件中的第一行作为列名: sep 为分隔符,默认为空. 注意:(1)txt 文本文

数据分析的目的是发现数据价值

数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中.萃取和提炼出来,以找出所研究对象的内在规律. 在实用中,数据分析可帮助人们作出判断,以便采取适当行动.数据分析是组织机构有目的地收集数据.分析数据,使之成为信息的过程.这一过程是质量管理体系的支持过程.在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性.例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律.又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向

Python数据分析与展示(1)-数据分析之表示(1)-NumPy数据存取与函数

NumPy数据存取与函数 数据的CSV文件存取 CSV文件 CSV(Comma-Separated Value,逗号分隔值) CSV是一种常见的文件格式,用来存储批量数据. 将数据写入CSV文件 np.savetxt(frame, array, fmt='%.18e', delimiter=None) -frame: 文件.字符串或产生器,可以是.gz或.bz2的压缩文件 -array: 存入文件的数组 -fmt: 写入文件的格式,例如:%d %.2f %.18e -delimiter:分割字符

《谁说菜鸟不会数据分析》 读书笔记二

5 数据分析方法 (1)对比分析法:静态比较.动态比较 静态:同一时间条件下对不同总体指标的比较,如不同部门.不同地区.不同国家的比较.也称为横比 动态:同一总体条件下对不同时期指标数值的比较,也叫纵比. a.实践运用:对比分析常用的维度 #与目标对比#完成值,目标 #不同时期对比#环比 #同级部门.单位.地区对比# #行业内对比#与行业中的标杆企业.竞争企业或行业的平均水平进行对比 #活动效果对比#对某项营销活动开展前后进行对比 (2)分组分析法(必须与对比法结合使用) 关键:确定组数和组距