《谁说菜鸟不会数据分析》数据加工

数据加工

一、数据抽取:保留原数据表中某些字段的部分信息,组成一个新字段

  • 字段分列:截取某一字段部分信息
  • 字段合并:几个字段合并为一个新字段
  • 字段匹配:原数据表没有但其他数据表有的字段,有效匹配过了

字段分列

(1)菜单法

选区域--数据--分列

根据格式特点,选择合适的分隔符号

这与前面自文本导入数据的文本设置很相似。

(2)函数法

left(文本,左边几个)

right(文本,右边几个)

字段合并

方法一:&连接

方法二:函数concatenate(文本1,文本2,...)

字段匹配

VLOOKUP(要在区域的第一列中找到的值,包含搜索数据的单元区域,第一列的值是由第一项搜索的值,num,range_lookup)

num: 1,返回第一列的值。2.第二列的值

range_lookup:  1 近似匹配  2.精确匹配

VLOOKUP(查找目标,查找范围,返回值的列数,精确0OR模糊查找1)


二、数据计算

1.简单计算:加减乘除

2.函数计算

求平均值与总和sum(),average()

日期加减法

首先,了解如何输入日期。

当前日期:年月日 today()

当前日期:年月日时分 now()

可以用day()函数对日期做计算

3.用函数DATEDIF计算

函数:DATEDIF(start_date,end_date,unit):返回两个日期之间的年/月/日 间隔数

其中unit的格式有:

“Y" 时间段中的整年数,"M"整月数,”D“天数

”MD“返回天数差,忽略年和月

”YM“返回月数,忽略日和年

”YD“返回天数,忽略日期中的年



三、数据分组

vlookup函数

=VLOOKUP(A2,$D$2:$E$12,2,1) 
为A2、A3……所在列在D2至E12范围内查找。
模糊匹配,所以D列与A列的匹配上,但不能大于A列的数。
第三个参数是2,所以返回的 是D2至E12范围内第二列里的元素。

四、数据转换

1.行列转换(选择性粘贴或Ctrl+Alt+V,选择转置)

2.多选题录入数据方式之间的转换

先介绍二分法和多重分类法

多重分类法转换成二分法--公式法

三个选项在不同单元格:用hlookup、isnumber、if函数

假设这里面要选3个,以第5行为例,客户选了2 3 4,对应选项为BCD,因为多选题,所以无关顺序,转换成二分法,则要寻找是否有A,是否有B,...以此类推。所以,二分法表格,应该在每个选项下面设置公式,判断客户是否做了这个选项。

F5=IF(ISNUMBER(HLOOKUP(1,B5:D5,1,0)),1,0)   :

HLOOKUP(1,B5:D5,1,0)在B5:D5找1,找到1所在列A列,再找1对应列的第一行数值,如果找到1,则返回1对应列的第一行数值,否则返回#N/A。

ISNUMBER(HLOOKUP(1,B5:D5,1,0))判断HLOOKUP(1,B5:D5,1,0)是否返回数值,TRUE,则返回FALSE。把这个结果给if函数,最后判断是否有1。

G5=IF(ISNUMBER(HLOOKUP(2,B5:D5,1,0)),1,0)

当多重分类法里的选项全部都输入在同一个单元格,则换一种方式做用search函数取代原来的hlookup函数

search函数的第一个参数是要找的数,如果找到,则返回那个数,否则就返回#value,因此也可以用于isnumber函数的判断。上图是这个方法的逻辑路线。从上到下对应函数嵌套的调用顺序。

时间: 2024-10-30 10:18:22

《谁说菜鸟不会数据分析》数据加工的相关文章

谁说菜鸟不会数据分析

本文首先对数据分析做了一个总体的描述,然后介绍数据分析的基本步骤,各步骤使用的工具都是excel.入门系列,不足颇多,望诸君指点. 参考书籍: <谁说菜鸟不会数据分析>(人门篇+工具篇) <Excel图表拒绝平庸> 总体介绍 所有的分析都是这六步,明确分析目的和思路-收集数据-数据处理-数据分析-数据展现-撰写报告.技能树也是围绕这六部展开,数据处理方面为数据清洗和加工,数据分析为统计学和数据挖掘,数据展现为数据可视化,撰写报告为PPT,而这些步骤中都可以用excel.python

谁说菜鸟不会数据分析-入门篇

第一章 数据分析那些事儿  1.1 数据分析是"神马" 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用.数据分析是 为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.    帮助管理者进行判断和决策 探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明. 分析方法:对比分析法.平均分析法.交叉分析法等 高级:相关分析.因子分析.回归分析等. 作用:现状

《谁说菜鸟不会数据分析》 读书笔记

1.数据分析步骤 2 常用指标:平均数,绝对数与相对数,百分比与百分点,频数与频率,比例与比率,倍数与番数,同比与环比 3 常用数据分析方法论 (1)PEST分析法 (2)5W2H (3) 逻辑树分析法(要素化.框架化 .关联化) (4)4p营销理论 (5)用户行为理论 4.数据处理的内容:数据清洗->数据加工 清洗:(1)重复数据的处理 (2)缺失数据处理 (3)检查数据逻辑错误 加工:(1)数据抽取 (2)数据计算 (3)数据分组 (4)行列转换 5 数据分析方法

菜鸟nginx源代码剖析数据结构篇(八) 缓冲区链表ngx_chain_t

菜鸟nginx源代码剖析数据结构篇(八) 缓冲区链表 ngx_chain_t Author:Echo Chen(陈斌) Email:[email protected]mail.com Blog:Blog.csdn.net/chen19870707 Date:Nov 6th, 2014 1.缓冲区链表结构ngx_chain_t和ngx_buf_t nginx的缓冲区链表例如以下图所看到的.ngx_chain_t为链表.ngx_buf_t为缓冲区结点: 2.源码位置 头文件:http://trac.

利用Python进行数据分析——数据规整化:清理、转换、合并、重塑(七)(2)

1.索引上的合并 有时候,DataFrame中的连接键位于其索引中.在这种情况下,你可以传入left_index = True或right_index = True(或两个都传)以说明索引应该被用作连接键: In [8]: left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'], ...: 'value':range(6)}) In [9]: right1 = pd.DataFrame({'group_val':[3.5, 7]},

谁说菜鸟不会数据分析(四)

在我们已经明确分析目标和思路,选区合适的数据方法论之后,就要进行数据采集和处理. 理解数据:①字段和记录 ②数据类型 ③数据表 ④ 数据来源: 关于ETL 1.数据清洗:清除重复的.补充缺失的.纠正错误的 2.数据加工:提取.计算.分组.转换 ①数据抽取:字段分列.字段和并.字段匹配. ②数据计算 ③数据分组 ④数据转换 3.数据抽样

菜鸟nginx源代码剖析数据结构篇(六) 哈希表 ngx_hash_t(上)

Author:Echo Chen(陈斌) Email:[email protected] Blog:Blog.csdn.net/chen19870707 Date:October 31h, 2014 1.哈希表ngx_hash_t的优势和特点 哈希表是一种典型的以空间换取时间的数据结构.在没有冲突的情况下,对随意元素的插入.索引.删除的时间复杂度都是O(1).这样优秀的时间复杂度是通过将元素的key值以hash方法f映射到哈希表中的某一个位置来訪问记录来实现的,即键值为key的元素必然存储在哈希

《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理

重复数据的处理 识别重复数据 删除重复数据 一.识别重复数据 函数法 高级筛选法 条件格式法 数据透视法 函数法 函数:=countif(范围,条件) 可以看出在列字段为A的范围内,"男"重复4次,"女"重复4次.那么,看到的重复项是第几个重复项呢?在countif函数中调节范围即可:=COUNTIF(A$2:A2,A2)----------A$2固定从A列的第二行开始,A2会变动,下拉时会变成A3,A4,A5...; ||   A$2:Ai: 范围从A的第2行到第

谁说菜鸟不会数据分析(二)

数据分析该如何进行呢? 在接触的项目当中,有一部分是基于现有的数据进行分析,也只是将现有的数据进行业务逻辑分析.但是,这样会直接导致一个问题,分析不全面,不会面面俱到.比如:对于房地产行业,影响销售的因素还包括国家政策.消费价格指数.人口规模政治.经济.社会因素,而这些数据时长不被纳入分析版块,仅仅围绕着销售数量的描述.同环比等等又有何意义呢?这些图表可以帮助企业决策吗,会具体到某一个细化版块,可以准确的定位到宣传不到位.地势不到位.销售能力不给力这些可控因素吗?或是国家政策一些不可控因素吗(在