在WX时做了两年的数据提取,处理了七八百个需求,基本是每天都有。曾经有段时间,我还挺喜欢提数据的,因为简单轻松不用太动脑。虽然领导时不时也会强调一下,在提取数据时要多和业务方讨论。但讨论的目的是砍掉一些意义不大的指标,以减少数据提取的耗时,因为领导觉得数据提取是一件很low的事情,没啥技术含量。所以在WX的时间里,我一直以为数据提取就只是数据提取。
所以,它的正确处理方式就应该是:需求方发来一封邮件,上面简要写着分析背景,分析目的以及详细的指标体系。收到邮件后,我需要先认真阅读邮件中的每一个指标,把自己认为有歧义的指标和需求方进行沟通确认,然后编写提取代码,最后将结果数据导成一个excel回复给需求方,任务就到此结束。我能额外做的就是,将需求中经常提到的指标的计算代码保存下来,模块化,以便下次提取时只需要做简单修改,不需要完全重新编写。为了进一步减少代码编写的时间,我甚至还写了几个模板框架,用于不同类型的指标提取。每次只需要做很小的改动,就可以提出绝大部分的指标,而剩下的那小部分指标,就还是需要老老实实完成。
到VIP后,部门里全是分析师,他们的任务也和以前差不多,业务方发来需求邮件,他们提取数据,再将结果已邮件回复。大致看上去差不多,但不同之处就在于对需求的理解上,即使需求方发来的是非常详细的指标体系,他们也会逐一地和需求方沟通。沟通的目的虽然也是向砍掉一部分意义不大的指标,但更主要的是想知道详细的分析背景和目的,然后从问题出发,以专业的角度重新梳理指标。待提出数据后,再将结果进行加工分析,最后以半结论半数据的方式反馈给需求方。如此以来,就很少有需求方会提出具体的指标,而是提出问题,让分析师来提供分析方案,从而留给分析师更大的发挥空间,进入良性循环。
而在老东家,数据提取是由ETL小组在完成,被定位成了程序员的工作,所以一直不受重视。外部数据需求由ETL组完成了,那数据分析小组就需要自己去开拓业务。但新业务拓展一直不太顺利,需求较少,队伍也就慢慢萎缩,由曾经的12人变成了现在的4,5人吧。如果能回到以前,最佳工作方式应该是由数据分析小组对接所有数据提取需求,他们在提取过程中同时完成分析。ETL小组专注于数据仓库,开发宽表,完善数据平台,协助分析小组。分析小组将需求中的共性抽离出来,形成数据产品,同时还要引导需求方如何更好的使用数据。绝大多数需求方对数据的理解都是有限的,所以他们的需求也是有限的。如果要拓展业务,就要首先教会他们如何更好的使用数据,如何基于数据完成决策。业务和数据应该是一体的