大数据项目——互联网精准营销——数据清洗

使用kettle进行数据清洗:

 1.新建转换去除手机销售信息表的重复记录
  要求:去除该字段中的所有空格,方便后续聚合统计,字母统一大小写,去除该字段中的所有特殊字符(各种标点符号)

这里可选用排序加去重组件,也可用哈希去重。然后用字符串操作去括号,大小写统一。字符串替换的正则表达式去除特殊字符。

2.新建转换去除用户评论信息表的重复记录

  和上面的操作差不多,一个去重

3. 新建转换处理用户信息表中出生日期字段(将 2019 年 5 月 20 日转换为 2019-5-20)
这个我仍然用的正则,把年月(填写为“(年|月)”)改成“-”   把 日 替换为空

效果:

原文地址:https://www.cnblogs.com/zhaochenguang/p/11484272.html

时间: 2024-10-18 12:19:21

大数据项目——互联网精准营销——数据清洗的相关文章

大数据时代如何精准营销?

近年来,同质化商品.频繁的价格战.店铺租金上涨.电子商务的冲击等因素导致零售企业利润不断下降,在当今大数据时代,谁能顺应时代的改变进行改革,谁就能抓住新的发展机遇. 零售企业通过多年的运营,掌握了大量的一手数据资料,如果能从这些数据中发现其隐藏的价值,掌握消费者的消费行为规律,预测消费者的购买意图,就能体现精确的营销策略.将以产品为导向的传统营销模式改为以消费者为导向的精确营销模式,是零售企业提高核心竞争力的有效方式. 大数据是指数据规模大到不能使用传统分析方法在合理时间内进行有效的处理.大数据

阿里,腾讯内部十二个大数据项目,你都有做过吗?

随着社会的进步,大数据的高需求,高薪资,高待遇,促使很多人都来学习和转行到大数据这个行业.学习大数据是为了什么?成为一名大数据高级工程师.而大数据工程师能得到高薪.高待遇的能力在哪?自然是项目经验.下面给大家大概介绍一下在阿里的"双11"."双12"."双旦"即将到来的"618"与腾讯大数据都用上的十二个大数据项目:阿里,腾讯内部十二个大数据项目,你都有做过吗?一个大数据分析项目关键构成如下: 信息采集组.数据清洗组.数据融合

读《大数据的互联网思维》有感

前言: 9月末,在图书馆借了一本<大数据的互联网思维>,20天的课外时间刚刚看完书的一半章节,做了一部分思维导图,虽然不打算再看了,但心中不免有一些想法及思考要一吐为快. 在读书之前,有几个疑问,如下: 大数据是什么? 互联网思维是什么? 大数据为什么要用到互联网思维? 大数据如何使用互联网思维? 大数据+互联网思维能带来什么? 当看完书中的一些章节后,疑问释然而解. 正文: 大数据是什么? 借用百度百科来说,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理

【网络大数据】大数据时代:网络营销能否颠覆传统?

大数据分析_大数据技术_大数据处理_云计算数据中心 网络大数据(www.raincent.com)整合了大数据分析,大数据处理,大数据技术,云计算数据等服务为一体,力争打造国内数一数二的网络数据处理平台. 众所周知,构成世界的三大要素为物质,能源和信息.由于互联网的迅猛发展,一场人类历史上从未有过的庞大商业变革正发生在我们面前,那就是网络营销+大数据时代. 千思传媒根据美国马萨诸塞州的EMC公司的调查报告表明,2011年全球被创建和被复制的数字总量是1.8ZB,相当于两千多亿个时长为两小时的视频

大数据项目如何更好应用用例规范管理测试用例

大数据项目如何更好的管理测试用例,其重要性不言而喻:其中最有效的一个方法就是强而有力的执行用例的编写规范:以下是经验总结的用例编写规范.用例编写规范分为两部分:第一部分:功能测试用例编写规范(一)测试用例编写规范:1.需求(算法)文档路径:2.ER-Win.数据字典: 测试目的: 前置条件: 操作步骤:1.2. 预期结果: (二)SQL用例编写规范:1)每个表必须要使用有意义的别名:2)当使用表连接时,要关联的从表字段必须要放在左边,主表字段放在右边: --要求,比例: 正确的示范: selec

脑科学与云计算,大数据,互联网

摘要 : 研究者已经从不同方面对物联网,云计算,大数据进行了深入研究并取得诸多成果.但还存在一些问题等待解决,例如,物联网,云计算,大数据与互联网是怎样的关系,它们之间又是如何区分和关联的.本世纪初开始的互联网与脑科学的交叉对比研究,为分析物联网,云计算,大数据与互联网的关系奠定了基础. 1   脑科学与互联网 本世纪初,随着互联网的发展,不断有新的应用和概念诞生,其中物联网,云计算和大数据得到了研究者的重点关注,并引起广泛的研究热潮. 研究者已经从不同方面对物联网,云计算,大数据进行了深入研究

【CSWS2014 Summer School】大数据下的游戏营销模式革新-邓大付

大数据下的游戏营销模式革新 邓大付博士腾讯专家工程师 Bio:毕业于华中科技大学,现任腾讯IEG运营部数据中心技术副总监,负责腾讯游戏的数据挖掘相关工作,包括有用户画像,推荐系统,基础算法研究等.主要感兴趣的领域包括有分布式计算平台系统架构,机器学习算法等. =================================================== 这个讲座时间比较短,内容也比较少,不过还是让我开拓了眼界,比如TX游戏数据的规模.游戏服务器的规模以及游戏中一些算法.模型的应用. ==

大数据项目之测试标准化

数据项目确保数据质量是最重要的事. 但作为开发人员的我,一直对代码的热情远高于数据,这是不应该的. 因为凡是涉及到数据的项目,数据质量的重要性远远比代码重要. 理解数据,比优化代码更重要,只有在保证数据质量的前提下,再优化代码才是锦上添花. 责任心是安全之魂,标准化是安全之本. 还有时候,开发周期比较短,开发人员一急躁,没有做完整的测试,或当时办公室温度比较燥, 引发其心理比较烦躁,就极容易造成代码质量的下降,但这些都不重要,最重要的是我们需要有一个 标准化的测试流程,无论在什么样的情况下,代码

大数据赋予互联网金融充沛活力

当前互联网金融如火如荼,除了为数众多的互联网公司推出的各种“宝宝”类产品外,p2p.众筹等在街头巷议中也总是被人津津乐道.当然,在互联网金融一片风光的形势下,各大不甘寂寞的金融公司也是纷纷试水,由其推出的各种创新产品和服务更是层出不穷. 一位专家表示,从去年开始,陆续有基金公司和互联网企业就大数据方面的合作进行密谈,“这是互联网金融朝着更深层次进发的必然结果,毕竟,互联网除了用户群以外,更为核心的就是用户群背后的‘大数据’.”这一切告诉我们,互联网金融之所以能发展的这么好,其背后的创新动力之一正