这些年，在数据挖掘项目中踩的“坑”

数据挖掘项目是一个涉及的环节也比较多，而且高度依赖数据的项目。所以在其中一个过程中遇到点坑，简直太正常不过了。
需求不明确是第一大坑。需求不明确会把后面的分析方向完全带沟沟里面去，也容易被迫接受一些不可能完成的挖掘目标和商业目标。不过这种一般只会发生在一个公司刚开始有这个岗位的时候，随着项目的增加，后面大家普遍就知道数据挖掘的极限了，也知道数据挖掘任务所存在的风险了，便不会提出不可能完成的目标了。说一个曾经被带沟沟里去的需求。有一次接到领导说做一个需求，要找出影响用户忠诚度的关键因子，然后我吭哧吭哧的提取数要求，等数据，写分析报告，确认了几个关键因子，然后去见客户才发现人家提的是影响高端用户粘性的因子。范围都不对，大受打击。此处避坑方式，可以去接触一线客户的时候，不要退缩，一定要了解他们的真实想法，不要被口口相传后带歪了，然后白干了。
数据本身质量问题是第二大坑。大部分生产系统收集的数据都不是专门为做挖掘而做的，基本都是为直接盈利而存在的，所以也就只有直接影响到市场营销的指标最可靠。别的辅助指标，只能说质量实在一般。我们提出的上百个指标，真正能用的有20来个就不错了。除了数据在记录的时候可能发生的错误问题，还可能是数据精度/偏倚和准确率，数据不一致，数据遗漏，数据离群点，数据重复等问题。没别的避坑方式，只能是尽可能多的了解系统的基础数据，搜集各方信息，在想法设法的提高数据质量的基础上发散思维生成更多分析维度，然后尽人事知天命！
取数过程中发生的数据问题是第三大坑。尤其记得刚毕业那年，还是个小透明的时候。有一次做一个甲方的挖掘项目，因为第二天要交付（取数周期长耽误了工期），一伙人拿着乱七八糟的数据分析到凌晨3点，结果发现一个关键ID都弄错了，导致全部数据都没法用。那种想死的心情，那种想杀人的心情。也给我们一个血的教训，千万不要因为信任某个人或者项目时间紧而放弃认真检查数据。数据有问题就只能打回去重整，就算是时间紧也没办法。不过话说回来，本来从各个数据仓库取数就是个又杂又累的苦活，好一点的取数人员只是犯的傻逼错误少一些。有些逻辑上考虑不全是正常的。而且他们对于数据的指标含义什么的，不像我们这么敏感，他们也是要在短时间内完成任务。所以此处的避坑方式其实也很简单，那就是检查数据！检查数据！检查数据！！！
如果说前面的三大坑还算是可以填满的，那么接下来要说的超级大坑靠我们普通小辈基本填不满的。那就是能否得到实权人物的支持。说到底，数据挖掘到现在为止，还只是个锦上添花的事业。对于广大身处各种生产问题无法自拔的一线人员和实权领导，是不会有时间和精力来做这些锦上添花的事情的。因此项目经常因为这样或那样的问题延期或者拒绝上线。总的来说，数据挖掘的理论和技术都发展的比较成熟了。但是受现阶段采集数据和系统建设的影响，要真正达到高级应用阶段还有一段距离。现在更多的是停留在数据分析和数据可视化阶段。
做项目就是这样，克服困难完成任务才是重点。处理问题才能体现我们的价值嘛。如果项目顺利什么问题都没有不就变成了搞科研了吗？

原文地址：https://www.cnblogs.com/xiaotangqiu/p/9484157.html

时间： 2024-11-06 09:43:08

这些年，在数据挖掘项目中踩的“坑”

这些年，在数据挖掘项目中踩的“坑”的相关文章

2019爬虫项目总结——我在项目中踩的那些坑

使用vue cli开发项目中遇到的坑

django使用过程的中踩的坑

golang 学习过程中踩的坑

项目中的那些事---踩过的数据库坑

记录某项目中的踩坑与解决（持续更新）

最近项目中使用Spring data jpa 踩过的坑

在Unity3D项目中接入ShareSDK实现安卓平台微信分享功能（可使用ShareSDK默认UI或自定义UI）

【Fine原创】JMeter分布式测试中踩过的那些坑