大数据-基于Spark的机器学习-智能客户系统项目实战

网盘地址:https://pan.baidu.com/s/19-U_XwIUZUENNgmz6VysMQ 密码: j288

备用地址(腾讯微云):https://share.weiyun.com/90d4d9196a9d86c74aabe8df78cdc624 密码:uq2q3w

项目背景:
1、现在很多平台客户关系管理系统都是使用传统的CRM,所有的信息全靠手工录入,用户寻找上下游企业或者信息只能靠手工去查找并且标注。

2、大数据时代的到来,人工智能,云计算,先进的分析,用机器去替代人工的部分,从 2016 年趋势看,机器学习和人工智能 (AI) 将在未来几年内将会彻底改变 CRM。

因此我们对CRM进行了改造,主要有如下部分:
1、企业信息、商品信息来自互联网,机器学习去自动统计分析并且分类。
2、用户录入的商品信息和新从互联网爬来的商品信息全部通过机器学习计算的模型去分类。
3、机器学习自动计算企业和供求信息上下游。
4、机器学习每隔一段时间自动去优化计算模型。

整个项目基本思路是如何通过爬虫爬取大量数据放到Hbase,然后通过ETL工具初步转化筛选将数据存到mongodb,抽取mongodb的数据进行清洗处理算出模型放到hdfs。后续进来数据通过模型运算出数据的类型。项目系统主要包括前端+后端+机器学习,前端采用React Native,Native,后端采用Dubbo+Spring+java,机器学习采用Spark进行实现,本项目机器学习-spark代码运行在mesos上。

原文地址:http://blog.51cto.com/10867883/2083319

时间: 2024-08-14 09:13:07

大数据-基于Spark的机器学习-智能客户系统项目实战的相关文章

走在大数据的边缘 基于Spark的机器学习-智能客户系统项目实战(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

基于大数据技术之电视收视率企业项目实战(hadoop+Spark)张长志(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据系统学习零基础入门到精通加项目实战2017最新全套视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心API已经稳定: 从功能的角度考虑使用最新版本的Spark 1.0.2也是非常好的,Spark 1.0.2在Spark 1.0.1的基础上做了非常多的改进: Spark 1.0.2改进参考 http://spark.apache.org/releases/spark-release-1-0-2.ht

王家林每日大数据语录Spark篇

王家林每日大数据语录Spark篇0043(2015.12.15于上海):Worker在退出的时候会通过ExecutorRunner杀死Executor并且会将运行在当前Worker下的Driver Client删除掉,最终AppClient端的SparkDeploySchedulerBackend会收到Master发过来的StatusUpdate信息来处理Executor丢失的信息,Task会被重新分配. 王家林每日大数据语录Spark篇0042(2015.12.15于上海):生产环境下Spar

【互动问答分享】第2期决胜云计算大数据时代Spark亚太研究院公益大讲堂

"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第2期互动问答分享] Q1:新手学习spark如何入手才好? 先学习Scala的内容,强烈推荐<快学Scala>: 然后按照我们免费发布的"云计算分布式大数据Spark实战高手之路(共3本书)"循序渐进的学习即可,其中"云计算分布式大数据Spark实战高手之路---从零开始"涵盖了Spark1.0的所有主题:包括Spark集群的构建,Spark架构设计.Spark内核

【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有公司在使用: Q2:impala和spark sql如何选择呢? Impala已经被官方宣布“安乐死”,被官方温柔的放弃: Spark SQL是Spark的核心子框架,同时能够和图计算.机器学习框架无缝集成,强烈推荐使用! Q3:如果有程序采用流式不停往tachyon集群写数据,但tachyon内存

Splunk 会议回想: 大数据的关键是机器学习

作者 Jonathan Allen ,译者 张晓鹏 Splunk的用户大会已经接近尾声.三天时间的会议里,共进行了160多个主题研讨,涵盖了从安全.运营到商业智能,甚至包含物联网.会议中一遍又一遍出现同样的中心主题:大数据的关键是机器学习. 存储不再是一个问题.从执行Hadoop兼容节点的专用存储硬件.到数百台使用普通硬盘的计算机组成的集群.毫无疑问,我们具备了处理这类存储问题的能力. 还有一方面,像Splunk这种分析和可视化工具也应运而生.假设你知道你要找什么,这些工具能够非常快给你所须要的

Splunk 会议回顾: 大数据的关键是机器学习

作者 Jonathan Allen ,译者 张晓鹏 Splunk的用户大会已经接近尾声.三天时间的会议里,共进行了160多个主题研讨,涵盖了从安全.运营到商业智能,甚至包括物联网,会议中一遍又一遍出现相同的中心主题:大数据的关键是机器学习. 存储不再是一个问题.从运行Hadoop兼容节点的专用存储硬件,到数百台使用普通硬盘的计算机组成的集群,毫无疑问,我们具备了处理这类存储问题的能力.另一方面,像Splunk这样的分析和可视化工具也应运而生.如果你知道你要找什么,这些工具可以很快给你所需要的答案