GBRT(Gradient Boost Regression Tree)渐进梯度回归树,XGBoost是GBRT的一个工程实现
LR(Logistics Regression )逻辑回归
Spark Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Spark允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。
Scala 是一门编程语言,可在Spark上编程。有新颖的面向对象方式、类型推断、灵活的语法、新的集合类(包括自然的函数式编程风格,比如映射/过滤器惯用语),以及基于actor的并发模型。
点击率预测主要使用LR(Logistics Regression 逻辑回归)的线性策略,该方法的主要问题之一是需要人工大量的时间去挑选和组合特征,而使用树模型(tree model)则可以大大减轻这个工作量。
XGBoost是GBRT的一个工程实现,由多棵决策树构成,每一棵树都是从之前的残差中学习的,有很好的性能并且泛化能力也很强。
所以可以使用XGBoost来特征选择,用LR来输出CTR分数。
参考:
(1)Spark MLlib实现的广告点击预测–Gradient-Boosted Trees http://blog.csdn.net/bitcarmanlee/article/details/52138713
时间: 2024-10-08 10:08:57