gbdt+lr代码

import numpy as np np.random.seed(10)


import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

from sklearn.linear_model import LogisticRegression

from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,

                              GradientBoostingClassifier)

from sklearn.preprocessing import OneHotEncoder

from sklearn.model_selection import train_test_split

from sklearn.metrics import roc_curve

from sklearn.pipeline import make_pipeline
n_estimator = 10

X, y = make_classification(n_samples=80000)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
X_train, X_train_lr, y_train, y_train_lr = train_test_split(X_train,

                                                            y_train,

                                                            test_size=0.5)
rf = RandomForestClassifier(max_depth=3, n_estimators=n_estimator)

rf_enc = OneHotEncoder()

rf_lm = LogisticRegression()

rf.fit(X_train, y_train)

rf_enc.fit(rf.apply(X_train))

rf_lm.fit(rf_enc.transform(rf.apply(X_train_lr)), y_train_lr)
y_pred_rf_lm = rf_lm.predict_proba(rf_enc.transform(rf.apply(X_test)))[:, 1]

fpr_rf_lm, tpr_rf_lm, _ = roc_curve(y_test, y_pred_rf_lm)
grd = GradientBoostingClassifier(n_estimators=n_estimator)
grd_enc = OneHotEncoder()
grd_lm = LogisticRegression()
grd.fit(X_train, y_train)  #GBDT建模

grd_enc.fit(grd.apply(X_train)[:, :, 0])

grd_lm.fit(grd_enc.transform(grd.apply(X_train_lr)[:, :, 0]), y_train_lr)
y_pred_grd_lm = grd_lm.predict_proba(

    grd_enc.transform(grd.apply(X_test)[:, :, 0]))[:, 1]

fpr_grd_lm, tpr_grd_lm, _ = roc_curve(y_test, y_pred_grd_lm)
y_pred_grd = grd.predict_proba(X_test)[:, 1]

fpr_grd, tpr_grd, _ = roc_curve(y_test, y_pred_grd)
y_pred_rf = rf.predict_proba(X_test)[:, 1]

fpr_rf, tpr_rf, _ = roc_curve(y_test, y_pred_rf)

plt.figure(2) plt.xlim(0, 0.2) plt.ylim(0.8, 1) plt.plot([0, 1], [0, 1], ‘k--‘) plt.plot(fpr_rf, tpr_rf, label=‘RF‘) plt.plot(fpr_rf_lm, tpr_rf_lm, label=‘RF + LR‘) plt.plot(fpr_grd, tpr_grd, label=‘GBT‘) plt.plot(fpr_grd_lm, tpr_grd_lm, label=‘GBT + LR‘) plt.xlabel(‘False positive rate‘) plt.ylabel(‘True positive rate‘) plt.title(‘ROC curve (zoomed in at top left)‘) plt.legend(loc=‘best‘) plt.show()

原文地址：http://blog.51cto.com/yixianwei/2156791

时间： 2024-11-10 13:07:17

gbdt+lr代码的相关文章

GBDT+LR simple例子

卧槽,本来猜GBDT获取的组合特征,需要自己去解析GBDT的树,scikit learn里面竟然直接调用apply函数就可以了 # 弱分类器的数目 n_estimator = 10 # 随机生成分类数据. X, y = make_classification(n_samples=80000) # 切分为测试集和训练集,比例0.5 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5) # 将训练集切分为两部

CTR预估中GBDT与LR融合方案

http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1.背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入.CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值.LR,逻辑

Spark2.0机器学习系列之6：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树. GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net等,其实它们都是一个东西(参考自wikipedia – Gradient Boosting),发明者是Friedman. 研究GBDT一定要看看Friedman的pa

CTR预估-GBDT与LR实现

1.来源本质上 GBDT+LR 是一种具有 stacking 思想的二分类器模型,所以可以用来解决二分类问题.这个方法出自于 Facebook 2014 年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook . 2.使用场景 GBDT+LR 使用最广泛的场景是 CTR 点击率预估,即预测当给用户推送的广告会不会被用户点击.点击率预估模型涉及的训练样本一般是上亿级别,样本量大,模型常采用速度较快的 LR.但 LR 是线性

决策树和基于决策树的集成方法（DT,RF,GBDT,XGB）复习总结

摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,学习思想包括ID3,C4.5,CART(摘自<统计学习方法>). 1.2 Bagging :基于数据随机重抽样的集成方法(Ensemble methods),也称为自举汇聚法(boostrap aggregating),整个数据集是

数赛刷题代码学习

1.数据城堡 -- 猜你喜欢 2.数据城堡 -- 微额借款用户人品预测大赛 3.阿里天池 -- 需求预测与分仓规划 4.kaggle -- 14年CTR预测(GBDT+LR/FM) 5.魔镜 -- 风控 6.kaggle -- allstate-purchase-prediction-challenge (预测对7种商品选项的购买) 7.kaggle -- walmart-recruiting-trip-type-classification

人工智能学习线路

学习人工智能有段时间了,总结了一下人工智能的学习历程和课程表,希望对想学习的朋友有所帮助.期间也买了很多资料.可以分享给大家. 阶段一:数学基础 1.数据分析常数e 导数梯度 Taylor gini系数信息熵与组合数 2.概率论概率论基础古典模型常见概率分布大数定理和中心极限定理协方差(矩阵)和相关系数最大似然估计和最大后验估计 3.线性代数及矩阵线性空间及线性变换矩阵的基本概念状态转移矩阵特征向量矩阵的相关乘法矩阵的QR分解对称矩阵.正交矩阵.正定矩阵矩阵的S

深度学习在搜索业务中的探索与实践

本文根据美团高级技术专家翟艺涛在2018 QCon全球软件开发大会上的演讲内容整理而成,内容有修改. 引言 2018年12月31日,美团酒店单日入住间夜突破200万,再次创下行业的新纪录,而酒店搜索在其中起到了非常重要的作用.本文会首先介绍一下酒店搜索的业务特点,作为O2O搜索的一种,酒店搜索和传统的搜索排序相比存在很大的不同.第二部分介绍深度学习在酒店搜索NLP中的应用.第三部分会介绍深度排序模型在酒店搜索的演进路线,因为酒店业务的特点和历史原因,美团酒店搜索的模型演进路线可能跟大部分公司都不