catboost原理以及Python代码

原论文:

   http://learningsys.org/nips17/assets/papers/paper_11.pdf

catboost原理:

One-hot编码可以在预处理阶段或在训练期间完成。后者对于训练时间而言能更有效地执行,并在Catboost中执行。

类别特征:

为了减少过拟合以及使用整个数据集进行训练,Catboost使用更有效的策略。

1、对输入的观察值的集合进行随机排列,生成多个随机排列;

2、给定一个序列,对于每个例子,对于相同类别的例子我们计算平均样本值;

3、使用如下公式将所有的分类特征值转换为数值:

,那么可以代替为

在这里,我们还增加了先验值P和参数a>0,即为先验的权重。添加先验是一种常见的做法,它有助于减少从低频类别获得的噪声。

特征组合:

在数据集中,组合的数量随类别特征个数成指数型增长,在算法中不太可能考虑所有。在当前树考虑新的拆分时,Catboost以贪婪的方式考虑组合。

1、 第一次分裂不考虑任何组合在树上;

2、 对于下一次分类,在有所有类别特征的数据集的当前树,Catboost包含了所有的组合和分类特征。组合值即被转换为数字;

3、 Catboost还以以下方式生成数值和类别特征的组合:在树中选择的所有分裂视为具有两个值的类别,并在组合中也类似使用。

python代码:

import catboost

model = CatBoostClassifier(iterations=17000,

#                              depth = 6,

learning_rate = 0.03,

custom_loss=‘AUC‘,

eval_metric=‘AUC‘,

bagging_temperature=0.83,

od_type=‘Iter‘,

rsm = 0.78,

od_wait=150,

metric_period = 400,

l2_leaf_reg = 5,

thread_count = 20,

random_seed = 967

)

model.fit(tr_x, tr_y, eval_set=(te_x, te_y),use_best_model=True)

pre= model.predict_proba(te_x)[:,1].reshape((te_x.shape[0],1))

train[test_index]=pre

test_pre[i, :]= model.predict_proba(test_x)[:,1].reshape((test_x.shape[0],1))

print (roc_auc_score(te_y, pre))

cv_scores.append(roc_auc_score(te_y, pre))

原文地址:https://www.cnblogs.com/dudumiaomiao/p/9693711.html

时间: 2024-08-29 23:21:50

catboost原理以及Python代码的相关文章

深入浅出通信原理(Python代码版)

深入浅出通信原理Python代码版 深入浅出通信原理是陈爱军的心血之作,于通信人家园连载,此处仅作python代码笔记训练所用 陈老师的连载从多项式乘法讲起,一步一步引出卷积.傅立叶级数展开.旋转向量.三维频谱.IQ调制.数字调制等一系列通信原理知识 连载1:从多项式乘法说起 \[ (x+1)(x^2+2x+5)=x^3+3x^2+7x+5 \] import sympy x = sympy.Symbol('x') sympy.expand((x+1)*(x*x+2*x+5)) 这种计算方法总结

PCA主成分分析 原理讲解 python代码实现

本文参考自:https://github.com/apachecn/AiLearning/blob/master/src/py2.x/ml/13.PCA/pca.py https://github.com/lawlite19/MachineLearning_Python#%E5%85%ADpca%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E9%99%8D%E7%BB%B4 1. 用途: 通俗来说: 考察一个人的智力情况,就直接看数学成绩就行(存在:

快速指数算法+python代码

算法原理: Python代码: 1 def kuaiSuZhiShu(di, zhiShu, mod): 2 zhiShu2 = bin(zhiShu)[2:] 3 length = len(zhiShu2) 4 jieGuo = di**int(zhiShu2[0]) 5 for i in range(1, length): 6 jieGuo = jieGuo**2 % mod 7 jieGuo = jieGuo*di**int(zhiShu2[i]) % mod 8 return jieGu

paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例

#---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs enPHati 4. cn vs enPhAtiSmp #两个方法,一个获得enPhAtied代码,一个获得哪的smp版本.. def convert2atiEnPnNoSpltr(old): a=old.replace("@", "").replace("-", "") return a def Smp(old): &quo

深度学习原理详解及Python代码实现

深度学习框架如Tensorflow和Pytorch等为用户提供了可供调用的API,但也隐藏了深度学习底层的实现细节. 为方便大家更加深入地理解深度学习原理并了解其底层实现方法,特此推出了<课程深度学习原理详解及Python代码实现>.期望能"掀起你的盖头来,让我看看你的模样",为深度学习进一步的优化和创新打下根基. 课程链接:https://edu.51cto.com/course/21426.html 本课程详细讲解深度学习原理并进行Python代码实现.课程内容涵盖感知

研磨设计模式解析及python代码实现——(一)简单工厂模式

最近在学设计模式,正巧书之前学了些python,但用的还不是很成熟.<研磨设计模式>书上只给了java代码,本着以练手为目标,我照着书上打了一遍java代码,在仔细体会其思想后,将其写成了python的代码.有不对的地方希望各位批评指正~ 具体原理不多做介绍,具体可以参考http://chjavach.iteye.com的博客,或者<研磨设计模式>的书. 一.背景介绍 接口思想: 众所周知,面向对象语言最大的特点便是封装,继承,多态这三个概念.而像Java等面向对象语言最核心的思想

主成分分析法原理及其python实现

主成分分析法原理及其python实现 前言: 这片文章主要参考了Andrew Ng的Machine Learning课程讲义,我进行了翻译,并配上了一个python演示demo加深理解. 本文主要介绍一种降维算法,主成分分析法,Principal Components Analysis,简称PCA,这种方法的目标是找到一个数据近似集中的子空间,至于如何找到这个子空间,下文会给出详细的介绍,PCA比其他降维算法更加直接,只需要进行一次特征向量的计算即可.(在Matlab,python,R中这个可以

朴素贝叶斯分类算法原理分析与代码实现

前言 本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现. 词向量 朴素贝叶斯分类算法常常用于文档的分类,而且实践证明效果是挺不错的. 在说明原理之前,先介绍一个叫词向量的概念. --- 它一般是一个布尔类型的集合,该集合中每个元素都表示其对应的单词是否在文档中出现. 对应关系和词汇表一一对应. 比如说,词汇表只有三个单词:'apple', 'orange', 'melo',某文档中,apple和melo出现过,那么其对应的词向量就是 {1, 0, 1}. 这种模型

Python代码运行助手(6)----帮助你走的更久

Python代码运行助手可以让你在线输入Python代码,然后通过本机运行的一个Python脚本来执行代码.原理如下: 在网页输入代码: 点击Run按钮,代码被发送到本机正在运行的Python代码运行助手: Python代码运行助手将代码保存为临时文件,然后调用Python解释器执行代码: 网页显示代码执行结果: 下载 点击右键,目标另存为:learning.py 备用下载地址:learning.py 运行 在存放learning.py的目录下运行命令: C:\Users\michael\Dow