catboost原理以及Python代码

原论文：

http://learningsys.org/nips17/assets/papers/paper_11.pdf

catboost原理：

One-hot编码可以在预处理阶段或在训练期间完成。后者对于训练时间而言能更有效地执行，并在Catboost中执行。

类别特征：

为了减少过拟合以及使用整个数据集进行训练，Catboost使用更有效的策略。

1、对输入的观察值的集合进行随机排列，生成多个随机排列；

2、给定一个序列，对于每个例子，对于相同类别的例子我们计算平均样本值；

3、使用如下公式将所有的分类特征值转换为数值：

让，那么可以代替为

在这里，我们还增加了先验值P和参数a>0，即为先验的权重。添加先验是一种常见的做法，它有助于减少从低频类别获得的噪声。

特征组合：

在数据集中，组合的数量随类别特征个数成指数型增长，在算法中不太可能考虑所有。在当前树考虑新的拆分时，Catboost以贪婪的方式考虑组合。

1、第一次分裂不考虑任何组合在树上；

2、对于下一次分类，在有所有类别特征的数据集的当前树，Catboost包含了所有的组合和分类特征。组合值即被转换为数字；

3、 Catboost还以以下方式生成数值和类别特征的组合:在树中选择的所有分裂视为具有两个值的类别，并在组合中也类似使用。

python代码：

import catboost

model = CatBoostClassifier(iterations=17000,

# depth = 6,

learning_rate = 0.03,

custom_loss=‘AUC‘,

eval_metric=‘AUC‘,

bagging_temperature=0.83,

od_type=‘Iter‘,

rsm = 0.78,

od_wait=150,

metric_period = 400,

l2_leaf_reg = 5,

thread_count = 20,

random_seed = 967

)

model.fit(tr_x, tr_y, eval_set=(te_x, te_y),use_best_model=True)

pre= model.predict_proba(te_x)[:,1].reshape((te_x.shape[0],1))

train[test_index]=pre

test_pre[i, :]= model.predict_proba(test_x)[:,1].reshape((test_x.shape[0],1))

print (roc_auc_score(te_y, pre))

cv_scores.append(roc_auc_score(te_y, pre))

原文地址：https://www.cnblogs.com/dudumiaomiao/p/9693711.html

时间： 2024-11-09 20:12:46

catboost原理以及Python代码的相关文章

深入浅出通信原理（Python代码版）

深入浅出通信原理Python代码版深入浅出通信原理是陈爱军的心血之作,于通信人家园连载,此处仅作python代码笔记训练所用陈老师的连载从多项式乘法讲起,一步一步引出卷积.傅立叶级数展开.旋转向量.三维频谱.IQ调制.数字调制等一系列通信原理知识连载1:从多项式乘法说起 \[ (x+1)(x^2+2x+5)=x^3+3x^2+7x+5 \] import sympy x = sympy.Symbol('x') sympy.expand((x+1)*(x*x+2*x+5)) 这种计算方法总结

PCA主成分分析原理讲解 python代码实现

本文参考自:https://github.com/apachecn/AiLearning/blob/master/src/py2.x/ml/13.PCA/pca.py https://github.com/lawlite19/MachineLearning_Python#%E5%85%ADpca%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E9%99%8D%E7%BB%B4 1. 用途: 通俗来说: 考察一个人的智力情况,就直接看数学成绩就行(存在:

快速指数算法+python代码

算法原理: Python代码: 1 def kuaiSuZhiShu(di, zhiShu, mod): 2 zhiShu2 = bin(zhiShu)[2:] 3 length = len(zhiShu2) 4 jieGuo = di**int(zhiShu2[0]) 5 for i in range(1, length): 6 jieGuo = jieGuo**2 % mod 7 jieGuo = jieGuo*di**int(zhiShu2[i]) % mod 8 return jieGu

paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例

#---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs enPHati 4. cn vs enPhAtiSmp #两个方法,一个获得enPhAtied代码,一个获得哪的smp版本.. def convert2atiEnPnNoSpltr(old): a=old.replace("@", "").replace("-", "") return a def Smp(old): &quo

深度学习原理详解及Python代码实现

深度学习框架如Tensorflow和Pytorch等为用户提供了可供调用的API,但也隐藏了深度学习底层的实现细节. 为方便大家更加深入地理解深度学习原理并了解其底层实现方法,特此推出了<课程深度学习原理详解及Python代码实现>.期望能"掀起你的盖头来,让我看看你的模样",为深度学习进一步的优化和创新打下根基. 课程链接:https://edu.51cto.com/course/21426.html 本课程详细讲解深度学习原理并进行Python代码实现.课程内容涵盖感知

研磨设计模式解析及python代码实现——(一)简单工厂模式

最近在学设计模式,正巧书之前学了些python,但用的还不是很成熟.<研磨设计模式>书上只给了java代码,本着以练手为目标,我照着书上打了一遍java代码,在仔细体会其思想后,将其写成了python的代码.有不对的地方希望各位批评指正~ 具体原理不多做介绍,具体可以参考http://chjavach.iteye.com的博客,或者<研磨设计模式>的书. 一.背景介绍接口思想: 众所周知,面向对象语言最大的特点便是封装,继承,多态这三个概念.而像Java等面向对象语言最核心的思想

主成分分析法原理及其python实现

主成分分析法原理及其python实现前言: 这片文章主要参考了Andrew Ng的Machine Learning课程讲义,我进行了翻译,并配上了一个python演示demo加深理解. 本文主要介绍一种降维算法,主成分分析法,Principal Components Analysis,简称PCA,这种方法的目标是找到一个数据近似集中的子空间,至于如何找到这个子空间,下文会给出详细的介绍,PCA比其他降维算法更加直接,只需要进行一次特征向量的计算即可.(在Matlab,python,R中这个可以

朴素贝叶斯分类算法原理分析与代码实现

前言本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现. 词向量朴素贝叶斯分类算法常常用于文档的分类,而且实践证明效果是挺不错的. 在说明原理之前,先介绍一个叫词向量的概念. --- 它一般是一个布尔类型的集合,该集合中每个元素都表示其对应的单词是否在文档中出现. 对应关系和词汇表一一对应. 比如说,词汇表只有三个单词:'apple', 'orange', 'melo',某文档中,apple和melo出现过,那么其对应的词向量就是 {1, 0, 1}. 这种模型

Python代码运行助手(6)----帮助你走的更久

Python代码运行助手可以让你在线输入Python代码,然后通过本机运行的一个Python脚本来执行代码.原理如下: 在网页输入代码: 点击Run按钮,代码被发送到本机正在运行的Python代码运行助手: Python代码运行助手将代码保存为临时文件,然后调用Python解释器执行代码: 网页显示代码执行结果: 下载点击右键,目标另存为:learning.py 备用下载地址:learning.py 运行在存放learning.py的目录下运行命令: C:\Users\michael\Dow