CatBoost：修订间差异

CatBoost
节点状态	/ Win10及以上可用在V1.0部署
CatBoost
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Boosting_CatBoost
功能主类别	机器学习
英文缩写	CatBoost
功能亚类别	分类训练器
节点类型	数据挖掘
开发语言	Python
节点简介
	CatBoost是一种基于梯度提升树的机器学习算法，由Yandex开发。它专门用于处理分类问题，并具有许多独特的特性和优势。 CatBoost旨在提供高性能、可扩展且易于使用的机器学习解决方案。
端口数量与逻辑控制(PC)
Input-入口	2个
Output-出口	3个
Loop-支持循环	否
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）不支持连接制图节点; 可生成数据表类型（推荐）由节点生成的数据源; 可配置参数例型变量列表; 下拉菜单; 文本输入; 入口类型控制流程 ➤; 传输源数据表 ■; 出口类型控制流程 ➤; 传输模型 ▶; 传输源数据表 ■;
相关节点
上一节点	XGBoost
下一节点	Logistic分类器
相关网站 ;

2024年1月22日 (一) 10:20的最新版本

算法概述

CatBoost是Yandex开发的开源软件库。它提供了一个梯度增强框架，其中尝试使用与经典算法相比的排列驱动替代方案来解决分类特征^[1]。它适用于Linux、Windows、macOS，并且可用于 Python、R，并且使用 catboost 构建的模型可用于C++、Java、C#、Rust、Core ML中的预测、ONNX和PMML。源代码已根据Apache 许可证获得许可，并可在 GitHub 上获取。

示例代码-CatBoost分类节点

该节点使用Python编写，调用catboost包^[2]。以下为示例代码：

from catboost import CatBoostClassifier
model = CatBoostClassifier(
    iterations=15,
    verbose=3
)
model.fit(
    X_train, y_train,
    cat_features=cat_features,
    eval_set=(X_validation, y_validation),
)

如果想使用完全代码请参考：https://github.com/catboost/tutorials/

拟合后，模型可以用于预测样本的类别，可以在通用预测模块实现内外部测试集的预测。

节点使用指南

最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。

变量配置

选择特征变量：作为特征进行学习的变量（X），多选。
选择目标变量：作为结局的二分类变量（y），单选。

参数配置

设置随机数：控制模型的随机性。
评估算法：训练中使用的指标。指定的值还决定了要解决的机器学习问题。可选Logloss, 交叉熵, Precision, Recall, F1, MCC。
树深：树的最大深度。
迭代次数：使用CatBoost解决机器学习问题时可以构建的最大迭代次数。
学习率：默认0.1。

注意事项

不支持带空值运算，用多重插补或插补空值进行插补，
节点不出图，
导入该节点的数据端口为训练数据集，导入前注意转换。

参考文献

↑ Zhang, Yixiao; Zhao, Zhongguo; Zheng, Jianghua (2020). "CatBoost: A new approach for estimating daily reference crop evapotranspiration in arid and semi-arid regions of Northern China." Journal of Hydrology 588: 125087. Elsevier.
↑ Hancock, John T.; Khoshgoftaar, Taghi M. (2020). "CatBoost for big data: an interdisciplinary review." Journal of big data 7(1): 1-45.

查找其他类别的节点，请参考以下列表

数据输入

多CSV表合并读取多Excel表合并读取导入CSV数据导入Excel数据导入SAV数据导入TSV数据

变量处理

中文变量名替换更新变量名标准化变量名转换变量类型

行列处理

行处理

去重样本样本量计数筛选样本筛选行空值过滤表格

矩阵处理

矩阵变换聚合表格

表格处理

分层变量循环转列表多表数据连接抽样数据合并数据连接

描述性统计

描述统计

数据分析描述统计

统计检验

正态性检验

单因素正态性检验多因素正态性检验

参数检验

Friedman检验两样本配对T检验两独立样本T检验单样本T检验

非参数检验

Ridit分析游程检验秩和检验符号检验

频数表检验

Fisher精确检验G检验Mantel-Haenszel检验McNemar检验卡方检验

方差分析

F检验One Way ANCOVAOne Way ANOVATwo Way ANCOVATwo Way ANOVAWelch检验多元方差分析多重比较方差分析方差齐性检验球形检验

相关分析

一般线性相关分析典型相关分析组内相关系数混合效应组内相关系数随机效应

回归分析

时序分析

时序平稳性检验时间序列聚类时间序列预测正弦曲线回归趋势检验

潜变量分析

潜类别模型

潜类别分析潜类别增长模型潜类别混合增长模型验证性因子分析

生存分析

IDI和NRIKM生存曲线单因素COX回归多因素COX回归多因素竞争风险模型智能筛选限制性立方样条节点竞争风险模型限制性平均生存时间限制性立方样条

多元分析

中介效应主成分分析(PCA)信度分析倾向性评分匹配双重差分模型多重对应分析孟德尔随机化异常值分析拉格朗日乘数检验最大似然因子分析碎石检验筛查自变量共线性聚类分析调节效应豪斯曼检验面板数据效应模型

综合分析

多重插补

数据集操作

数据集拆分

拆分训练测试集

数据集导入导出

导入测试集导入训练集导出测试集导出训练集

数据集整理

数据集整合

分类器

分类训练器

AdaBoostCatBoostLightGBMLogistic分类器XGBoost决策树支持向量机朴素贝叶斯梯度提升树采样方法随机森林

分类预测器

通用预测模块

交叉验证与模型评估

模型评估

PR曲线ROC曲线SHAP交叉熵交叉验证交叉验证结果整合基础评估节点多模型评估节点平均类准确率拟合优度机器学习基础绘图节点混淆矩阵

神经网络

数据神经网络

环境检测

运行环境检测

深度学习环境检测

图像处理

图像I/O

图像读取成对图像读取

图像格式处理

医学图像格式转换图像格式转换

图像滤波和平滑

低通滤波图像平滑图像模糊小波变换带通滤波高通滤波

几何变换

仿射变换分段仿射变换图像剪裁图像旋转图像缩放图像翻转

颜色空间转换

RGB2HSV图像明暗图像灰化图像色度图像饱和度

图像直方图

图像信号直方图局部直方图均衡化直方图均衡化

图像运算处理

图像算术

图像锐化处理

傅里叶变换图像对比度增强图像锐化快速傅里叶变换

图像形态学

边缘检测

图文处理

特征检测

图像分割

图像识别

[1] Zhang, Yixiao; Zhao, Zhongguo; Zheng, Jianghua (2020). "CatBoost: A new approach for estimating daily reference crop evapotranspiration in arid and semi-arid regions of Northern China." Journal of Hydrology 588: 125087. Elsevier.

[2] Hancock, John T.; Khoshgoftaar, Taghi M. (2020). "CatBoost for big data: an interdisciplinary review." Journal of big data 7(1): 1-45.

[1]

[2]

@@ 第7行： / 第7行： @@
 |productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
 |productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
-|nodeenglishname=[[Has english name::Boosting_CatBoost]]
+|nodeenglishname=Boosting_CatBoost
-|abbreviation=[[Has abbreviation::CatBoost]]
+|abbreviation=CatBoost
 |funcmaincategory=机器学习
 |funcsubcategory=[[DataML Lv1 Cat::分类训练器]]
@@ 第27行： / 第27行： @@
 |nextnode=[[Logistic分类器]]
 }}
 ==算法概述==
-AdaBoost是Adaptive Boosting的缩写，是Yoav Freund和Robert Schapire于1995年制定的一种统计分类元算法<ref>{{cite book |author1=Freund, Yoav |author2=Schapire, Robert E. |title=A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting |publisher=Springer Berlin Heidelberg |location=Berlin, Heidelberg |year=1995 |pages=23–37 |doi=10.1007/3-540-59119-2_166 |isbn=978-3-540-59119-1}}</ref>，他们的工作获得了2003年哥德尔奖。它可以与许多其他类型的学习算法结合使用，以提高性能。其他学习算法（“基础估计器”）的输出被组合成表示增强分类器的最终输出的加权和。通常，AdaBoost是用于二进制分类的，尽管它可以推广到多个类上的有界区间。AdaBoost首先在原始数据集上拟合分类模型，然后在同一数据集上匹配分类模型的附加副本，但其中调整了错误分类实例的权重，使后续分类器更多地关注被错误分类的情况。<ref>{{cite journal |author1=Hastie, Trevor |author2=Rosset, Saharon |author3=Zhu, Ji |author4=Zou, Hui |title=Multi-class AdaBoost |journal=Statistics and Its Interface |volume=2 |issue=3 |year=2009 |pages=349–360}}</ref>
+CatBoost是Yandex开发的开源软件库。它提供了一个梯度增强框架，其中尝试使用与经典算法相比的排列驱动替代方案来解决分类特征<ref>Zhang, Yixiao; Zhao, Zhongguo; Zheng, Jianghua (2020). "CatBoost: A new approach for estimating daily reference crop evapotranspiration in arid and semi-arid regions of Northern China." ''Journal of Hydrology'' 588: 125087. Elsevier.</ref>。它适用于Linux、Windows、macOS，并且可用于 Python、R，并且使用 catboost 构建的模型可用于C++、Java、C#、Rust、Core ML中的预测、ONNX和PMML。源代码已根据Apache 许可证获得许可，并可在 GitHub 上获取。
 ==示例代码-CatBoost分类节点==
-该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：
+该节点使用Python编写，调用catboost包<ref>Hancock, John T.; Khoshgoftaar, Taghi M. (2020). "CatBoost for big data: an interdisciplinary review." ''Journal of big data'' 7(1): 1-45.</ref>。以下为示例代码：
 <syntaxhighlight lang="Python">
 from catboost import CatBoostClassifier
@@ 第45行： / 第44行： @@
 )
 </syntaxhighlight>
+如果想使用完全代码请参考：https://github.com/catboost/tutorials/
 拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。
@@ 第57行： / 第57行： @@
 ===参数配置===
 * 设置随机数：控制模型的随机性。
-* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
+* 评估算法：训练中使用的指标。指定的值还决定了要解决的机器学习问题。可选Logloss, 交叉熵, Precision, Recall, F1, MCC。
-** 决策树，
+* 树深：树的最大深度。
-** 支持向量机。
+* 迭代次数：使用CatBoost解决机器学习问题时可以构建的最大迭代次数。
-* 估计器数量：默认为100。
+* 学习率：默认0.1。
-* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
-** SAMME：离散增强算法。
-** SAMME.R：真实增强算法。
-* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。
 ===注意事项===
@@ 第73行： / 第69行： @@
 == 参考文献 ==
 {{reflist}}
 {{Navplate AlgorithmNodeList}}
 [[Category:分类训练器]]

CatBoost

节点状态	/ Win10及以上可用在V1.0部署
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Boosting_CatBoost
功能主类别	机器学习
英文缩写	CatBoost
功能亚类别	分类训练器
节点类型	数据挖掘
开发语言	Python
节点简介
CatBoost是一种基于梯度提升树的机器学习算法，由Yandex开发。它专门用于处理分类问题，并具有许多独特的特性和优势。 CatBoost旨在提供高性能、可扩展且易于使用的机器学习解决方案。
端口数量与逻辑控制(PC)
Input-入口	2个
Output-出口	3个
Loop-支持循环	否
If/Switch-支持逻辑判断	否
输入输出
可生成图片类型（推荐）不支持连接制图节点可生成数据表类型（推荐）由节点生成的数据源可配置参数例型变量列表下拉菜单文本输入入口类型控制流程 ➤ 传输源数据表 ■ 出口类型控制流程 ➤ 传输模型 ▶ 传输源数据表 ■
相关节点
上一节点	XGBoost
下一节点	Logistic分类器
相关网站