AdaBoost：修订间差异 - 决策链云智库

第1行：

~~{{Infobox nodebasic~~

#Redirect [[AdaBoost]]

~~|nodename=AdaBoost~~

~~|nodeimage=Boosting_AdaBoost.png~~

~~|icon=Boosting_AdaBoost.svg~~

~~|simpleicon=Boosting_AdaBoost_Pure.svg~~

~~|developer=Dev.Team-DPS~~

~~|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用~~

~~|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署~~

~~|nodeenglishname=[[Has english name::Boosting_AdaBoost]]~~

~~|abbreviation=[[Has abbreviation::AdaBoost]]~~

~~|funcmaincategory=机器学习~~

~~|funcsubcategory=~~[[~~DataML Lv1 Cat::分类训练器]]~~

~~|nodecategory=数据挖掘~~

~~|nodeinterpretor=Python~~

|nodeshortdescription=<p>AdaBoost（Adaptive Boosting）是一种集成学习算法，通过迭代地训练一系列的弱学习器（通常是决策树），并将它们组合成一个强大的预测模型。</p><p>与其他集成学习方法不同，AdaBoost通过调整样本权重来适应先前弱学习器的错误，从而提高整体模型的准确性。</p>

~~|nodeinputnumber=2~~

~~|nodeoutputnumber=3~~

~~|nodeloopsupport=否~~

~~|nodeifswitchsupport=否~~

~~|nodeavailableplotlist=nodenoplotoutput~~

~~|nodeavailabletablelist=Table_For_Downstream~~

~~|nodeconfiguration=VariableList;DropMenu;Text~~

~~|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■~~

~~|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■~~

~~|statsapewikiurl=https://wiki.statsape.com/~~AdaBoost

~~|previousnode=[[梯度提升树]]~~

~~|nextnode=[[XGBoost]]~~

}}

~~==算法概述==~~

AdaBoost是Adaptive Boosting的缩写，是Yoav Freund和Robert Schapire于1995年制定的一种统计分类元算法<ref>{{cite book |author1=Freund, Yoav |author2=Schapire, Robert E. |title=A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting |publisher=Springer Berlin Heidelberg |location=Berlin, Heidelberg |year=1995 |pages=23–37 |doi=10.1007/3-540-59119-2_166 |isbn=978-3-540-59119-1}}</ref>，他们的工作获得了2003年哥德尔奖。它可以与许多其他类型的学习算法结合使用，以提高性能。其他学习算法（“基础估计器”）的输出被组合成表示增强分类器的最终输出的加权和。通常，AdaBoost是用于二进制分类的，尽管它可以推广到多个类上的有界区间。AdaBoost首先在原始数据集上拟合分类模型，然后在同一数据集上匹配分类模型的附加副本，但其中调整了错误分类实例的权重，使后续分类器更多地关注被错误分类的情况。<ref>{{cite journal |author1=Hastie, Trevor |author2=Rosset, Saharon |author3=Zhu, Ji |author4=Zou, Hui |title=Multi-class AdaBoost |journal=Statistics and Its Interface |volume=2 |issue=3 |year=2009 |pages=349–360}}</ref>

~~==示例代码-AdaBoost分类节点==~~

该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：

~~<syntaxhighlight lang="Python">~~

~~from sklearn.ensemble import AdaBoostClassifier~~

~~from sklearn.datasets import make_classification~~

~~X, y = make_classification(n_samples=1000, n_features=4,~~

~~n_informative=2, n_redundant=0,~~

~~random_state=0, shuffle=False)~~

~~clf = AdaBoostClassifier(n_estimators=100, random_state=0)~~

~~clf.fit(X, y)~~

~~clf.predict([[0, 0, 0, 0]])~~

~~clf.score(X, y)~~

~~</syntaxhighlight>~~

~~拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。~~

~~=='''节点使用指南'''==~~

* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。

* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。

~~===变量配置===~~

* 选择特征变量：作为特征进行学习的变量（X），多选。

* 选择目标变量：作为结局的二分类变量（y），单选。

~~===参数配置===~~

* 设置随机数：控制模型的随机性。

* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。

** 决策树，

** 支持向量机。

* 估计器数量：默认为100。

* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。

** SAMME：离散增强算法。

** SAMME.R：真实增强算法。

* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

~~===注意事项===~~

* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，

* 节点不出图，

* 导入该节点的数据端口为训练数据集，导入前注意转换。

~~== 参考文献 ==~~

~~{{reflist}}~~

~~{{Navplate AlgorithmNodeList}}~~

~~[[Category:分类训练器~~]]

@@ 第1行： / 第1行： @@
-{{Infobox nodebasic
+#Redirect [[AdaBoost]]
-|nodename=AdaBoost
-|nodeimage=Boosting_AdaBoost.png
-|icon=Boosting_AdaBoost.svg
-|simpleicon=Boosting_AdaBoost_Pure.svg
-|developer=Dev.Team-DPS
-|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
-|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
-|nodeenglishname=[[Has english name::Boosting_AdaBoost]]
-|abbreviation=[[Has abbreviation::AdaBoost]]
-|funcmaincategory=机器学习
-|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]
-|nodecategory=数据挖掘
-|nodeinterpretor=Python
-|nodeshortdescription=<p>AdaBoost（Adaptive Boosting）是一种集成学习算法，通过迭代地训练一系列的弱学习器（通常是决策树），并将它们组合成一个强大的预测模型。</p><p>与其他集成学习方法不同，AdaBoost通过调整样本权重来适应先前弱学习器的错误，从而提高整体模型的准确性。</p>
-|nodeinputnumber=2
-|nodeoutputnumber=3
-|nodeloopsupport=否
-|nodeifswitchsupport=否
-|nodeavailableplotlist=nodenoplotoutput
-|nodeavailabletablelist=Table_For_Downstream
-|nodeconfiguration=VariableList;DropMenu;Text
-|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
-|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■
-|statsapewikiurl=https://wiki.statsape.com/AdaBoost
-|previousnode=[[梯度提升树]]
-|nextnode=[[XGBoost]]
-}}
-==算法概述==
-AdaBoost是Adaptive Boosting的缩写，是Yoav Freund和Robert Schapire于1995年制定的一种统计分类元算法<ref>{{cite book |author1=Freund, Yoav |author2=Schapire, Robert E. |title=A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting |publisher=Springer Berlin Heidelberg |location=Berlin, Heidelberg |year=1995 |pages=23–37 |doi=10.1007/3-540-59119-2_166 |isbn=978-3-540-59119-1}}</ref>，他们的工作获得了2003年哥德尔奖。它可以与许多其他类型的学习算法结合使用，以提高性能。其他学习算法（“基础估计器”）的输出被组合成表示增强分类器的最终输出的加权和。通常，AdaBoost是用于二进制分类的，尽管它可以推广到多个类上的有界区间。AdaBoost首先在原始数据集上拟合分类模型，然后在同一数据集上匹配分类模型的附加副本，但其中调整了错误分类实例的权重，使后续分类器更多地关注被错误分类的情况。<ref>{{cite journal |author1=Hastie, Trevor |author2=Rosset, Saharon |author3=Zhu, Ji |author4=Zou, Hui |title=Multi-class AdaBoost |journal=Statistics and Its Interface |volume=2 |issue=3 |year=2009 |pages=349–360}}</ref>
-==示例代码-AdaBoost分类节点==
-该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：
-<syntaxhighlight lang="Python">
-from sklearn.ensemble import AdaBoostClassifier
-from sklearn.datasets import make_classification
-X, y = make_classification(n_samples=1000, n_features=4,
-                           n_informative=2, n_redundant=0,
-                           random_state=0, shuffle=False)
-clf = AdaBoostClassifier(n_estimators=100, random_state=0)
-clf.fit(X, y)
-clf.predict([[0, 0, 0, 0]])
-clf.score(X, y)
-</syntaxhighlight>
-拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。
-=='''节点使用指南'''==
-* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
-* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
-===变量配置===
-* 选择特征变量：作为特征进行学习的变量（X），多选。
-* 选择目标变量：作为结局的二分类变量（y），单选。
-===参数配置===
-* 设置随机数：控制模型的随机性。
-* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
-** 决策树，
-** 支持向量机。
-* 估计器数量：默认为100。
-* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
-** SAMME：离散增强算法。
-** SAMME.R：真实增强算法。
-* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。
-===注意事项===
-* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
-* 节点不出图，
-* 导入该节点的数据端口为训练数据集，导入前注意转换。
-== 参考文献 ==
-{{reflist}}
-{{Navplate AlgorithmNodeList}}
-[[Category:分类训练器]]

2024年1月19日 (五) 18:09的版本