决策链云智库 - 用户贡献 [zh-cn]

导出训练集

2024-01-24T06:37:44Z

Wurong：

{{Infobox nodebasic
|nodename=导出训练集
|nodeimage=Outport Train Data.png
|icon=Outport Train Data.svg
|simpleicon=Outport Train Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Outport Train Data
|abbreviation=OtptTrain
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将训练集格式转换成外部数据集的格式。/p>
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导出训练集
|previousnode=[[导入测试集]]
|nextnode=[[导出测试集]]
}}

== '''节点使用指南''' ==
主要用于导出训练集数据到外部成为通用端口，与[[导出测试集]]类似。从该节点导出数据并规范化后使数据成为可以用于其他分析节点可通用的数据类型。

=== '''参数配置''' ===
暂无

=== '''注意事项''' ===

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导出测试集

2024-01-24T06:37:11Z

Wurong：/* 节点使用指南 */

{{Infobox nodebasic
|nodename=导出测试集
|nodeimage=Outport Test Data.png
|icon=Outport Test Data.svg
|simpleicon=Outport Test Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Outport Test Data
|abbreviation=OtptTest
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将测试集格式转换成外部数据集的格式。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导出测试集
|previousnode=[[导出训练集]]
|nextnode=[[数据集整合]]
}}

== '''节点使用指南''' ==
主要用于导出测试集数据到外部成为通用端口，与[[导出训练集]]类似。从该节点导出数据并规范化后使数据成为可以用于其他分析节点可通用的数据类型。

=== '''参数配置''' ===
暂无

=== '''注意事项''' ===

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导出测试集

2024-01-24T06:36:42Z

Wurong：

{{Infobox nodebasic
|nodename=导出测试集
|nodeimage=Outport Test Data.png
|icon=Outport Test Data.svg
|simpleicon=Outport Test Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Outport Test Data
|abbreviation=OtptTest
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将测试集格式转换成外部数据集的格式。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导出测试集
|previousnode=[[导出训练集]]
|nextnode=[[数据集整合]]
}}

== '''节点使用指南''' ==
主要用于导出训练集数据到外部成为通用端口，与[[导出训练集]]类似。从该节点导出数据并规范化后使数据成为可以用于其他分析节点可通用的数据类型。

=== '''参数配置''' ===
暂无

=== '''注意事项''' ===

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导入训练集

2024-01-24T06:21:26Z

Wurong：

{{Infobox nodebasic
|nodename=导入训练集
|nodeimage=Import Outer Train Data.png
|icon=Import Outer Train Data.svg
|simpleicon=Import Outer Train Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Import Outer Train Data
|abbreviation=ImpOTrD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将导入的数据集转换成训练集。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导入训练集
|previousnode=[[拆分训练测试集]]
|nextnode=[[导入测试集]]
}}

== '''节点使用指南''' ==
主要用于从外部导入训练集数据进入模型，与[[导入测试集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入训练集端口的数据。

=== '''参数配置''' ===
暂无

=== '''注意事项''' ===

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导入测试集

2024-01-24T06:17:02Z

Wurong：/* 注意事项 */

{{Infobox nodebasic
|nodename=导入测试集
|nodeimage=Import Outer Test Data.png
|icon=Import Outer Test Data.svg
|simpleicon=Import Outer Test Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Import Outer Test Data
|abbreviation=ImpOTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将导入的数据集转换成测试集。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导入测试集
|previousnode=[[导入训练集]]
|nextnode=[[导出训练集]]
}}

== '''节点使用指南''' ==
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入测试集端口的数据。

=== '''参数配置''' ===
暂无

=== '''注意事项''' ===

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导入测试集

2024-01-24T06:16:32Z

Wurong：/* 参数配置 */

{{Infobox nodebasic
|nodename=导入测试集
|nodeimage=Import Outer Test Data.png
|icon=Import Outer Test Data.svg
|simpleicon=Import Outer Test Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Import Outer Test Data
|abbreviation=ImpOTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将导入的数据集转换成测试集。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导入测试集
|previousnode=[[导入训练集]]
|nextnode=[[导出训练集]]
}}

== '''节点使用指南''' ==
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入测试集端口的数据。

=== '''参数配置''' ===
暂无

=== '''注意事项''' ===
注意：文件夹下的表格的变量名必须一致，变量名不一致的表格无法合并读取。

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导入测试集

2024-01-24T06:16:07Z

Wurong：/* 节点使用指南 */

{{Infobox nodebasic
|nodename=导入测试集
|nodeimage=Import Outer Test Data.png
|icon=Import Outer Test Data.svg
|simpleicon=Import Outer Test Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Import Outer Test Data
|abbreviation=ImpOTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将导入的数据集转换成测试集。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导入测试集
|previousnode=[[导入训练集]]
|nextnode=[[导出训练集]]
}}

== '''节点使用指南''' ==
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入测试集端口的数据。

=== '''参数配置''' ===

=== '''注意事项''' ===
注意：文件夹下的表格的变量名必须一致，变量名不一致的表格无法合并读取。

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

导入测试集

2024-01-24T06:14:45Z

Wurong：

{{Infobox nodebasic
|nodename=导入测试集
|nodeimage=Import Outer Test Data.png
|icon=Import Outer Test Data.svg
|simpleicon=Import Outer Test Data_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Import Outer Test Data
|abbreviation=ImpOTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=将导入的数据集转换成测试集。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=NoParameterYet
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/导入测试集
|previousnode=[[导入训练集]]
|nextnode=[[导出训练集]]
}}

== '''节点使用指南''' ==
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。

=== '''参数配置''' ===

=== '''注意事项''' ===
注意：文件夹下的表格的变量名必须一致，变量名不一致的表格无法合并读取。

{{Navplate AlgorithmNodeList}}

[[Category:数据集导入导出]]

拆分训练测试集

2024-01-24T06:05:47Z

Wurong：/* 节点使用指南 */

{{Infobox nodebasic
|nodename=拆分训练测试集
|nodeimage=Split Training Test Datasets.png
|icon=Split Training Test Datasets.svg
|simpleicon=Split Training Test Datasets_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Split Training Test Datasets
|abbreviation=SliTraTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集
|previousnode=[[多重插补]]
|nextnode=[[导入训练集]]
}}

==算法概述==
拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。

拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：
#训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。
#测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。

==示例代码-拆分训练测试集节点==
该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=42)
</syntaxhighlight>

拆分后，训练集可以用于生成模型，测试集可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：一般用于所有的机器学习问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 设置测试集比例：设置测试集占整个数据的比例，一般可填0.8或0.7。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为一般数据集，导出的数据集为训练集和测试集，端口颜色都与导入端口不同，不可互通。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:数据集拆分]]

拆分训练测试集

2024-01-24T03:46:12Z

Wurong：/* 算法概述 */

{{Infobox nodebasic
|nodename=拆分训练测试集
|nodeimage=Split Training Test Datasets.png
|icon=Split Training Test Datasets.svg
|simpleicon=Split Training Test Datasets_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Split Training Test Datasets
|abbreviation=SliTraTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集
|previousnode=[[多重插补]]
|nextnode=[[导入训练集]]
}}

==算法概述==
拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。

拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：
#训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。
#测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。

==示例代码-拆分训练测试集节点==
该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=42)
</syntaxhighlight>

拆分后，训练集可以用于生成模型，测试集可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
** 决策树，
** 支持向量机。
* 估计器数量：默认为100。
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
** SAMME：离散增强算法。
** SAMME.R：真实增强算法。
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:数据集拆分]]

拆分训练测试集

2024-01-24T03:44:53Z

Wurong：/* 示例代码-拆分训练测试集节点 */

{{Infobox nodebasic
|nodename=拆分训练测试集
|nodeimage=Split Training Test Datasets.png
|icon=Split Training Test Datasets.svg
|simpleicon=Split Training Test Datasets_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Split Training Test Datasets
|abbreviation=SliTraTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集
|previousnode=[[多重插补]]
|nextnode=[[导入训练集]]
}}

==算法概述==

==示例代码-拆分训练测试集节点==
该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=42)
</syntaxhighlight>

拆分后，训练集可以用于生成模型，测试集可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
** 决策树，
** 支持向量机。
* 估计器数量：默认为100。
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
** SAMME：离散增强算法。
** SAMME.R：真实增强算法。
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:数据集拆分]]

拆分训练测试集

2024-01-24T02:20:03Z

Wurong：

{{Infobox nodebasic
|nodename=拆分训练测试集
|nodeimage=Split Training Test Datasets.png
|icon=Split Training Test Datasets.svg
|simpleicon=Split Training Test Datasets_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Split Training Test Datasets
|abbreviation=SliTraTD
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集
|previousnode=[[多重插补]]
|nextnode=[[导入训练集]]
}}

==算法概述==

==示例代码-拆分训练测试集节点==
该节点使用Python编写，调用scikit-learn包<ref>{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=4,
n_informative=2, n_redundant=0,
random_state=0, shuffle=False)
clf = AdaBoostClassifier(n_estimators=100, random_state=0)
clf.fit(X, y)
clf.predict([[0, 0, 0, 0]])
clf.score(X, y)
</syntaxhighlight>

拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
** 决策树，
** 支持向量机。
* 估计器数量：默认为100。
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
** SAMME：离散增强算法。
** SAMME.R：真实增强算法。
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:数据集拆分]]

SHAP

2024-01-23T06:28:46Z

Wurong：/* 参数配置 */

{{Infobox nodebasic
|nodename=SHAP
|nodeimage=SHAP.png
|icon=SHAP.svg
|simpleicon=SHAP_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=SHAP
|abbreviation=SHAP
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/SHAP
|previousnode=[[机器学习基础绘图节点]]
|nextnode=[[多模型评估节点]]
}}

==概述==
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。

=='''节点使用指南'''==
* 最适用的场景：中小数据集，变量不多的模型的可解释性分析。
===参数配置===
* 绘图方法选择：可多选双坐标折线图，柱状图，热图，热力散点图，蜂群图。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

SHAP

2024-01-23T06:26:49Z

Wurong：/* 注意事项 */

{{Infobox nodebasic
|nodename=SHAP
|nodeimage=SHAP.png
|icon=SHAP.svg
|simpleicon=SHAP_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=SHAP
|abbreviation=SHAP
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/SHAP
|previousnode=[[机器学习基础绘图节点]]
|nextnode=[[多模型评估节点]]
}}

==概述==
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。

=='''节点使用指南'''==
* 最适用的场景：中小数据集，变量不多的模型的可解释性分析。
===参数配置===
* 绘图方法选择：可多选双坐标直线图，柱状图，热图，热力散点图，蜂群图。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

SHAP

2024-01-23T06:23:17Z

Wurong：/* 节点使用指南 */

{{Infobox nodebasic
|nodename=SHAP
|nodeimage=SHAP.png
|icon=SHAP.svg
|simpleicon=SHAP_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=SHAP
|abbreviation=SHAP
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/SHAP
|previousnode=[[机器学习基础绘图节点]]
|nextnode=[[多模型评估节点]]
}}

==概述==
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。

=='''节点使用指南'''==
* 最适用的场景：中小数据集，变量不多的模型的可解释性分析。
===参数配置===
* 绘图方法选择：可多选双坐标直线图，柱状图，热图，热力散点图，蜂群图。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择"A_pred","B_pred"，真值也必须按照"A","B"的顺序勾选，不可按照"B","A"的顺序选择。
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

SHAP

2024-01-23T06:21:21Z

Wurong：/* 参数配置 */

{{Infobox nodebasic
|nodename=SHAP
|nodeimage=SHAP.png
|icon=SHAP.svg
|simpleicon=SHAP_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=SHAP
|abbreviation=SHAP
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/SHAP
|previousnode=[[机器学习基础绘图节点]]
|nextnode=[[多模型评估节点]]
}}

==概述==
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。
* 选择真值：选择测试值，可多选。

===参数配置===
* 绘图方法选择：可多选双坐标直线图，柱状图，热图，热力散点图，蜂群图。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择"A_pred","B_pred"，真值也必须按照"A","B"的顺序勾选，不可按照"B","A"的顺序选择。
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

SHAP

2024-01-23T06:20:25Z

Wurong：/* 概述 */

{{Infobox nodebasic
|nodename=SHAP
|nodeimage=SHAP.png
|icon=SHAP.svg
|simpleicon=SHAP_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=SHAP
|abbreviation=SHAP
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/SHAP
|previousnode=[[机器学习基础绘图节点]]
|nextnode=[[多模型评估节点]]
}}

==概述==
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。
* 选择真值：选择测试值，可多选。

===参数配置===
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择"A_pred","B_pred"，真值也必须按照"A","B"的顺序勾选，不可按照"B","A"的顺序选择。
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

SHAP

2024-01-23T06:19:46Z

Wurong：

{{Infobox nodebasic
|nodename=SHAP
|nodeimage=SHAP.png
|icon=SHAP.svg
|simpleicon=SHAP_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=SHAP
|abbreviation=SHAP
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/SHAP
|previousnode=[[机器学习基础绘图节点]]
|nextnode=[[多模型评估节点]]
}}

==概述==
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。
* 选择真值：选择测试值，可多选。

===参数配置===
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择"A_pred","B_pred"，真值也必须按照"A","B"的顺序勾选，不可按照"B","A"的顺序选择。
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

机器学习基础绘图节点

2024-01-23T06:07:47Z

Wurong：/* 注意事项 */

{{Infobox nodebasic
|nodename=机器学习基础绘图节点
|nodeimage=Machine Learning Basic Plotting.png
|icon=Machine Learning Basic Plotting.svg
|simpleicon=Machine Learning Basic Plotting_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Machine Learning Basic Plotting
|abbreviation=MLBPlot
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点
|previousnode=[[交叉熵]]
|nextnode=[[SHAP]]
}}

==概述==
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。
* 选择真值：选择测试值，可多选。

===参数配置===
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。

===注意事项===
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择"A_pred","B_pred"，真值也必须按照"A","B"的顺序勾选，不可按照"B","A"的顺序选择。
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

机器学习基础绘图节点

2024-01-23T06:05:02Z

Wurong：/* 变量配置 */

{{Infobox nodebasic
|nodename=机器学习基础绘图节点
|nodeimage=Machine Learning Basic Plotting.png
|icon=Machine Learning Basic Plotting.svg
|simpleicon=Machine Learning Basic Plotting_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Machine Learning Basic Plotting
|abbreviation=MLBPlot
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点
|previousnode=[[交叉熵]]
|nextnode=[[SHAP]]
}}

==概述==
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。
* 选择真值：选择测试值，可多选。

===参数配置===
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。

===注意事项===
* 不支持带空值运算，
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

机器学习基础绘图节点

2024-01-23T03:59:36Z

Wurong：/* 参数配置 */

{{Infobox nodebasic
|nodename=机器学习基础绘图节点
|nodeimage=Machine Learning Basic Plotting.png
|icon=Machine Learning Basic Plotting.svg
|simpleicon=Machine Learning Basic Plotting_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Machine Learning Basic Plotting
|abbreviation=MLBPlot
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点
|previousnode=[[交叉熵]]
|nextnode=[[SHAP]]
}}

==概述==
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。

===注意事项===
* 不支持带空值运算，
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

机器学习基础绘图节点

2024-01-23T03:56:59Z

Wurong：/* 注意事项 */

{{Infobox nodebasic
|nodename=机器学习基础绘图节点
|nodeimage=Machine Learning Basic Plotting.png
|icon=Machine Learning Basic Plotting.svg
|simpleicon=Machine Learning Basic Plotting_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Machine Learning Basic Plotting
|abbreviation=MLBPlot
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点
|previousnode=[[交叉熵]]
|nextnode=[[SHAP]]
}}

==概述==
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
** 决策树，
** 支持向量机。
* 估计器数量：默认为100。
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
** SAMME：离散增强算法。
** SAMME.R：真实增强算法。
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

===注意事项===
* 不支持带空值运算，
* 节点可选出图，
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

机器学习基础绘图节点

2024-01-23T03:55:05Z

Wurong：/* 概述 */

{{Infobox nodebasic
|nodename=机器学习基础绘图节点
|nodeimage=Machine Learning Basic Plotting.png
|icon=Machine Learning Basic Plotting.svg
|simpleicon=Machine Learning Basic Plotting_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Machine Learning Basic Plotting
|abbreviation=MLBPlot
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点
|previousnode=[[交叉熵]]
|nextnode=[[SHAP]]
}}

==概述==
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
** 决策树，
** 支持向量机。
* 估计器数量：默认为100。
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
** SAMME：离散增强算法。
** SAMME.R：真实增强算法。
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

机器学习基础绘图节点

2024-01-23T03:54:19Z

Wurong：

{{Infobox nodebasic
|nodename=机器学习基础绘图节点
|nodeimage=Machine Learning Basic Plotting.png
|icon=Machine Learning Basic Plotting.svg
|simpleicon=Machine Learning Basic Plotting_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Machine Learning Basic Plotting
|abbreviation=MLBPlot
|funcmaincategory=机器学习
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。
|nodeinputnumber=2
|nodeoutputnumber=2
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点
|previousnode=[[交叉熵]]
|nextnode=[[SHAP]]
}}

==概述==
该节点为包含[[ROC曲线]]，PR曲线，DCA曲线和矫正曲线的机器学习绘图节点。

=='''节点使用指南'''==
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。
** 决策树，
** 支持向量机。
* 估计器数量：默认为100。
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。
** SAMME：离散增强算法。
** SAMME.R：真实增强算法。
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:模型评估]]

LightGBM

2024-01-23T03:41:32Z

Wurong：/* 示例代码-LightGBM分类节点 */

{{Infobox nodebasic
|nodename=LightGBM
|nodeimage=Boosting_LightGBM Learner.png
|icon=Boosting_LightGBM Learner.svg
|simpleicon=Boosting_LightGBM Learner_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Boosting_LightGBM Learner
|abbreviation=LightGBM
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/LightGBM
|previousnode=[[Logistic分类器]]
|nextnode=[[随机森林]]
}}

==算法概述==
LightGBM(Light Gradient-Boosting Machine)<ref>"LightGBM." Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc., 22 Jan. 2024. Web. 22 Jan. 2024.</ref>，是一个用于机器学习的免费开源分布式梯度提升框架，最初由微软开发。它基于决策树算法，用于排序、分类和其他机器学习任务。开发的重点是性能和可扩展性。

==示例代码-LightGBM分类节点==
该节点使用Python编写，调用lightgbm包<ref>{{cite web
| title = lightgbm pakage
| url = https://github.com/microsoft/LightGBM
| access-date = 2024-01-22
}}</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import lightgbm as lgb
import numpy as np

data = np.random.rand(500, 10) # 500 entities, each contains 10 features
label = np.random.randint(2, size=500) # binary target
train_data = lgb.Dataset(data, label=label)

num_round = 10
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)
</syntaxhighlight>
如果想使用完全代码请参考：https://lightgbm.readthedocs.io/en/stable/Python-Intro.html

拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 弱学习器类型：
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。
* 学习率：默认为0.1。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:分类训练器]]

采样方法

2024-01-23T03:36:46Z

Wurong：/* 变量配置 */

2024-01-22T03:07:46Z

Wurong：/* 算法概述 */

{{Infobox nodebasic
|nodename=XGBoost
|nodeimage=Boosting_XGBoost.png
|icon=Boosting_XGBoost.svg
|simpleicon=Boosting_XGBoost_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Boosting_XGBoost
|abbreviation=XGBoost
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/XGBoost
|previousnode=[[AdaBoost]]
|nextnode=[[CatBoost]]
}}

==算法概述==
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）<ref>{{cite conference
| title = Xgboost: A scalable tree boosting system
| author1 = Tianqi Chen
| author2 = Carlos Guestrin
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
| pages = 785–794
| year = 2016
}}</ref>的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。

==示例代码-XGBoost分类节点==
该节点使用Python编写，调用xgboost包<ref>Chen, Tianqi; Guestrin, Carlos (2016). "Xgboost: A scalable tree boosting system". In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 785–794.</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import xgboost as xgb
# Load Pandas Data
data = np.random.rand(5, 10) # 5 entities, each contains 10 features
label = np.random.randint(2, size=5) # binary target
dtrain = xgb.DMatrix(data, label=label)

num_round = 10
bst = xgb.train(param, dtrain, num_round, evallist)

</syntaxhighlight>
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python

拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 弱学习器类型：
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。
* 学习率：默认0.1。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:分类训练器]]

XGBoost

2024-01-22T03:06:47Z

Wurong：/* 算法概述 */

{{Infobox nodebasic
|nodename=XGBoost
|nodeimage=Boosting_XGBoost.png
|icon=Boosting_XGBoost.svg
|simpleicon=Boosting_XGBoost_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Boosting_XGBoost
|abbreviation=XGBoost
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/XGBoost
|previousnode=[[AdaBoost]]
|nextnode=[[CatBoost]]
}}

==算法概述==
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）<ref>{{cite conference
| title = Xgboost: A scalable tree boosting system
| author1 = Tianqi Chen
| author2 = Carlos Guestrin
| Publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
| pages = 785–794
| year = 2016
}}</ref>的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。

==示例代码-XGBoost分类节点==
该节点使用Python编写，调用xgboost包<ref>Chen, Tianqi; Guestrin, Carlos (2016). "Xgboost: A scalable tree boosting system". In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 785–794.</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import xgboost as xgb
# Load Pandas Data
data = np.random.rand(5, 10) # 5 entities, each contains 10 features
label = np.random.randint(2, size=5) # binary target
dtrain = xgb.DMatrix(data, label=label)

num_round = 10
bst = xgb.train(param, dtrain, num_round, evallist)

</syntaxhighlight>
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python

拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 弱学习器类型：
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。
* 学习率：默认0.1。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:分类训练器]]

XGBoost

2024-01-22T03:03:52Z

Wurong：/* 参数配置 */

{{Infobox nodebasic
|nodename=XGBoost
|nodeimage=Boosting_XGBoost.png
|icon=Boosting_XGBoost.svg
|simpleicon=Boosting_XGBoost_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Boosting_XGBoost
|abbreviation=XGBoost
|funcmaincategory=机器学习
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]
|nodecategory=数据挖掘
|nodeinterpretor=Python
|nodeshortdescription=XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。
|nodeinputnumber=2
|nodeoutputnumber=3
|nodeloopsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/XGBoost
|previousnode=[[AdaBoost]]
|nextnode=[[CatBoost]]
}}

==算法概述==
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）<ref>{{cite conference
| title = Xgboost: A scalable tree boosting system
| author1 = Tianqi Chen
| author2 = Carlos Guestrin
| booktitle = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
| pages = 785–794
| year = 2016
}}</ref>的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。

==示例代码-XGBoost分类节点==
该节点使用Python编写，调用xgboost包<ref>Chen, Tianqi; Guestrin, Carlos (2016). "Xgboost: A scalable tree boosting system". In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 785–794.</ref>。以下为示例代码：
<syntaxhighlight lang="Python">
import xgboost as xgb
# Load Pandas Data
data = np.random.rand(5, 10) # 5 entities, each contains 10 features
label = np.random.randint(2, size=5) # binary target
dtrain = xgb.DMatrix(data, label=label)

num_round = 10
bst = xgb.train(param, dtrain, num_round, evallist)

</syntaxhighlight>
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python

拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。

=='''节点使用指南'''==
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。
===变量配置===
* 选择特征变量：作为特征进行学习的变量（X），多选。
* 选择目标变量：作为结局的二分类变量（y），单选。

===参数配置===
* 设置随机数：控制模型的随机性。
* 弱学习器类型：
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。
* 学习率：默认0.1。

===注意事项===
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，
* 节点不出图，
* 导入该节点的数据端口为训练数据集，导入前注意转换。

== 参考文献 ==
{{reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:分类训练器]]