<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>https://wiki.statsape.com/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Wurong</id>
	<title>决策链云智库 - 用户贡献 [zh-cn]</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.statsape.com/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Wurong"/>
	<link rel="alternate" type="text/html" href="https://wiki.statsape.com/%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/Wurong"/>
	<updated>2026-06-04T04:16:51Z</updated>
	<subtitle>用户贡献</subtitle>
	<generator>MediaWiki 1.39.6</generator>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%87%BA%E8%AE%AD%E7%BB%83%E9%9B%86&amp;diff=8556</id>
		<title>导出训练集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%87%BA%E8%AE%AD%E7%BB%83%E9%9B%86&amp;diff=8556"/>
		<updated>2024-01-24T06:37:44Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导出训练集&lt;br /&gt;
|nodeimage=Outport Train Data.png&lt;br /&gt;
|icon=Outport Train Data.svg&lt;br /&gt;
|simpleicon=Outport Train Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Outport Train Data&lt;br /&gt;
|abbreviation=OtptTrain&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将训练集格式转换成外部数据集的格式。/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导出训练集&lt;br /&gt;
|previousnode=[[导入测试集]]&lt;br /&gt;
|nextnode=[[导出测试集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于导出训练集数据到外部成为通用端口，与[[导出测试集]]类似。从该节点导出数据并规范化后使数据成为可以用于其他分析节点可通用的数据类型。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
暂无&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%87%BA%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8555</id>
		<title>导出测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%87%BA%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8555"/>
		<updated>2024-01-24T06:37:11Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 节点使用指南 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导出测试集&lt;br /&gt;
|nodeimage=Outport Test Data.png&lt;br /&gt;
|icon=Outport Test Data.svg&lt;br /&gt;
|simpleicon=Outport Test Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Outport Test Data&lt;br /&gt;
|abbreviation=OtptTest&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将测试集格式转换成外部数据集的格式。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导出测试集&lt;br /&gt;
|previousnode=[[导出训练集]]&lt;br /&gt;
|nextnode=[[数据集整合]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于导出测试集数据到外部成为通用端口，与[[导出训练集]]类似。从该节点导出数据并规范化后使数据成为可以用于其他分析节点可通用的数据类型。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
暂无&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%87%BA%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8554</id>
		<title>导出测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%87%BA%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8554"/>
		<updated>2024-01-24T06:36:42Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导出测试集&lt;br /&gt;
|nodeimage=Outport Test Data.png&lt;br /&gt;
|icon=Outport Test Data.svg&lt;br /&gt;
|simpleicon=Outport Test Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Outport Test Data&lt;br /&gt;
|abbreviation=OtptTest&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将测试集格式转换成外部数据集的格式。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导出测试集&lt;br /&gt;
|previousnode=[[导出训练集]]&lt;br /&gt;
|nextnode=[[数据集整合]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于导出训练集数据到外部成为通用端口，与[[导出训练集]]类似。从该节点导出数据并规范化后使数据成为可以用于其他分析节点可通用的数据类型。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
暂无&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E8%AE%AD%E7%BB%83%E9%9B%86&amp;diff=8547</id>
		<title>导入训练集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E8%AE%AD%E7%BB%83%E9%9B%86&amp;diff=8547"/>
		<updated>2024-01-24T06:21:26Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导入训练集&lt;br /&gt;
|nodeimage=Import Outer Train Data.png&lt;br /&gt;
|icon=Import Outer Train Data.svg&lt;br /&gt;
|simpleicon=Import Outer Train Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Import Outer Train Data&lt;br /&gt;
|abbreviation=ImpOTrD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将导入的数据集转换成训练集。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导入训练集&lt;br /&gt;
|previousnode=[[拆分训练测试集]]&lt;br /&gt;
|nextnode=[[导入测试集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于从外部导入训练集数据进入模型，与[[导入测试集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入训练集端口的数据。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
暂无&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8545</id>
		<title>导入测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8545"/>
		<updated>2024-01-24T06:17:02Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 注意事项 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导入测试集&lt;br /&gt;
|nodeimage=Import Outer Test Data.png&lt;br /&gt;
|icon=Import Outer Test Data.svg&lt;br /&gt;
|simpleicon=Import Outer Test Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Import Outer Test Data&lt;br /&gt;
|abbreviation=ImpOTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将导入的数据集转换成测试集。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导入测试集&lt;br /&gt;
|previousnode=[[导入训练集]]&lt;br /&gt;
|nextnode=[[导出训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入测试集端口的数据。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
暂无&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8544</id>
		<title>导入测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8544"/>
		<updated>2024-01-24T06:16:32Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导入测试集&lt;br /&gt;
|nodeimage=Import Outer Test Data.png&lt;br /&gt;
|icon=Import Outer Test Data.svg&lt;br /&gt;
|simpleicon=Import Outer Test Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Import Outer Test Data&lt;br /&gt;
|abbreviation=ImpOTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将导入的数据集转换成测试集。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导入测试集&lt;br /&gt;
|previousnode=[[导入训练集]]&lt;br /&gt;
|nextnode=[[导出训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入测试集端口的数据。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
暂无&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
注意：文件夹下的表格的变量名必须一致，变量名不一致的表格无法合并读取。&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8543</id>
		<title>导入测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8543"/>
		<updated>2024-01-24T06:16:07Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 节点使用指南 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导入测试集&lt;br /&gt;
|nodeimage=Import Outer Test Data.png&lt;br /&gt;
|icon=Import Outer Test Data.svg&lt;br /&gt;
|simpleicon=Import Outer Test Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Import Outer Test Data&lt;br /&gt;
|abbreviation=ImpOTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将导入的数据集转换成测试集。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导入测试集&lt;br /&gt;
|previousnode=[[导入训练集]]&lt;br /&gt;
|nextnode=[[导出训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。从[[数据输入]]节点导入数据并规范化后通过该节点使数据成为可以导入测试集端口的数据。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
注意：文件夹下的表格的变量名必须一致，变量名不一致的表格无法合并读取。&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8542</id>
		<title>导入测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E5%AF%BC%E5%85%A5%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8542"/>
		<updated>2024-01-24T06:14:45Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=导入测试集&lt;br /&gt;
|nodeimage=Import Outer Test Data.png&lt;br /&gt;
|icon=Import Outer Test Data.svg&lt;br /&gt;
|simpleicon=Import Outer Test Data_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Import Outer Test Data&lt;br /&gt;
|abbreviation=ImpOTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集导入导出]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;将导入的数据集转换成测试集。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=NoParameterYet&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/导入测试集&lt;br /&gt;
|previousnode=[[导入训练集]]&lt;br /&gt;
|nextnode=[[导出训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== &#039;&#039;&#039;节点使用指南&#039;&#039;&#039; ==&lt;br /&gt;
主要用于从外部导入测试集数据进入模型，与[[导入训练集]]类似。&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;参数配置&#039;&#039;&#039; ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== &#039;&#039;&#039;注意事项&#039;&#039;&#039; ===&lt;br /&gt;
注意：文件夹下的表格的变量名必须一致，变量名不一致的表格无法合并读取。&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集导入导出]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8540</id>
		<title>拆分训练测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8540"/>
		<updated>2024-01-24T06:05:47Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 节点使用指南 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=拆分训练测试集&lt;br /&gt;
|nodeimage=Split Training Test Datasets.png&lt;br /&gt;
|icon=Split Training Test Datasets.svg&lt;br /&gt;
|simpleicon=Split Training Test Datasets_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Split Training Test Datasets&lt;br /&gt;
|abbreviation=SliTraTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集&lt;br /&gt;
|previousnode=[[多重插补]]&lt;br /&gt;
|nextnode=[[导入训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。&lt;br /&gt;
&lt;br /&gt;
拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：&lt;br /&gt;
#训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。&lt;br /&gt;
#测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。&lt;br /&gt;
&lt;br /&gt;
==示例代码-拆分训练测试集节点==&lt;br /&gt;
该节点使用Python编写，调用scikit-learn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import numpy as np&lt;br /&gt;
from sklearn.model_selection import train_test_split&lt;br /&gt;
X, y = np.arange(10).reshape((5, 2)), range(5)&lt;br /&gt;
X_train, X_test, y_train, y_test = train_test_split(&lt;br /&gt;
X, y, test_size=0.33, random_state=42)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
拆分后，训练集可以用于生成模型，测试集可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：一般用于所有的机器学习问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 设置测试集比例：设置测试集占整个数据的比例，一般可填0.8或0.7。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为一般数据集，导出的数据集为训练集和测试集，端口颜色都与导入端口不同，不可互通。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集拆分]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8525</id>
		<title>拆分训练测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8525"/>
		<updated>2024-01-24T03:46:12Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=拆分训练测试集&lt;br /&gt;
|nodeimage=Split Training Test Datasets.png&lt;br /&gt;
|icon=Split Training Test Datasets.svg&lt;br /&gt;
|simpleicon=Split Training Test Datasets_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Split Training Test Datasets&lt;br /&gt;
|abbreviation=SliTraTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集&lt;br /&gt;
|previousnode=[[多重插补]]&lt;br /&gt;
|nextnode=[[导入训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。&lt;br /&gt;
&lt;br /&gt;
拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：&lt;br /&gt;
#训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。&lt;br /&gt;
#测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。&lt;br /&gt;
&lt;br /&gt;
==示例代码-拆分训练测试集节点==&lt;br /&gt;
该节点使用Python编写，调用scikit-learn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import numpy as np&lt;br /&gt;
from sklearn.model_selection import train_test_split&lt;br /&gt;
X, y = np.arange(10).reshape((5, 2)), range(5)&lt;br /&gt;
X_train, X_test, y_train, y_test = train_test_split(&lt;br /&gt;
X, y, test_size=0.33, random_state=42)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
拆分后，训练集可以用于生成模型，测试集可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。&lt;br /&gt;
** 决策树，&lt;br /&gt;
** 支持向量机。&lt;br /&gt;
* 估计器数量：默认为100。&lt;br /&gt;
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。&lt;br /&gt;
** SAMME：离散增强算法。&lt;br /&gt;
** SAMME.R：真实增强算法。&lt;br /&gt;
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集拆分]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8524</id>
		<title>拆分训练测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8524"/>
		<updated>2024-01-24T03:44:53Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-拆分训练测试集节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=拆分训练测试集&lt;br /&gt;
|nodeimage=Split Training Test Datasets.png&lt;br /&gt;
|icon=Split Training Test Datasets.svg&lt;br /&gt;
|simpleicon=Split Training Test Datasets_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Split Training Test Datasets&lt;br /&gt;
|abbreviation=SliTraTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集&lt;br /&gt;
|previousnode=[[多重插补]]&lt;br /&gt;
|nextnode=[[导入训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-拆分训练测试集节点==&lt;br /&gt;
该节点使用Python编写，调用scikit-learn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import numpy as np&lt;br /&gt;
from sklearn.model_selection import train_test_split&lt;br /&gt;
X, y = np.arange(10).reshape((5, 2)), range(5)&lt;br /&gt;
X_train, X_test, y_train, y_test = train_test_split(&lt;br /&gt;
X, y, test_size=0.33, random_state=42)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
拆分后，训练集可以用于生成模型，测试集可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。&lt;br /&gt;
** 决策树，&lt;br /&gt;
** 支持向量机。&lt;br /&gt;
* 估计器数量：默认为100。&lt;br /&gt;
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。&lt;br /&gt;
** SAMME：离散增强算法。&lt;br /&gt;
** SAMME.R：真实增强算法。&lt;br /&gt;
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集拆分]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8516</id>
		<title>拆分训练测试集</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%8B%86%E5%88%86%E8%AE%AD%E7%BB%83%E6%B5%8B%E8%AF%95%E9%9B%86&amp;diff=8516"/>
		<updated>2024-01-24T02:20:03Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=拆分训练测试集&lt;br /&gt;
|nodeimage=Split Training Test Datasets.png&lt;br /&gt;
|icon=Split Training Test Datasets.svg&lt;br /&gt;
|simpleicon=Split Training Test Datasets_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Split Training Test Datasets&lt;br /&gt;
|abbreviation=SliTraTD&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::数据集拆分]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;拆分训练集和测试集是机器学习和数据分析中常见的数据准备步骤之一。它的主要目的是评估模型的性能和泛化能力。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;拆分训练集和测试集的过程涉及将可用的数据集划分为两个独立的子集：&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;1. 训练集（Training Set）：这是用于训练机器学习模型的数据子集。通过在训练集上学习模型，模型可以学习数据中的模式和关联。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;2. 测试集（Test Set）：这是用于评估模型性能的数据子集。在训练过程结束后，使用测试集来评估模型对未见过的数据的预测能力。测试集应该是与训练集相互独立且代表性的样本。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-TrainingTable ■;Transfer-TestingTable ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/拆分训练测试集&lt;br /&gt;
|previousnode=[[多重插补]]&lt;br /&gt;
|nextnode=[[导入训练集]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-拆分训练测试集节点==&lt;br /&gt;
该节点使用Python编写，调用scikit-learn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from sklearn.ensemble import AdaBoostClassifier&lt;br /&gt;
from sklearn.datasets import make_classification&lt;br /&gt;
X, y = make_classification(n_samples=1000, n_features=4,&lt;br /&gt;
                           n_informative=2, n_redundant=0,&lt;br /&gt;
                           random_state=0, shuffle=False)&lt;br /&gt;
clf = AdaBoostClassifier(n_estimators=100, random_state=0)&lt;br /&gt;
clf.fit(X, y)&lt;br /&gt;
clf.predict([[0, 0, 0, 0]])&lt;br /&gt;
clf.score(X, y)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。&lt;br /&gt;
** 决策树，&lt;br /&gt;
** 支持向量机。&lt;br /&gt;
* 估计器数量：默认为100。&lt;br /&gt;
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。&lt;br /&gt;
** SAMME：离散增强算法。&lt;br /&gt;
** SAMME.R：真实增强算法。&lt;br /&gt;
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:数据集拆分]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8436</id>
		<title>SHAP</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8436"/>
		<updated>2024-01-23T06:28:46Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=SHAP&lt;br /&gt;
|nodeimage=SHAP.png&lt;br /&gt;
|icon=SHAP.svg&lt;br /&gt;
|simpleicon=SHAP_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=SHAP&lt;br /&gt;
|abbreviation=SHAP&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/SHAP&lt;br /&gt;
|previousnode=[[机器学习基础绘图节点]]&lt;br /&gt;
|nextnode=[[多模型评估节点]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：中小数据集，变量不多的模型的可解释性分析。&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选双坐标折线图，柱状图，热图，热力散点图，蜂群图。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8435</id>
		<title>SHAP</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8435"/>
		<updated>2024-01-23T06:26:49Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 注意事项 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=SHAP&lt;br /&gt;
|nodeimage=SHAP.png&lt;br /&gt;
|icon=SHAP.svg&lt;br /&gt;
|simpleicon=SHAP_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=SHAP&lt;br /&gt;
|abbreviation=SHAP&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/SHAP&lt;br /&gt;
|previousnode=[[机器学习基础绘图节点]]&lt;br /&gt;
|nextnode=[[多模型评估节点]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：中小数据集，变量不多的模型的可解释性分析。&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选双坐标直线图，柱状图，热图，热力散点图，蜂群图。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8434</id>
		<title>SHAP</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8434"/>
		<updated>2024-01-23T06:23:17Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 节点使用指南 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=SHAP&lt;br /&gt;
|nodeimage=SHAP.png&lt;br /&gt;
|icon=SHAP.svg&lt;br /&gt;
|simpleicon=SHAP_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=SHAP&lt;br /&gt;
|abbreviation=SHAP&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/SHAP&lt;br /&gt;
|previousnode=[[机器学习基础绘图节点]]&lt;br /&gt;
|nextnode=[[多模型评估节点]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：中小数据集，变量不多的模型的可解释性分析。&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选双坐标直线图，柱状图，热图，热力散点图，蜂群图。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择&amp;quot;A_pred&amp;quot;,&amp;quot;B_pred&amp;quot;，真值也必须按照&amp;quot;A&amp;quot;,&amp;quot;B&amp;quot;的顺序勾选，不可按照&amp;quot;B&amp;quot;,&amp;quot;A&amp;quot;的顺序选择。&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8433</id>
		<title>SHAP</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8433"/>
		<updated>2024-01-23T06:21:21Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=SHAP&lt;br /&gt;
|nodeimage=SHAP.png&lt;br /&gt;
|icon=SHAP.svg&lt;br /&gt;
|simpleicon=SHAP_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=SHAP&lt;br /&gt;
|abbreviation=SHAP&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/SHAP&lt;br /&gt;
|previousnode=[[机器学习基础绘图节点]]&lt;br /&gt;
|nextnode=[[多模型评估节点]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。&lt;br /&gt;
* 选择真值：选择测试值，可多选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选双坐标直线图，柱状图，热图，热力散点图，蜂群图。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择&amp;quot;A_pred&amp;quot;,&amp;quot;B_pred&amp;quot;，真值也必须按照&amp;quot;A&amp;quot;,&amp;quot;B&amp;quot;的顺序勾选，不可按照&amp;quot;B&amp;quot;,&amp;quot;A&amp;quot;的顺序选择。&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8432</id>
		<title>SHAP</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8432"/>
		<updated>2024-01-23T06:20:25Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=SHAP&lt;br /&gt;
|nodeimage=SHAP.png&lt;br /&gt;
|icon=SHAP.svg&lt;br /&gt;
|simpleicon=SHAP_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=SHAP&lt;br /&gt;
|abbreviation=SHAP&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/SHAP&lt;br /&gt;
|previousnode=[[机器学习基础绘图节点]]&lt;br /&gt;
|nextnode=[[多模型评估节点]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。&lt;br /&gt;
* 选择真值：选择测试值，可多选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择&amp;quot;A_pred&amp;quot;,&amp;quot;B_pred&amp;quot;，真值也必须按照&amp;quot;A&amp;quot;,&amp;quot;B&amp;quot;的顺序勾选，不可按照&amp;quot;B&amp;quot;,&amp;quot;A&amp;quot;的顺序选择。&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8431</id>
		<title>SHAP</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=SHAP&amp;diff=8431"/>
		<updated>2024-01-23T06:19:46Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=SHAP&lt;br /&gt;
|nodeimage=SHAP.png&lt;br /&gt;
|icon=SHAP.svg&lt;br /&gt;
|simpleicon=SHAP_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=SHAP&lt;br /&gt;
|abbreviation=SHAP&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测的算法和框架。它基于博弈论中的Shapley值概念，并将其应用于解释预测模型中各个特征对最终预测结果的贡献程度。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=DistributionHeatMap;DoubleCoordinateLinePlot;HeatBeesPlot;HeatPointPlot;BarHorizontalPlot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/SHAP&lt;br /&gt;
|previousnode=[[机器学习基础绘图节点]]&lt;br /&gt;
|nextnode=[[多模型评估节点]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。&lt;br /&gt;
* 选择真值：选择测试值，可多选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择&amp;quot;A_pred&amp;quot;,&amp;quot;B_pred&amp;quot;，真值也必须按照&amp;quot;A&amp;quot;,&amp;quot;B&amp;quot;的顺序勾选，不可按照&amp;quot;B&amp;quot;,&amp;quot;A&amp;quot;的顺序选择。&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8430</id>
		<title>机器学习基础绘图节点</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8430"/>
		<updated>2024-01-23T06:07:47Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 注意事项 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=机器学习基础绘图节点&lt;br /&gt;
|nodeimage=Machine Learning Basic Plotting.png&lt;br /&gt;
|icon=Machine Learning Basic Plotting.svg&lt;br /&gt;
|simpleicon=Machine Learning Basic Plotting_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Machine Learning Basic Plotting&lt;br /&gt;
|abbreviation=MLBPlot&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点&lt;br /&gt;
|previousnode=[[交叉熵]]&lt;br /&gt;
|nextnode=[[SHAP]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。&lt;br /&gt;
* 选择真值：选择测试值，可多选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，在选择多个预测值和真值时必须一一对应，即如果预测值选择&amp;quot;A_pred&amp;quot;,&amp;quot;B_pred&amp;quot;，真值也必须按照&amp;quot;A&amp;quot;,&amp;quot;B&amp;quot;的顺序勾选，不可按照&amp;quot;B&amp;quot;,&amp;quot;A&amp;quot;的顺序选择。&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8429</id>
		<title>机器学习基础绘图节点</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8429"/>
		<updated>2024-01-23T06:05:02Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 变量配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=机器学习基础绘图节点&lt;br /&gt;
|nodeimage=Machine Learning Basic Plotting.png&lt;br /&gt;
|icon=Machine Learning Basic Plotting.svg&lt;br /&gt;
|simpleicon=Machine Learning Basic Plotting_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Machine Learning Basic Plotting&lt;br /&gt;
|abbreviation=MLBPlot&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点&lt;br /&gt;
|previousnode=[[交叉熵]]&lt;br /&gt;
|nextnode=[[SHAP]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择预测概率值：选择预测概率变量，一般带有“_pred”字样，可多选。&lt;br /&gt;
* 选择真值：选择测试值，可多选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8419</id>
		<title>机器学习基础绘图节点</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8419"/>
		<updated>2024-01-23T03:59:36Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=机器学习基础绘图节点&lt;br /&gt;
|nodeimage=Machine Learning Basic Plotting.png&lt;br /&gt;
|icon=Machine Learning Basic Plotting.svg&lt;br /&gt;
|simpleicon=Machine Learning Basic Plotting_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Machine Learning Basic Plotting&lt;br /&gt;
|abbreviation=MLBPlot&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点&lt;br /&gt;
|previousnode=[[交叉熵]]&lt;br /&gt;
|nextnode=[[SHAP]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 绘图方法选择：可多选ROC曲线，PR曲线，DCA曲线和矫正曲线。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8418</id>
		<title>机器学习基础绘图节点</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8418"/>
		<updated>2024-01-23T03:56:59Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 注意事项 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=机器学习基础绘图节点&lt;br /&gt;
|nodeimage=Machine Learning Basic Plotting.png&lt;br /&gt;
|icon=Machine Learning Basic Plotting.svg&lt;br /&gt;
|simpleicon=Machine Learning Basic Plotting_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Machine Learning Basic Plotting&lt;br /&gt;
|abbreviation=MLBPlot&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点&lt;br /&gt;
|previousnode=[[交叉熵]]&lt;br /&gt;
|nextnode=[[SHAP]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。&lt;br /&gt;
** 决策树，&lt;br /&gt;
** 支持向量机。&lt;br /&gt;
* 估计器数量：默认为100。&lt;br /&gt;
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。&lt;br /&gt;
** SAMME：离散增强算法。&lt;br /&gt;
** SAMME.R：真实增强算法。&lt;br /&gt;
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，&lt;br /&gt;
* 节点可选出图，&lt;br /&gt;
* 导入该节点的数据端口为绘图数据集，导入前注意接口颜色。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8417</id>
		<title>机器学习基础绘图节点</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8417"/>
		<updated>2024-01-23T03:55:05Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=机器学习基础绘图节点&lt;br /&gt;
|nodeimage=Machine Learning Basic Plotting.png&lt;br /&gt;
|icon=Machine Learning Basic Plotting.svg&lt;br /&gt;
|simpleicon=Machine Learning Basic Plotting_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Machine Learning Basic Plotting&lt;br /&gt;
|abbreviation=MLBPlot&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点&lt;br /&gt;
|previousnode=[[交叉熵]]&lt;br /&gt;
|nextnode=[[SHAP]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，[[PR曲线]]，[[DCA曲线]]和[[矫正曲线]]的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。&lt;br /&gt;
** 决策树，&lt;br /&gt;
** 支持向量机。&lt;br /&gt;
* 估计器数量：默认为100。&lt;br /&gt;
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。&lt;br /&gt;
** SAMME：离散增强算法。&lt;br /&gt;
** SAMME.R：真实增强算法。&lt;br /&gt;
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8416</id>
		<title>机器学习基础绘图节点</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%BB%98%E5%9B%BE%E8%8A%82%E7%82%B9&amp;diff=8416"/>
		<updated>2024-01-23T03:54:19Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=机器学习基础绘图节点&lt;br /&gt;
|nodeimage=Machine Learning Basic Plotting.png&lt;br /&gt;
|icon=Machine Learning Basic Plotting.svg&lt;br /&gt;
|simpleicon=Machine Learning Basic Plotting_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Machine Learning Basic Plotting&lt;br /&gt;
|abbreviation=MLBPlot&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[Eva Lv1 Cat::模型评估]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=R&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;绘图模块包含ROC曲线, PR曲线, DCA曲线和校正曲线。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=ROCPlot;PRPlot;DCAPlot;Calibration_Plot&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/机器学习基础绘图节点&lt;br /&gt;
|previousnode=[[交叉熵]]&lt;br /&gt;
|nextnode=[[SHAP]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==概述==&lt;br /&gt;
该节点为包含[[ROC曲线]]，PR曲线，DCA曲线和矫正曲线的机器学习绘图节点。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 基础估计器选择：构建增强整体的基本估计器。默认基本估计器用决策树分类估计器，初始化最大深度为1。&lt;br /&gt;
** 决策树，&lt;br /&gt;
** 支持向量机。&lt;br /&gt;
* 估计器数量：默认为100。&lt;br /&gt;
* Boosting算法选择：SAMME.R 算法通常比 SAMME 收敛得更快，从而通过更少的提升迭代实现更低的测试误差。&lt;br /&gt;
** SAMME：离散增强算法。&lt;br /&gt;
** SAMME.R：真实增强算法。&lt;br /&gt;
* 学习率：在每次迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:模型评估]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8414</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8414"/>
		<updated>2024-01-23T03:41:32Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-LightGBM分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
LightGBM(Light Gradient-Boosting Machine)&amp;lt;ref&amp;gt;&amp;quot;LightGBM.&amp;quot; Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc., 22 Jan. 2024. Web. 22 Jan. 2024.&amp;lt;/ref&amp;gt;，是一个用于机器学习的免费开源分布式梯度提升框架，最初由微软开发。它基于决策树算法，用于排序、分类和其他机器学习任务。开发的重点是性能和可扩展性。&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用lightgbm包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = lightgbm pakage&lt;br /&gt;
| url = https://github.com/microsoft/LightGBM&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import lightgbm as lgb&lt;br /&gt;
import numpy as np&lt;br /&gt;
&lt;br /&gt;
data = np.random.rand(500, 10)  # 500 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=500)  # binary target&lt;br /&gt;
train_data = lgb.Dataset(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://lightgbm.readthedocs.io/en/stable/Python-Intro.html&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认为0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8413</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8413"/>
		<updated>2024-01-23T03:36:46Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 变量配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
在信号处理中，采样是将连续时间信号转换为离散时间信号的过程。一个常见的例子是将声波转换为一系列“样本”。样本是在时间和/或空间中的某一点上信号的值；这个定义与统计学中用法不同，后者指的是这样的一组值&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = Sampling&lt;br /&gt;
| url = https://en.wikipedia.org/wiki/Sampling_(signal_processing)&lt;br /&gt;
| access-date = 2024-01-23&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。采样器是从连续信号中提取样本的子系统或操作。理论上的理想采样器在所需的点上产生等于连续信号瞬时值的样本。可以通过将样本序列通过重建滤波器进行处理，重建原始信号，直到奈奎斯特极限（Nyquist limit）。&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择目标变量：作为需要采样的分类变量作为目标，单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 采样方法：&lt;br /&gt;
** 欠采样：抛弃大部分反例数据，可能会造成较大偏差，&lt;br /&gt;
** 过采样：单纯重复正例数据，可能造成对正例的过拟合，&lt;br /&gt;
** Bootstrap：有放回的多次重抽样，能保证整体估计量稳定，但也可能造成偏差。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8411</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8411"/>
		<updated>2024-01-23T03:36:14Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
在信号处理中，采样是将连续时间信号转换为离散时间信号的过程。一个常见的例子是将声波转换为一系列“样本”。样本是在时间和/或空间中的某一点上信号的值；这个定义与统计学中用法不同，后者指的是这样的一组值&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = Sampling&lt;br /&gt;
| url = https://en.wikipedia.org/wiki/Sampling_(signal_processing)&lt;br /&gt;
| access-date = 2024-01-23&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。采样器是从连续信号中提取样本的子系统或操作。理论上的理想采样器在所需的点上产生等于连续信号瞬时值的样本。可以通过将样本序列通过重建滤波器进行处理，重建原始信号，直到奈奎斯特极限（Nyquist limit）。&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择目标变量：作为需要采样的连续变量作为目标，单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 采样方法：&lt;br /&gt;
** 欠采样：抛弃大部分反例数据，可能会造成较大偏差，&lt;br /&gt;
** 过采样：单纯重复正例数据，可能造成对正例的过拟合，&lt;br /&gt;
** Bootstrap：有放回的多次重抽样，能保证整体估计量稳定，但也可能造成偏差。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8409</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8409"/>
		<updated>2024-01-23T03:14:35Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 变量配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
在信号处理中，采样是将连续时间信号转换为离散时间信号的过程。一个常见的例子是将声波转换为一系列“样本”。样本是在时间和/或空间中的某一点上信号的值；这个定义与统计学中用法不同，后者指的是这样的一组值&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = Sampling&lt;br /&gt;
| url = https://en.wikipedia.org/wiki/Sampling_(signal_processing)&lt;br /&gt;
| access-date = 2024-01-23&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。采样器是从连续信号中提取样本的子系统或操作。理论上的理想采样器在所需的点上产生等于连续信号瞬时值的样本。可以通过将样本序列通过重建滤波器进行处理，重建原始信号，直到奈奎斯特极限（Nyquist limit）。&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择目标变量：作为需要采样的连续变量作为目标，单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8408</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8408"/>
		<updated>2024-01-23T03:11:52Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
在信号处理中，采样是将连续时间信号转换为离散时间信号的过程。一个常见的例子是将声波转换为一系列“样本”。样本是在时间和/或空间中的某一点上信号的值；这个定义与统计学中用法不同，后者指的是这样的一组值&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = Sampling&lt;br /&gt;
| url = https://en.wikipedia.org/wiki/Sampling_(signal_processing)&lt;br /&gt;
| access-date = 2024-01-23&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。采样器是从连续信号中提取样本的子系统或操作。理论上的理想采样器在所需的点上产生等于连续信号瞬时值的样本。可以通过将样本序列通过重建滤波器进行处理，重建原始信号，直到奈奎斯特极限（Nyquist limit）。&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8407</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8407"/>
		<updated>2024-01-23T03:11:18Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
在信号处理中，采样是将连续时间信号转换为离散时间信号的过程。一个常见的例子是将声波转换为一系列“样本”。样本是在时间和/或空间中的某一点上信号的值；这个定义与统计学中用法不同，后者指的是这样的一组值。采样器是从连续信号中提取样本的子系统或操作。理论上的理想采样器在所需的点上产生等于连续信号瞬时值的样本。可以通过将样本序列通过重建滤波器进行处理，重建原始信号，直到奈奎斯特极限（Nyquist limit）&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = Sampling&lt;br /&gt;
| url = https://en.wikipedia.org/wiki/Sampling_(signal_processing)&lt;br /&gt;
| access-date = 2024-01-23&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8406</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8406"/>
		<updated>2024-01-23T03:08:49Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
在信号处理中，采样是将连续时间信号转换为离散时间信号的过程。一个常见的例子是将声波转换为一系列“样本”。样本是在时间和/或空间中的某一点上信号的值；这个定义与统计学中用法不同，后者指的是这样的一组值。采样器是从连续信号中提取样本的子系统或操作。理论上的理想采样器在所需的点上产生等于连续信号瞬时值的样本。可以通过将样本序列通过重建滤波器进行处理，重建原始信号，直到奈奎斯特极限（Nyquist limit）&amp;lt;ref&amp;gt;&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8405</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8405"/>
		<updated>2024-01-23T03:03:36Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-梯度提升树分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-采样方法节点==&lt;br /&gt;
该节点使用Python编写，调用imblearn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from imblearn.over_sampling import RandomOverSampler&lt;br /&gt;
from imblearn.under_sampling import RandomUnderSampler&lt;br /&gt;
&lt;br /&gt;
sampler = RandomOverSampler()&lt;br /&gt;
sampler = RandomUnderSampler()&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8321</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8321"/>
		<updated>2024-01-23T01:37:01Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-梯度提升树分类节点==&lt;br /&gt;
该节点使用Python编写，调用scikit-learn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from sklearn.datasets import make_hastie_10_2&lt;br /&gt;
from sklearn.ensemble import GradientBoostingClassifier&lt;br /&gt;
&lt;br /&gt;
X, y = make_hastie_10_2(random_state=0)&lt;br /&gt;
X_train, X_test = X[:2000], X[2000:]&lt;br /&gt;
y_train, y_test = y[:2000], y[2000:]&lt;br /&gt;
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,&lt;br /&gt;
      max_depth=1, random_state=0).fit(X_train, y_train)&lt;br /&gt;
clf.score(X_test, y_test)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8320</id>
		<title>采样方法</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=8320"/>
		<updated>2024-01-23T01:34:21Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=采样方法&lt;br /&gt;
|nodeimage=Sampler.png&lt;br /&gt;
|icon=Sampler.svg&lt;br /&gt;
|simpleicon=Sampler_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Sampler&lt;br /&gt;
|abbreviation=Sampler&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;用于多数据集的机器学习基础评估。包含混淆矩阵，准确度（Accuracy），F1-Score，Matthews Correlation Coefficient（MCC）等基础评估算法。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=3&lt;br /&gt;
|nodeoutputnumber=2&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-URI ◆;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/采样方法&lt;br /&gt;
|previousnode=[[交叉验证结果整合]]&lt;br /&gt;
|nextnode=[[决策树]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Gradient Boosting是一种基于函数空间（functional space）中增强的机器学习方法，其中目标函数是伪残差（pseudo-residuals），而不是传统增强中使用的典型残差。它给出了弱学习模型进行集成后的预测模型，即对数据进行很少的假设的模型，这些模型通常是简单的决策树&amp;lt;ref&amp;gt;{{cite journal |title=Data analytics in asset management: Cost-effective prediction of the pavement condition index |author=Piryonesi, S. Madeh and El-Diraby, Tamer E. |journal=Journal of Infrastructure Systems |volume=26 |issue=1 |pages=04019036 |year=2020 |publisher=American Society of Civil Engineers}}&amp;lt;/ref&amp;gt;&amp;lt;ref&amp;gt;{{cite book |title=The elements of statistical learning: data mining, inference, and prediction |author=Hastie, Trevor and Tibshirani, Robert and Friedman, Jerome |pages=337–387 |year=2009 |publisher=Springer}}&amp;lt;/ref&amp;gt;。当决策树是弱学习器时，所得到的算法被称为梯度增强树；它通常优于随机森林&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
|title=Gradient Boosting&lt;br /&gt;
|url=https://en.wikipedia.org/wiki/Gradient_boosting&lt;br /&gt;
|website=Wikipedia&lt;br /&gt;
|access-date=2024-01-18&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。与其他Boosting方法一样，梯度提升树模型是以分阶段的方式构建的，但它通过允许优化任意可微损失函数来推广其他方法。&lt;br /&gt;
&lt;br /&gt;
==示例代码-梯度提升树分类节点==&lt;br /&gt;
该节点使用Python编写，调用scikit-learn包&amp;lt;ref&amp;gt;{{cite journal |author=Kramer, Oliver |title=Scikit-learn |journal=Machine learning for evolution strategies |pages=45--53 |year=2016 |publisher=Springer }}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
from sklearn.datasets import make_hastie_10_2&lt;br /&gt;
from sklearn.ensemble import GradientBoostingClassifier&lt;br /&gt;
&lt;br /&gt;
X, y = make_hastie_10_2(random_state=0)&lt;br /&gt;
X_train, X_test = X[:2000], X[2000:]&lt;br /&gt;
y_train, y_test = y[:2000], y[2000:]&lt;br /&gt;
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,&lt;br /&gt;
      max_depth=1, random_state=0).fit(X_train, y_train)&lt;br /&gt;
clf.score(X_test, y_test)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：决策树可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 拆分质量评估方法选择：&lt;br /&gt;
** &#039;friedman mse&#039;,&lt;br /&gt;
** &#039;squared error&#039;。&lt;br /&gt;
* 学习率：算法通过学习率缩小每棵树的贡献差距。默认值为0.1。&lt;br /&gt;
* Boosting次数：执行boosting算法的次数。梯度增强对于过度拟合是相当稳健的，因此大量通常会带来更好的性能。&lt;br /&gt;
* 子样本分数：用于拟合各个基础学习器的样本比例。如果小于 1.0，则会导致随机梯度提升。选择会导致方差减少和偏差增加。值必须在范围内。子样本分数取值范围(0.0, 1.0]。&lt;br /&gt;
* 损失函数算法选择：衡量分割质量的函数。支持的算法为&lt;br /&gt;
** &#039;exponential&#039;，&lt;br /&gt;
** &#039;log_loss&#039;。&lt;br /&gt;
* 最大深度：树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于&amp;quot;最小拆分样本数&amp;quot;的样本。&lt;br /&gt;
* 最小拆分样本数：分裂内部节点所需的最小样本数。&lt;br /&gt;
* 叶节点最小样本数：叶节点所需的最小样本数。该参数仅当任何深度的分割点在左右分支中至少留下训练样本时，才会被考虑。这可能具有使模型平滑的效果，尤其是在回归中。&lt;br /&gt;
* 最大特征数：寻找最佳分割时要考虑的特征数量。&lt;br /&gt;
* 最大叶节点数：以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果没有，则叶节点数量不受限制。&lt;br /&gt;
* 最小不纯度衰减阈值：如果分裂导致杂质减少大于或等于该值，则节点将被分裂。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8175</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8175"/>
		<updated>2024-01-22T03:57:45Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
LightGBM(Light Gradient-Boosting Machine)&amp;lt;ref&amp;gt;&amp;quot;LightGBM.&amp;quot; Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc., 22 Jan. 2024. Web. 22 Jan. 2024.&amp;lt;/ref&amp;gt;，是一个用于机器学习的免费开源分布式梯度提升框架，最初由微软开发。它基于决策树算法，用于排序、分类和其他机器学习任务。开发的重点是性能和可扩展性。&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = lightgbm pakage&lt;br /&gt;
| url = https://github.com/microsoft/LightGBM&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import lightgbm as lgb&lt;br /&gt;
import numpy as np&lt;br /&gt;
&lt;br /&gt;
data = np.random.rand(500, 10)  # 500 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=500)  # binary target&lt;br /&gt;
train_data = lgb.Dataset(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://lightgbm.readthedocs.io/en/stable/Python-Intro.html&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认为0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8174</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8174"/>
		<updated>2024-01-22T03:57:08Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost pakage&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gblinear。&lt;br /&gt;
** gbtree（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8173</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8173"/>
		<updated>2024-01-22T03:53:55Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-LightGBM分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
LightGBM(Light Gradient-Boosting Machine)&amp;lt;ref&amp;gt;&amp;quot;LightGBM.&amp;quot; Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc., 22 Jan. 2024. Web. 22 Jan. 2024.&amp;lt;/ref&amp;gt;，是一个用于机器学习的免费开源分布式梯度提升框架，最初由微软开发。它基于决策树算法，用于排序、分类和其他机器学习任务。开发的重点是性能和可扩展性。&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = lightgbm pakage&lt;br /&gt;
| url = https://github.com/microsoft/LightGBM&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import lightgbm as lgb&lt;br /&gt;
import numpy as np&lt;br /&gt;
&lt;br /&gt;
data = np.random.rand(500, 10)  # 500 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=500)  # binary target&lt;br /&gt;
train_data = lgb.Dataset(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://lightgbm.readthedocs.io/en/stable/Python-Intro.html&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8172</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8172"/>
		<updated>2024-01-22T03:52:15Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
LightGBM(Light Gradient-Boosting Machine)&amp;lt;ref&amp;gt;&amp;quot;LightGBM.&amp;quot; Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc., 22 Jan. 2024. Web. 22 Jan. 2024.&amp;lt;/ref&amp;gt;，是一个用于机器学习的免费开源分布式梯度提升框架，最初由微软开发。它基于决策树算法，用于排序、分类和其他机器学习任务。开发的重点是性能和可扩展性。&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost pakage&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import lightgbm as lgb&lt;br /&gt;
import numpy as np&lt;br /&gt;
&lt;br /&gt;
data = np.random.rand(500, 10)  # 500 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=500)  # binary target&lt;br /&gt;
train_data = lgb.Dataset(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8171</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8171"/>
		<updated>2024-01-22T03:48:36Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost pakage&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import lightgbm as lgb&lt;br /&gt;
import numpy as np&lt;br /&gt;
&lt;br /&gt;
data = np.random.rand(500, 10)  # 500 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=500)  # binary target&lt;br /&gt;
train_data = lgb.Dataset(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8170</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8170"/>
		<updated>2024-01-22T03:46:27Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-LightGBM分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost pakage&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import lightgbm as lgb&lt;br /&gt;
import numpy as np&lt;br /&gt;
&lt;br /&gt;
data = np.random.rand(500, 10)  # 500 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=500)  # binary target&lt;br /&gt;
train_data = lgb.Dataset(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = lgb.train(param, train_data, num_round, valid_sets=train_data)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8169</id>
		<title>LightGBM</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=LightGBM&amp;diff=8169"/>
		<updated>2024-01-22T03:16:52Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=LightGBM&lt;br /&gt;
|nodeimage=Boosting_LightGBM Learner.png&lt;br /&gt;
|icon=Boosting_LightGBM Learner.svg&lt;br /&gt;
|simpleicon=Boosting_LightGBM Learner_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_LightGBM Learner&lt;br /&gt;
|abbreviation=LightGBM&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;LightGBM是一种基于梯度提升树（Gradient Boosting Tree）的机器学习算法，由微软开发。它是一种高效且可扩展的梯度提升树框架，用于解决分类和回归问题。LightGBM的设计目标是提供快速、准确和高效的模型训练和预测。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/LightGBM&lt;br /&gt;
|previousnode=[[Logistic分类器]]&lt;br /&gt;
|nextnode=[[随机森林]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==示例代码-LightGBM分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost pakage&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8168</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8168"/>
		<updated>2024-01-22T03:14:29Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-XGBoost分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost pakage&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8167</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8167"/>
		<updated>2024-01-22T03:13:57Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-XGBoost分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite web&lt;br /&gt;
| title = xgboost&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8166</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8166"/>
		<updated>2024-01-22T03:13:13Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-XGBoost分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包{{cite web&lt;br /&gt;
| title = xgboost&lt;br /&gt;
| url = https://github.com/dmlc/xgboost&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8165</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8165"/>
		<updated>2024-01-22T03:12:50Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-XGBoost分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包{{cite web&lt;br /&gt;
| title = xgboost&lt;br /&gt;
| url = [https://github.com/dmlc/xgboost]&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8164</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8164"/>
		<updated>2024-01-22T03:12:06Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-XGBoost分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包{{cite web&lt;br /&gt;
| title = xgboost&lt;br /&gt;
| url = [https://github.com/dmlc/xgboost](https://github.com/dmlc/xgboost)&lt;br /&gt;
| access-date = 2024-01-22&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8163</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8163"/>
		<updated>2024-01-22T03:10:02Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 示例代码-XGBoost分类节点 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8162</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8162"/>
		<updated>2024-01-22T03:07:46Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;Chen, Tianqi; Guestrin, Carlos (2016). &amp;quot;Xgboost: A scalable tree boosting system&amp;quot;. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 785–794.&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8161</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8161"/>
		<updated>2024-01-22T03:06:47Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 算法概述 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| Publisher = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;Chen, Tianqi; Guestrin, Carlos (2016). &amp;quot;Xgboost: A scalable tree boosting system&amp;quot;. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 785–794.&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
	<entry>
		<id>https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8160</id>
		<title>XGBoost</title>
		<link rel="alternate" type="text/html" href="https://wiki.statsape.com/index.php?title=XGBoost&amp;diff=8160"/>
		<updated>2024-01-22T03:03:52Z</updated>

		<summary type="html">&lt;p&gt;Wurong：​/* 参数配置 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox nodebasic &lt;br /&gt;
|nodename=XGBoost&lt;br /&gt;
|nodeimage=Boosting_XGBoost.png&lt;br /&gt;
|icon=Boosting_XGBoost.svg&lt;br /&gt;
|simpleicon=Boosting_XGBoost_Pure.svg&lt;br /&gt;
|developer=Dev.Team-DPS&lt;br /&gt;
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用&lt;br /&gt;
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署&lt;br /&gt;
|nodeenglishname=Boosting_XGBoost&lt;br /&gt;
|abbreviation=XGBoost&lt;br /&gt;
|funcmaincategory=机器学习&lt;br /&gt;
|funcsubcategory=[[DataML Lv1 Cat::分类训练器]]&lt;br /&gt;
|nodecategory=数据挖掘&lt;br /&gt;
|nodeinterpretor=Python&lt;br /&gt;
|nodeshortdescription=&amp;lt;p&amp;gt;XGBoost（eXtreme Gradient Boosting）是一种梯度提升树算法的变体，它在梯度提升树的基础上进行了改进和优化。&amp;lt;/p&amp;gt;&amp;lt;p&amp;gt;XGBoost在各种机器学习竞赛和实际应用中表现优秀，被广泛应用于分类、回归和排名等问题。&amp;lt;/p&amp;gt;&lt;br /&gt;
|nodeinputnumber=2&lt;br /&gt;
|nodeoutputnumber=3&lt;br /&gt;
|nodeloopsupport=否&lt;br /&gt;
|nodeifswitchsupport=否&lt;br /&gt;
|nodeavailableplotlist=nodenoplotoutput&lt;br /&gt;
|nodeavailabletablelist=Table_For_Downstream&lt;br /&gt;
|nodeconfiguration=VariableList;DropMenu;Text&lt;br /&gt;
|nodeinputports=WorkFlow-Control ➤;Transfer-Table ■&lt;br /&gt;
|nodeoutputports=WorkFlow-Control ➤;Transfer-Model ▶;Transfer-Table ■&lt;br /&gt;
|statsapewikiurl=https://wiki.statsape.com/XGBoost&lt;br /&gt;
|previousnode=[[AdaBoost]]&lt;br /&gt;
|nextnode=[[CatBoost]]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==算法概述==&lt;br /&gt;
Boosting是一种高效且广泛使用的机器学习方法。在该节点中，我们描述了一种称为XGBoost（eXtreme Gradient Boosting）&amp;lt;ref&amp;gt;{{cite conference&lt;br /&gt;
| title = Xgboost: A scalable tree boosting system&lt;br /&gt;
| author1 = Tianqi Chen&lt;br /&gt;
| author2 = Carlos Guestrin&lt;br /&gt;
| booktitle = Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining&lt;br /&gt;
| pages = 785–794&lt;br /&gt;
| year = 2016&lt;br /&gt;
}}&amp;lt;/ref&amp;gt;的可扩展端到端树提升系统，该系统被数据科学家广泛使用，以在许多机器学习挑战中取得最先进的结果。XGBoost提出了一种新的稀疏数据稀疏性感知算法和近似树学习的加权分位数图。通过结合这些技术，XGBoost能够使用比现有系统少得多的资源得到更精确的结果。&lt;br /&gt;
&lt;br /&gt;
==示例代码-XGBoost分类节点==&lt;br /&gt;
该节点使用Python编写，调用xgboost包&amp;lt;ref&amp;gt;Chen, Tianqi; Guestrin, Carlos (2016). &amp;quot;Xgboost: A scalable tree boosting system&amp;quot;. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. pp. 785–794.&amp;lt;/ref&amp;gt;。以下为示例代码：&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;Python&amp;quot;&amp;gt;&lt;br /&gt;
import xgboost as xgb&lt;br /&gt;
# Load Pandas Data&lt;br /&gt;
data = np.random.rand(5, 10)  # 5 entities, each contains 10 features&lt;br /&gt;
label = np.random.randint(2, size=5)  # binary target&lt;br /&gt;
dtrain = xgb.DMatrix(data, label=label)&lt;br /&gt;
&lt;br /&gt;
num_round = 10&lt;br /&gt;
bst = xgb.train(param, dtrain, num_round, evallist)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
如果想使用完全代码请参考：https://xgboost.readthedocs.io/en/stable/python&lt;br /&gt;
&lt;br /&gt;
拟合后，模型可以用于预测样本的类别，可以在[[通用预测模块]]实现内外部测试集的预测。&lt;br /&gt;
&lt;br /&gt;
==&#039;&#039;&#039;节点使用指南&#039;&#039;&#039;==&lt;br /&gt;
* 最适用的场景：可用于解决分类问题，其中目标是将数据分为不同的类别或预测数据的类别。&lt;br /&gt;
* 处理的数据类型：结局变量为二分类，特征变量大多数为连续型的变量。&lt;br /&gt;
===变量配置===&lt;br /&gt;
* 选择特征变量：作为特征进行学习的变量（X），多选。&lt;br /&gt;
* 选择目标变量：作为结局的二分类变量（y），单选。&lt;br /&gt;
&lt;br /&gt;
===参数配置===&lt;br /&gt;
* 设置随机数：控制模型的随机性。&lt;br /&gt;
* 弱学习器类型：&lt;br /&gt;
** gbdt（默认）：梯度提升决策树（Gradient Boosting Decision Tree）。这是传统的梯度提升框架，使用了Leaf-wise决策树。&lt;br /&gt;
** dart：DART（Dropouts meet Multiple Additive Regression Trees）。DART是LightGBM的一种改进算法，它在训练过程中引入了随机性，通过丢弃（dropout）弱学习器来减少过拟合的风险。&lt;br /&gt;
** rf：随机森林（Random Forest）。随机森林是一种集成学习方法，通过随机选择特征和样本来构建多个决策树，并使用投票或平均来进行预测。&lt;br /&gt;
* 学习率：默认0.1。&lt;br /&gt;
&lt;br /&gt;
===注意事项===&lt;br /&gt;
* 不支持带空值运算，用[[多重插补]]或[[插补空值]]进行插补，&lt;br /&gt;
* 节点不出图，&lt;br /&gt;
* 导入该节点的数据端口为训练数据集，导入前注意转换。&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
{{reflist}}&lt;br /&gt;
&lt;br /&gt;
{{Navplate AlgorithmNodeList}}&lt;br /&gt;
&lt;br /&gt;
[[Category:分类训练器]]&lt;/div&gt;</summary>
		<author><name>Wurong</name></author>
	</entry>
</feed>