该软件使用的训练数据和检验数据文件格式如下:
<label> <index1>:<value1> <index2>:<value2> ...
其中<label> 是训练数据集的目标值,
对于分类,它是标识某类的整数(支持多个类);
对于回归,是任意实数。<index> 是以1开始的整数,可以是不连续的;<value>为实数,也就是我们常说的自变量。检验数据文件中的label只用于计算准确度或误差,如果它是未知的,只需用一个数填写这一栏,也可以空着不填。在程序包中,还包括有一个训练数据实例:heart_scale,方便参考数据文件格式以及练习 使用软件。
对于多分类的情况,比如8分类。一般情况,二类分类器只是将数据集分为正一和负一,如果要构造多类分类器,通常情况是将多类分类器转换了多个二类分类器,如label为:1,2,3,4,5,6,7,8
需要转换为:
-1 -1 -1
-1 -1 +1
-1 +1 -1
-1 +1 +1
+1 -1 -1
+1 -1 +1
+1 +1 -1
+1 +1 +1
这样,只需要构造三个二类分类器就可以解决你的问题。
#include <iostream> using namespace std; #include <fstream> void main() { char* rute="try.txt"; ofstream o_file(rute); //输出文件流,将数据输出到文件 int j=0; int i=9; for(int m=0;m<6;m++) o_file<<1<<"\t"<<1<<":"<<i++<<"\t"<<2<<":"<<j++<<"\n";//将内容写入文本 for( m=0;m<6;m++) o_file<<-1<<"\t"<<1<<":"<<i++<<"\t"<<2<<":"<<j++<<"\n";//将内容写入文本 }
运行结果:
1 1:9 2:0 1 1:10 2:1 1 1:11 2:2 1 1:12 2:3 1 1:13 2:4 1 1:14 2:5 -1 1:15 2:6 -1 1:16 2:7 -1 1:17 2:8 -1 1:18 2:9 -1 1:19 2:10 -1 1:20 2:11
如果没有try.txt文件,会自动建立此文件