先要理解好决策树算法,才能更好的理解随机森林,随机森林就是用随机选择的样本集,随机选择的条件属性建立多棵决策树。
设具有N个样本的训练集(数据集):
它们的标签为:
随机森林算法的步骤:
每一次建立一棵决策树的步骤
第一步:从上述N个样本数据集中,进行N次有放回的抽样。
第二步:规定好一个M,每建立该决策树的节点,随机从所有条件属性中选择M个条件属性,根据(信息增益,信息增益率,GINI系数)选择该节点的分裂属性。
随机森林中很好的开源代码,Java中的weka,python中Scikit-Learn