现在的位置: 首页 > 算法 > 正文

bootstrap算法和方法是什么意思

2020年01月08日 算法 ⁄ 共 1302字 ⁄ 字号 评论关闭

  bootstrap方法什么意思?bootstrap方法即自助法。在统计学中,自助法(Bootstrap Method,Bootstrapping,或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。

  自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布为正态分布;但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集,自助法效果很好。

  632自助法

  最常用的一种是.632自助法,假设给定的数据集包含d个样本。该数据集有放回地抽样d次,产生d个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。

  显然每个样本被选中的概率是1/d,因此未被选中的概率就是(1-1/d),这样一个样本在训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)d。当d趋于无穷大时,这一概率就将趋近于e-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。

  bootstrap算法是什么意思

  Bootstrap是非参数统计中一种重要的估计统计量变异性,并可进行统计量区间估计的统计方法,也称为自助法。

  其核心思想和基本步骤如下:

  (1) 采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样。

  (2) 根据抽出的样本计算待估计的统计量T。

  (3) 重复上述N次(一般大于1000),得到N个统计量T。

  (4) 计算上述N个统计量T的样本方差,以此估计统计量T的方差。

  应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其应用范围得到进一步延伸。

  具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。

  进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。

  如果数据存在明显的层次,可以用分层抽样提高分析效率,spss默认是非参数bootstrap方法,并且采用完全随机抽样,所以,如果要求分层抽样,不能依靠默认,需要自己设置。

  还有特别需要注意,需要多少个观测量才是最科学,最合理的,答案是1000个。少于这个数字,计算结果不准确,因为是按照百分位数法计算可信区间,所以,不能太少。如果多于1000个,多数情况下精度改善非常有限,并且浪费系统资源和计算时间。

  bootstrap的spss分析中的操作步骤:“分析”~“比较均值”~“均值”~选择好自变量和因变量~“选项”子对话框~“单元格统计量”~bootstrap子对话框~执行bootstrap复选框

  还有一点,如果因变量符合或者大概符合正态分布,bootstrap方法就可以不用。

抱歉!评论已关闭.