现在的位置: 首页 > 综合 > 正文

Characterization of the convergence of stationary Fokker–Planck learning

2018年04月30日 ⁄ 综合 ⁄ 共 10983字 ⁄ 字号 评论关闭

去年在神经计算课上,要求翻译的文章,翻译完之后也没怎么用到,希望对一些朋友能有帮助....原文发表在Neurocomputing上的

 

 

                                                                                         
  固定
Fokker–Planck算法收敛性特征的学习与研究

摘要

通过固定的Fokker - Planck算法对于随机搜索过程的渐近密度估计的收敛性进行了研究。 在可分离和不可分的非线性最优化问题的情况下估计的收敛特性的理论和实证的论据被提出来。一些隐含意思的固定的Fokker - Planck学习收敛的参数推断在人工神经网络模型中进行了概述。 

                         @2009 Elsevier B.V. 保留所有权利

1.引言

有一些局部极小的成本函数的最优化是一个在科学和工程的各个领域的相关学科。特别是,大多数机器学习的问题表述通常比较复杂,优化任务[1]。一个常见的设置存在于恰当的应该从数据中选择的家庭模型的定义。选择步骤涉及到一定成本的最优化或者似然函数,它通常在高维参数空间中定义。在其他的学习方法中,像贝叶斯推理[16,14],与模型相关的数据和成本函数的优化问题产生在整个范围内是相关的。全局优化起着突出的作用的其他领域包括运筹学[12]、工程系统的优化设计[19]和其他许多重要的应用。

随机优化策略是必不可少的许多用于处理复杂的,非结构化的全局优化问题的启发式技术。 如模拟退火[13,20,9,25]的方法和基于进化种群的算法[10,7,22,11,25]已被证明是有价值的工具,能够在一个相对较小的计算气力给予质量好的解决方案。在基于人口的优化中,搜索空间通过有限的人群点得演变。自我适应的人口交替期间,在搜索空间的特定区域进行了密集方式的探索,以及多样化的时期,其中解决方案结合了对全球范围获得的信息。有大量的证据表明,一些基于人口的算法范例在计算成本和可靠性方面是全球最有效率的优化技术。但是这些方法,是纯碎的启发式不能保证收敛到全局最优。另一方面模拟退火,是一种确保全局最优的统计方法,但是它的一个限制是在实践中很难实现。在模拟退火单颗粒通过扩散过程探讨解空间。为了保证全局最优,“温度”的特点,应降低扩散alogarithmic时间表[8],这种情况意味着需要很长的计算时间。 

近来由作者[2]介绍探究,在随机搜索过程中的一个通用类的固定密度估计过程的收敛性方面的贡献。 

通过估算程序,可以在概率的基础上定义出搜索空间里有希望的区域。这些信息可以用在有关自适应性算法的随机性或确定性上。在非线性优化算法的改进中,有关密度估计方法的初步应用可以在参考文献[23]中找到。该算法的基础理论方面,我们把统计力学和可能使用的密度估计过程之间的联系,做为一种多样化的机制,进行了讨论,见参考文献[3]。在下一章节中,我们就固定的密度估计算法的基本要素给出了简要介绍。此后,给出了关于密度估计的收敛理论和实证证据。除了全局优化外,密度估计方法为最大似然估计和贝叶斯推理提供了新的技术方法。有关神经网络训练的可能性,在第四章节中给出了概述。第五章介绍了最终的结论和备注

2  Fokker–Planck算法中随机搜索的固定概率密度的研究

对于固定密度的估计过程,我们以以下函数为例给出简要介绍。函数Vx1; x2; . . . ; xn; . . . ; xN ),其搜索空间定义为L1;nxnL2;n.我们目前的工作就是基于该函数,求其最小花费。这个问题的随机搜索过程仿照公式(1)

                                                   (1

其中是均值为零的噪声。在统计物理学中,方程(1)做为朗之万方程是非常著名的,参见文献[17,26],要注意一般随机搜索的一些基本属性。特别地,从变化率的梯度上可以看出自适应的机制,从噪音上可以看出基本的多元化机制。方程(1)可以理解为一个过阻尼的非线性动力学系统,该系统是由在加性白噪声里存在的离子的相互作用组成。考虑到反射边界的条件,我们可以说固定密度的估计就类似于是基于该物理系统的。因此,在固定条件下,粒子的密度n是满足线性偏微分方程的。

公式2是一维Fokker - Planck方程。公式2的重要结果即通过对进行 Gibbs抽样,从而对的边界进行画点采样。由于Fokker - Planck方程是线性的,就可以构造一个特定形式Gibbs抽样,这样,不仅给出了边缘密度的采样,而且给出了它

的近似解析表达式。公式2是累积分布的线性二阶微分方程

 

的边界条件来自于搜索空间内的密度的正规化。通过反演的方法,可以从的密度分布中可以得出随即偏离度。在基于事实的基础上可以发现,y是均匀的分布在区间y∈(0,1)上的随机变量。在自己感兴趣的时间间隔内,可以近似的从满足边界条件的一系列线性函数的完整集合中,将视为随机变量的函数。

   例如,当时,通过公式3可以得出,L的系数是定义在L—1内部点的唯一值。通过这种方式,由V衍生出L—1的评估后,再对L的线性代数方程组求解,就可以近似地认为求解出来了y。基本的抽样程序,即我们这里将要调用的固定的Fokker - Planck(SFP)的采样,是基于以下步骤迭代的:

(1) 通过使用公式3,公式4,修正变量

(2) 通过使用构造一个查找表,用于从固定分布的中生成的偏离度。

(3)更新重复该步骤得到一个新的变量

公式1描述了均衡分布的扩散式搜索过程的自动学习算法,它是基于迭代的SFP采样的三个步骤。将该迭代扩展四次后得到的系数的平均值用于表示的收敛性。为了看到这一点,就要考虑到表达式的边缘密度和条件分布:

从上述两个公式可以看出,的边界值依赖于集合上的的期望值。

集合的所有信息存储在上述迭代四次后的系数上

因此,括号内的代表了SFP采样迭代了四次后的平均值。

3. 固定的Fokker  Planck算法学习的收敛性

     在函数成本的作用下, 的边界给出了在搜索区间 范围内任何区域扩散粒子的概率。固定密度估计过程的收敛性取决于:

(1)静止状态的存在;

(2)SFP采样的收敛性。

     一般多维的Fokker - Planck方程的静止状态存在的条件在参考文献[17]中可以找到。对于需要特别反映边界的情况时,成本函数和扩散系数并不依赖于时间,它的基本要求就是成本函书没有异常点即可。

通过公式8可看出SPF采样的每次迭代,都可证明和随机搜索相关的密度是可以进行估计的,并且随着时间的推移,估计的准确性越高。我们把该过程叫做固定的Fokker - Planck学习(SFPL)的密度。SFPL的收敛性如同Gibbs抽样的收敛性。在一般情况下,Gibbs抽样显示的是其几何收敛性,参见文献[18,4]。快速收敛是SFPL使用价值的一个重要特征,就如同是多元化机制在最优化问题上一样。仔细研究几何收敛条件(参考文献[18]中把它表示为马尔可夫链的核心条件)和SFPL在最优化问题上的几类应用之间的关系,其联系应该是一个相关的课题研究。在这一点上,我们呈现了一些关于SFPL收敛性的相关数值试验。

接下来,就是进行四次迭代扩张的具体形式,要用到公式9

估计算收敛性的迭代是一个可分离的问题。可分离性是指几个项的线性组合,每一项是一个单一变量。公式1描述了可分离问题生成了随机搜索的耦合动力学。Michalewiczs(参考文献[5])是全局优化算法中常见的一个测试功能,该功能的最小化就表明了这种行为。在一个二维的搜索空间中,Michalewicz’s的功能被记做

图1:当L=5,D=1时,SFPL算法经过一次迭代后对y和p的评估。尽管在渐变的过程中使用了非常低的数字进行评估,算法是能够找到的概率结构,该结构和成本函数的全局属性是一致的

图2:和图1相同,只是L=10

图3:当L=20,D=0.4时,SFPL算法经过一次迭代后对y和p的评估。当随机性参数进行微量的增加或减少时,通过SFPL可以发现概率密度围绕全局最低值剧烈减少。要注意到该计算仍很小,只涉及到19个渐变性的估计。

图4:估计密度边缘点的客观价值是两个独立的轨迹中的最大值

图5:在XOR问题上,固定密度收敛性的统计过程的评估。上图绘制出的实时曲线,是两个独立轨迹边缘估计的标准偏差的平均值。下图显示的是两者平均标准偏差的距离。距离衰减的几何速率超过了100次迭代。距离的渐近线就像有权威的法律一样,其特征表现为,M是迭代次数。

搜索空间 Michalewicz做为测的功能是非常有趣的,因为当m取大值时,函数的局部行为可以提供了全球上最小的信息。当m=10时,二维Michalewicz’s所估计的的全球最小值是V~—1.89,并且大致位于点(2.2, 1.5)左右,这可以通过绘制来看到的。当m=10时,该函数的偏导数被估计出来,它的每个变量在L-1的等间距点上被分离开,该间距的大小为h=π/L。 由此通过LU分解算法解决了线性代数系统[24]。在图1-3中,以及它们相关的概率密度已经显示出来了。经过SFPL的单次迭代后就可以估计出其密度。通过采取相应的衍生工具,就可以直接计算出的密度。在图1中是D=1,L=10的情况,图2是D=1,L=10的情况,图3是使用了更小的随机参数,D=0.4,L=20。我们注意到当D足够大时接近于y时,就可以使用较少的衍生工具对其进行评估,由此产生的密度要比那些经过统一偏离而获得的密度能更好地代表成本函数。SFPL收敛性质的渐进性在XOR优化的问题上开始进行实验性研究。

XOR函数是机器学习的优化任务中出现最多的函数原型。这是具有多个局部极小值[21]和决策变量之间强大的非线性相互作用的一个例子。在上述实验的图4,图5显示,两个独立的轨迹遵循以上的连续迭代。SFP抽样的参数是D=0.01,L=200。图4显示成本函数在坐标中的值的边缘是最大的。对于每一个轨迹,初始点在搜索空间中是均匀的。从图可以看出,两个轨迹最终都收敛到目标函数中一个相似的点。通过对成本函数搜索空间内均匀分布的100个点进行评估,可以估计出成本函数的平均值是2。经过280次迭代后,两个轨迹的不同大概围绕于成本函数平均值的0.05%。此外,被公认为该轨迹全局最佳的客观价值上的差异是

经过280次迭代后,的平均值≤0.117%。通过对密度估计绘制图中点下降的局部搜索,可以发现在搜索空间内的全局最佳值。

为了检查统计出收敛性,可以采取以下介绍的措施:

在这种情况下,上式代表了对估计边缘化的统计。通过对公式9进行扩展,会发现所有必要的积分都是很容易对其进行分析的。图5的第一张图是SFP采样迭代后,S和av两个任意、独立的轨迹的绘制图。该方法中,av的收敛是非常明显的。图5的第二幅图是该方法的进一步研究,是指两个轨迹经过该方法迭代后的区别。经过第一次收敛后,可以看到其几何收敛是一致的,并且显示了其速率的渐近性。

4 最大似然估计和贝叶斯推理

搜索算法除了应用于局部多元化外,SFPL的快速收敛性也是一种高效的推理方法,例如神经网络的训练。从统计推理的角度来看,机器学习未知参数的不确定性的特点是观测数据参数的后验密度[16,14]。当后续数据最大化后(最大似然估计)或者后验分布的整体平后(贝叶斯推理),就可以对新的数据进行预测。具体来说,假定一个系统,输入X,输出Y,该数据是的初次分配所得到的,并且其协方差矩阵是。问题时从给定的观察集中估计出f。例如,这些参数可以是不同的神经网络重量和架构。观测到的数据被定义为后续数据的估计值。最大似然估计,其训练包括寻找能使取得最大值的最佳参数集合。另一方面,贝叶斯推理是基于这样一个事实,即对于[16]中给定的

在最大限度地减少下预期的误差平方的情况下,估计出f值。所以该训练是对总体平均值的估计。

这里所提出的SFPL框架,是指均衡密度给出的先验知识。这种选择之前涉及很少的假设推理,对于间隔时间的合理分配的任务,是由w决定的。在得到均匀密度之前,如果样品中呈现的数据已被独立制定,那么后续的密度是由给定的。其中,和V是该函数的损失。SFPL算法可以直接应用于后续的边缘的学习[14]。在建筑业上,这些边缘化都会得到合适的规范。

现在,SFPL被公认为可以有效的应用于最大似然估计和贝叶斯训练。现在考虑一下XOR模式。对于每一个参数在区间[﹣10,10]之间,假定已知先前的密度,那么相关联的密度就可以被估计了。从另一方面说,后验密度就是成本函数给定的一个训练集的结果。它在第3章节已证明,对于不可分的非线性成本函数,就像XOR一样,SFPL边缘密度的收敛性会得到正确的估计。因此,最大化的可能性将会降低到N,其中,N是估计的权重。在的直接最大化的比较中,此过程的优势是显而易见的。另一方面,由固定密度对SFPL采样的设计,就如同是偏离的发电机一样。其平均值(13)近似于

在大多数技术中,并没有必要对随机搜索进行直接模拟

图6::上图是XOR问题中ANN模型的特定权重(W5是一个偏置的隐层神经元)的概率密度。  星线对应的是样本1和样本2的大小。虚线是样本3的密度,实线是样本4显示的结果

图6显示的是特定权重做为样本大小增加量。其中,参数被设定为L=200,D=0.01。两条星线对应的是样本1和样本2的大小,分别输入(0,0)和(0.0),(1,1)。在这种情况下,当样本足够大,大到能够为这些参数提供足够的区域时。实线对应的情况,是指数据集内的四个点用于训练的情况,它生成的密度是清晰的。在随机搜索过程中,参数D和在噪声强度是成正比的。正如参考文献[3]中所讨论的一样,我们可以在预期计算的基础上进行选择。图6表明,在固定的D级噪声内,曲线的增加意味着不确定权重的减少。这一发现意味着我们预期从已知的神经网络[15]的力学统计理论中得到什么,通过权重的衰减做为样本数据的增长。

图7表明,通过对所有样本使用权重推理,得到的最大似然估计和贝叶斯培训结果。每一次迭代都显示了在权重推断过程中,网格错误的标准化偏差。实线对应于最大似然训练的结果,它本质上和图4的计算相同。虚线对应的贝叶斯训练其表现是非常相似的。SFP采样每次迭代后,都可以通过对神经网络权重向量上的评估,而估计出平均水平。通过这种方式,公式(15)中得到的数量式的总和等于SFP采样迭代次数。

现在提出的一个更大的示例涉及到了噪声数据。考虑“机器人手臂的问题”,我们已经在贝叶斯推理[16]的情况下使用使用了该标准。通过以下的动力学模型得到机器人手臂的数据集:

     图7:在XOR问题中,通过使用固定的Fokker–Planck对权重分布进行估计,得到的最大似然估计(实线)和贝叶斯训练(虚线)的图像。

图8:在机器人手臂问题中,两个独立轨迹的成本函数平均值的不同。ANN通过使用200个样本点进行训练得到的。

   图9:在机器人手臂的问题中,输入(﹣1.471,0.752)进行测试得到的贝叶斯估计。SFPL的参数为L=300,D=0.00125,M=300,有200个测试点


 图10:和图9情况相同,只是SFPL的参数是L=200,D=0.01,M=300,样本大小为50个点

     输入的代表胳膊关节的角度,输出的给出了胳膊的位置。在参考文献[16]中,描述了以下的实验装置:输入是均匀分布在以下区间中。噪声e1和e2是由高斯和标准误差为0.1的白色。用此方法得到一个有200个点的样本。一个隐层的神经网络是由组成16个双曲正切函数组成,考虑到损失函数的平方误差,该函数是由SFP学习产生的样本。之前分配的所有权重都是均匀的分布在区间[﹣1,1]之间。图8显示的是L=300,D=0.00125,经过M=300次迭代后,两个独立轨迹在训练过程中出现错误的绝对平均值的差异。预期的平方误差是D/2,,可以证明的是,经过10次迭代后,两个不同轨迹之间的误差平衡的差异是处于同一数量级的.经过SFP的300次迭代后,输入(﹣1.471, 0.752)进行测试,就可以估计出其网格轨迹。图9显示的是贝叶斯预测的直方图。当噪音不是(1.177,﹣2.847)时,模型6可以准确的给出其输出。对于每一个参数,当其标准差约为0.12时,通过SFPL取值为(1.24,﹣2.64)时,都可以给出其贝叶斯估计值。因此,基础模型给出的输出值,有95%置信区间是围绕在贝叶斯估计的预期值内。连续的预测可以获得较低的精度和较少的数据。图10显示的是L=200,D=0.01,样本大小为50个点的情况下的直方图。虽然贝叶斯预测具有不确定性,但它仍然是统计学中的一个基本过程。在机器人手臂的问题中,当L=300,的情况下,曲线梯度的评估渐渐接近于一个均衡密度。这与前面的方法似乎更有竞争力,例如尼尔介绍的蒙特卡罗策略。在机器人手臂问题中,为了方便找到一个非常详细的应用程序,蒙特卡罗在尼尔书中提到过。SFPL方法的另外一个优点就是明确的表述获得参数密度的方法。

   更详细的试验是根据目前发展得到的。由于数据的有限性,复杂神经网络的研究只能得到一般的研究,目前作者的努力方向这是基于贝叶斯总体框架之下。

5 结论   

   理论和经验主义表明,固定的Fokker–Planck算法呈现了随机搜索的估计密度的收敛特征。对于非线性优化问题,该程序可用于分离函数经过一次迭代后的收敛性和不可分离函数问题的快速收敛性。固定的Fokker–Planck学习可高效、可靠的用于最大似然估计和贝叶斯神经网络的训练技术。

备注

这项工作部分得到墨西哥全国委员会科学技术委员会J45702-A.的认同。

参考文献

[1] K.P. Bennett, E. Parrado-Herna ndez, The interplay of optimization and machine learning research, Journal of Machine Learning Research 7 (2006) 1265–1281.

[2] A. Berrones, Generating random deviates consistent with the long term behavior of stochastic search processes in global optimization, in: Proceedings of IWANN 2007, Lecture Notes in Computer Science, vol. 4507, Springer,Berlin, 2007, pp. 1–8.

[3] A. Berrones, Stationary probability density of stochastic search processesinglobal optimization, Journal of Statistical Mechanics (2008) P01013.

[4] A. Canty, Hypothesis tests of convergence in Markov chain Monte carlo,

Journal of Computational and Graphical Statistics 8 (1999) 93–108.

[5] R. Chelouah, P. Siarry, Tabu search applied to global optimization, European Journal of Operational Research 123 (2000) 256–270.

[6] L. Devroye, Non-Uniform Random Variate Generation, Springer, Berlin, 1986.

[7] A.E. Eiben, J.E. Smith, Introduction to Evolutionary Computing, Springer,Berlin, 2003.

[8] S. Geman, D. Geman, Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images, IEEE Transactions on Pattern Analysis and Machine Intelligence 6 (1984) 721–741.

[9] S. Geman, C.R. Hwang, Diffusions for Global Optimization, SIAM Journal of Control and Optimization 24 (5) (1986) 1031–1043.

[10] D. Goldberg, Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley, Reading, MA, 1989.

[11] A. Hertz, D. Kobler, A framework for the description of evolutionary algorithms, European Journal of Operational Research 126 (2000) 1–12

[12]  /http://www.informs.org/S.

[13] S. Kirkpatrick, C.D. Gelatt Jr., M.P. Vecchi, Optimization by simulated

annealing, Science 220 (1983) 671–680.

[14] D.J.C. MacKay, A practical Bayesian framework for backpropagation networks,Neural Computation 4 (3) (1992) 448–472.

[15] D. Malzahn, M. Opper, Statistical mechanics of learning: a variational

approach for real data, Physical Review Letters 89 (10) (2002) 108302.

[16] R.M. Neal, Bayesian Learning for Neural Networks, Springer, Berlin, 1996.

[17] H. Risken, The Fokker–Planck Equation, Springer, Berlin, 1984.

[18] G.O. Roberts, N.G. Polson, On the geometric convergence of the Gibbs sampler,Journal of the Royal Statistical Society B 56 (2) (1994) 377–384.

[19] P.Y. Papalambros, D.J. Wilde, Principles of Optimal Design: Modeling and

Computation, Cambridge University Press, Cambridge, 2000.

[20] P. Parpas, B. Rustem, E.N. Pistikopoulos, Linearly constrained global optimization and stochastic differential equations, Journal of Global Optimi-

zation 36 (2) (2006) 191–217.

[21] K.E. Parsopoulos, M.N. Vrahatis, Recent approaches to global optimization

problems through particle swarm optimization, Natural Computing 1 (2002)

235–306.

[22] M. Pelikan, D.E. Goldberg, F.G. Lobo, A survey of optimization by building and using probabilistic models, Computational Optimization and Applications 21(1) (2002) 5–20.

[23] D. Pen˜a, R. Sanchez, A. Berrones, Stationary Fokker–Planck learning for the

optimization of parameters in nonlinear models, in: Proceedings of MICAI

2007, Lecture Notes in Computer Science, vol. 4827, Springer, Berlin, 2007, pp.

94–104.

[24] W. Press, S. Teukolsky, W. Vetterling, B. Flannery, Numerical Recipes in

C ++ , the Art of Scientific Computing, Cambridge University Press,Cambridge, 2005.

[25] J.A.K. Suykens, H. Verrelst, J. Vandewalle, On-line learning Fokker–Planck

machine, Neural Processing Letters 7 (2) (1998) 81–89.

[26] N.G. Van Kampen, Stochastic Processes in Physics and Chemistry, North-

Holland, Amsterdam, 1992.

Arturo Berrones于2002年获得墨西哥莫雷洛斯州自治大学的物理学博士学位;2003年,他在意大利佛罗伦萨大学做博士后助理,从事研究复杂系统的工作;2004年,他成为墨西哥新莱昂州自治大学工程系统的教授助理。他目前的研究兴趣是复杂系统的统计和计算,以及统计力学和人工智能之间的接口。



 

 

 

 

 

 

 

 

 

 

抱歉!评论已关闭.