无约束最优化问题:
其中:
。
下面的方法假设是可导的。
—————————————————————————————————————————————————————————————————————————————
第一种方法:梯度下降法
其中是步长,且,是正定矩阵,是的导数。
当是单位矩阵时,就是最速下降法。
证明:我们只需要证明
即可。
利用泰勒展式得到:
证毕。
----------------------------------------------------------------------------------------------------------------------------
针对一类特殊的问题(经常在模式识别,机器学习算法中出现的一类问题,例如神经网络,Logistic回归等),即可以归纳为以下无约束最优化问题
其中就是已知的训练数据集,是未知数。
有两种梯度下降法经常用到:随机梯度下降法和批量梯度下降算法。
批量梯度下降法(即:每一次迭代时,所有的数据集都会用到):
。
随机梯度下降法(即:每一次迭代时,随机选择一个(或多个)数据集):
。
我们看到少了一个和号。
————————————————————————————————————————————————————————————————————————————
第二种方法:牛顿法
牛顿法是把先进行二阶泰勒展式:
。
然后,令求二阶泰勒展式的最小值,即令导数等于0的点,那么,求导并令导数等于0:
,
所以:
,
那么,我们可以令
。
我们发现牛顿法相当于只是令梯度下降法中的。
—————————————————————————————————————————————————————
第三种方法:L-M算法--对于求解非线性最小二乘方法比较有效
具体内容查看这篇文章
—————————————————————————————————————————————————————
第四种方法:坐标下降法
我们只要令
,
即可。
—————————————————————————————————————————————————————
后续,会补上关于带有约束问题,非线性规划问题。