现在的位置: 首页 > 综合 > 正文

Very Deep Convolutional Networks for Large-Scale Image Recognition(精读)

2017年12月25日 ⁄ 综合 ⁄ 共 1377字 ⁄ 字号小中大 ⁄ 评论关闭

一.文献名字和作者

Very Deep Convolutional Networks for Large-Scale Image Recognition. Karen Simonyan,Andrew Zisserman

二.阅读时间

2014年11月4日

三.文献的目的

文献的主要目的在于测试随着深度的加深，卷积神经网络对于大规模图像分类和定位的作用。

四.文献的贡献点

图像分类：

作者通过实验发现，随着卷积层数的增加，卷积神经网络在ILSVRC-2014数据集上面的效果越来越好。

在前面的文章中，有论文表明，使用小的卷积核和小的步长能够取得比较好的效果，并且有论文表明，在训练和测试过程中使用不同比例的图像作为输入，能够获得更好的效果。作者在前面提到的两个基础上，进一步研究深度对于分类正确率的影响。

4.1 两个讨论

作者讨论了下面两点：

1.使用多个卷积核比较小的卷积层直接连接在一起，也能够获得和一个卷积核比较大的卷积层一个样的感受野大小，但是，使用多个卷积核比较小的卷积层不仅能够增加非线性，也能够减少参数的个数。

2.使用大小为1*1的卷积层能够在增加非线性的基础上，不改变感受野的大小。

4.2 训练过程的改进

在训练的过程中，作者先训练了一个层数比较浅的网络A，然后使用网络A的参数初始化其他层数比较深的网络，对于其他参数，都是采用随机初始化的方式进行的，所有的网络的所有参数都在训练过程中进行更新(包括使用网络A的参数进行初始化的参数)。

对于多个比例的训练过程，有两个做法：

1.对于不同的输入比例，训练不同的模型，为了对比，作者做了两个模型，一个是图像的最小边为256，另外一个是最小边为384，对于最小边为384的模型，作者使用最小边为256的模型来进行初始化；

2.使用多个不同比例的图像训练一个模型，这个模型是使用最小边为384的单个模型进行初始化的，然后使用不同比例的图像进行微调。

4.3 测试过程的改进

对于测试而已，主要是按照下面的流程进行：

1.将输入图片的最小边缩放到Q大小；

2.将第一个全连接层替换为7*7的卷积层；将后面的两个全连接层替换为1*1的卷积层(这个作者在文中说和《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks.》的做法类似，但是并没有说明卷积核是如何得到的)。通过上面的操作，得到只有一个全是卷积的神经网络，这个网络输出的结果为每一个类别的得分图。

3.为了获得输入图片的不同类别的等分，将前面得到的得分图进行平均。

同时，作者也发现，使用两个模型联合起来进行预测，效果更好。