现在的位置: 首页 > 综合 > 正文

Very Deep Convolutional Networks for Large-Scale Image Recognition(精读)

2017年12月25日 ⁄ 综合 ⁄ 共 1377字 ⁄ 字号 评论关闭

一.文献名字和作者

    Very Deep Convolutional Networks for Large-Scale Image Recognition. Karen Simonyan,Andrew Zisserman
   


二.阅读时间

    2014年11月4日


三.文献的目的

    文献的主要目的在于测试随着深度的加深,卷积神经网络对于大规模图像分类和定位的作用。


四.文献的贡献点

图像分类:
    作者通过实验发现,随着卷积层数的增加,卷积神经网络在ILSVRC-2014数据集上面的效果越来越好。
    在前面的文章中,有论文表明,使用小的卷积核和小的步长能够取得比较好的效果,并且有论文表明,在训练和测试过程中使用不同比例的图像作为输入,能够获得更好的效果。作者在前面提到的两个基础上,进一步研究深度对于分类正确率的影响。

4.1 两个讨论

    作者讨论了下面两点:
    1.使用多个卷积核比较小的卷积层直接连接在一起,也能够获得和一个卷积核比较大的卷积层一个样的感受野大小,但是,使用多个卷积核比较小的卷积层不仅能够增加非线性,也能够减少参数的个数。
    2.使用大小为1*1的卷积层能够在增加非线性的基础上,不改变感受野的大小。

4.2 训练过程的改进

    在训练的过程中,作者先训练了一个层数比较浅的网络A,然后使用网络A的参数初始化其他层数比较深的网络,对于其他参数,都是采用随机初始化的方式进行的,所有的网络的所有参数都在训练过程中进行更新(包括使用网络A的参数进行初始化的参数)。
    对于多个比例的训练过程,有两个做法:
    1.对于不同的输入比例,训练不同的模型,为了对比,作者做了两个模型,一个是图像的最小边为256,另外一个是最小边为384,对于最小边为384的模型,作者使用最小边为256的模型来进行初始化;
   2.使用多个不同比例的图像训练一个模型,这个模型是使用最小边为384的单个模型进行初始化的,然后使用不同比例的图像进行微调。


4.3 测试过程的改进

    对于测试而已,主要是按照下面的流程进行:
    1.将输入图片的最小边缩放到Q大小;
    2.将第一个全连接层替换为7*7的卷积层;将后面的两个全连接层替换为1*1的卷积层(这个作者在文中说和《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks.》的做法类似,但是并没有说明卷积核是如何得到的)。通过上面的操作,得到只有一个全是卷积的神经网络,这个网络输出的结果为每一个类别的得分图。
    3.为了获得输入图片的不同类别的等分,将前面得到的得分图进行平均。
    同时,作者也发现,使用两个模型联合起来进行预测,效果更好。
     
    
   
图像定位:

4.4 图像定位

    在图像定位方面,作者只是将最后一个全连接层的输出改为输出边框的坐标,最后一层的输出有两种做法:对于所有分类的都只是用一个坐标输出,也就是说最后一个输出只有4个神经元(SCR);另外一个做法是,对于不同类型的物体用不同的神经元输出坐标,这样,输出层有4000个神经元(PCR)。
    在训练过程中,cost function使用的是Euclidean loss。



五.使用的数据库

     ILSVRC2014



六.实验结果



版权所有,欢迎转载,转载请注明出处,谢谢微笑










抱歉!评论已关闭.