现在的位置: 首页 > 综合 > 正文

Some Improvements on Deep Convolutional Neural Network Based Image Classification(精读)

2017年12月25日 ⁄ 综合 ⁄ 共 1157字 ⁄ 字号小中大 ⁄ 评论关闭

一.文献名字和作者

Some Improvements on Deep Convolutional Neural Network Based Image Classification, Andrew G. Howard

二.阅读时间

2014年10月31日

三.文献的目的

文献主要提出了几种能够提高基于CNN的图像分类系统的准确率的方法。

四.文献的贡献点

提出了三种能够提高CNN图像分类正确率的方法(对于类似于ILSVRC那种大数据集的CNN而言)：1.在训练集中增加更多的变换；2.在测试过程中增加更多的变换；3.对于高分辨率图像，使用互补模型。

4.1 对于训练集增加更多变换

传统为训练集增加变换的做法是：1.从大小为256*256的图片中随机选择大小为224*224的图像块，用来增加平移不变性；2.将图像水平翻转，用来增加翻转不变性；3.随机增加光照，用来增加光照和颜色的不变性。

文献提出的做法是1.将图像缩放到256，这样，原来的图像就缩放为256*N和N*256，然后随机选择224*224的图像块作为训练集；2.增加颜色控制，改方法是在对比度、光照强度和颜色三个方面随机选择一个进行了增强，然后在加入随机的亮度噪声。

4.2 增加测试图像的变换

作者使用了5种不同的变换、3种不同的比例、2种映射和3个不同的视角对输入测试图片进行处理，从而得到更多的预测结果，为了解决预测结果过多的问题，作者提出了一种减少预测结果的方法(这个方法没看懂)

4.3 增加高分辨率的模型

作者加入了一个使用高分辨率图像进行训练的网络，网络的结构与低分辨率的网络是相同的，因此，可以使用低分辨率的网络的参数来初始化这个高分辨率的网络，这样可以减少训练时间。

由于输入的高分辨率图片，因此，在进行测试的时候，对于高分辨率的网络结构，需要使用9个局部块、2个翻转、3个缩放和3个不同的视角，总共162个输入进行预测，这样就得到了162个输出，然后使用上面作者提到的减少预测结果的方法进行处理，得到最后的处理结果。

五.使用的数据库

ILSVRC2013数据集

六.实验结果

七.评价

作者主要提出了几种在大型的数据集并且分辨率比较高的图像上面进行的能够改进CNN分类正确率的方法。对于ILSVRC这样的大型数据库，图像的分辨率又高，不能将整个图像作为输入，同时，为了增加分类正确率，一般都是输入几个图像块进行分类，然后将几个图像块的分类结果结合起来，作为整个图像的分类结果。针对这种情况，作者才提出了上面的几种解决方法。其中，第三种方法，也就是将两个不同输入是不同分辨率图像的网络的结果进行组合，从而得到较好的结果，这种想法在CVPR2014中也有文章在使用，看来，这个也是一种很不错的思路。