VGGNet论文笔记

2017-10-11 深度学习 VGGNet 0 评论字数统计: 1.6k(字) 阅读时长: 6(分)

1 INTRODUCTION

VGGNet是由牛津大学和Google DeepMind团队提出的，他们在ILSVRC-2014定位任务夺得第一名，分类任务获得第二名（GoogleNet是分类任务的第一名）。VGGNet具有很好的泛化能力，在其他数据集上也有较好的表现。

卷积网络现在在大规模图像和视频识别中取得了巨大的成功，成为了计算机视觉领域的常用工具。AlexNet是具有重要意义的网络结构，有很多人企图改进ALexNet，比如：ZFNet。ZFNet在第一卷积层使用更小的卷积(receptive window size)和更小的步长(stride)，而VGGNet强调了卷积神经网络设计中另一个重要方面—深度。并且VGGNet在所有层使用3*3的卷积核。

2 CONVNET CONFIGURATIONS

为了公平测试深度带来的性能提升，VGGNet所有层的配置都遵循了同样的原则。

2.1 ARCHITECHTURE

唯一的预处理 ：训练集中的每个像素上减去RGB的均值；
训练时，输入是固定大小的224 * 224 RGB图像；
使用了非常小的感受野(receptive field)：3 * 3，甚至有的地方使用1 * 1的卷积,这种1 * 1的卷积可以被看做是对输入通道(input channel)的线性变换，卷积步长是1个像素；
池化层 采用max-pooling,共有5层，max-pooling的窗口是2 * 2，步长是2；
一系列卷积层之后跟着全连接层(fully-connected layers)。前两个全连接层均有4096个通道。第三个全连接层有1000个通道，用来分类。所有网络的全连接层配置相同。
最后一层是soft-max层

注：所有隐层使用激活函数是ReLu .VGGNet不使用局部响应标准化(LRN)，这种标准化并不能在ILSVRC数据集上提升性能，却导致更多的内存消耗和计算时间。

2.2 CONFIGURATIONS

Table1给出了所有的网络配置

2.3 DISCUSSION

相比于AlexNet和ZFNet，VGGNet在网络中使用很小的卷积。AlexNet和ZFNet在第一个卷积层的卷积分别是11 * 11 with stride 4和7 * 7 with stride 2。

VGGNet使用三个3 * 3卷积而不是一个7 * 7的卷积的优势有两点：一，包含三个ReLu层而不是一个，使决策函数更有判别性；二，减少了参数。比如输入输出都是C个通道，使用3 * 3的3个卷积层需要3（3 * 3 * C * C）=27 * C * C,使用7 * 7的1个卷积层需要7 * 7 * C * C=49C * C。这可看为是对7 * 7卷积施加一种正则化，使它分解为3个3 * 3的卷积。

1*1卷积层主要是为了增加决策函数的非线性，而不影响卷积层的感受野。虽然1 * 1的卷积操作是线性的，但是ReLu增加了非线性。

GoogleNet采用了更深更复杂的网络结构（22层），多种卷积核（1 * 1，3 * 3， 5 * 5），并且在第一层中特征比VGGNet更少。

3 CLASSIFICATION FRAMEWORK

3.1 TRAINING

优化函数：SGD+momentum（0.9）
batch size：256
正则：采用L2正则化，weight decay是5e-4；dropout在前两个全连接层后，p=0.5。
参数初始化：随机初始化，权重w从N(0，0.01)中采样，偏差bias初始化为0。
为了获得224*224的输入图像，要在每个sgd迭代中对每张重新缩放(rescale)的图像随机裁剪。为了增强数据集，裁剪的图像还要随机水平翻转和RGB色彩偏移。

尽管相比于AlexNet网络更深，参数更多，但是我们推测VGGNet在更少的周期内就能收敛，原因有二：一，更大的深度和更小的卷积带来隐式的正则化；二，一些层的预训练。

3.2 TESTING

测试阶段步骤：

对输入图像各向同性地重缩放到一个预定义的最小图像边的尺寸Q；
网络密集地应用在重缩放后的测试图像上。也就是说全连接层转化为卷积层（第一个全连接层转化为7 * 7的卷积层，后两个全连接层转化为1 * 1的卷积层），然后将转化后的全连接层应用在整张图像上。结果就是一个类别分数图(class score map)，其通道数等于类别数量，依赖于图像尺寸，具有不同的空间分辨率；
为了获得固定尺寸的类别分数向量(class score vector)，对class score map进行空间平均化处理(sum-pooled)。

3.3 IMPLEMENTATION DETAILS

基于C++ Caffe, 在4个Titan GPU上训练了2-3周。

4 CLASSIFICATION EXPERIMENTS

4.1 SINGLE SCALE EVALUATION

通过分析Table3结果，得出如下结论：

我们发现使用local response normalization(A-LRN)并不能改善A网络性能。
分类误差随着深度增加而降低。
在训练时采用图像尺度抖动(scale jittering)可以改善图像分类效果。

4.2 MULTI-SCALE EVALUATION

通过分析Table4结果，得出如下结论：

相对于单一尺度评估，多尺度评估提高了分类精度。
在训练时采用图像尺度抖动(scale jittering)可以改善图像分类效果。

4.3 MULTI-CROP EVALUATION

多裁剪(multi-crop)评估比起密集(dense)评估，效果更好。而且两者具有互补作用，结合两种方式，效果更好。

4.4 CONVNET FUSION

通过分析Table6结果，得出如下结论：

如果结合多个卷积网络的sofamax输出，分类效果会更好。
在ILSVRC-2014中，我们结合7个网络，实现测试误差7.3%。之后，结合最好的两个模型(D&E)并使用密集评估(dense evaluation)，测试误差降低到7.0%，而使用密集评估和多裁剪评估相结合，测试误差为6.8%。最好的单一模型验证误差为7.1%。

4.5 COMPARISON WITH THE STATE OF THE ART

与ILSVRC-2012和ILSVRC-2013最好结果相比，VGGNet优势很大。与GoogLeNet对比，虽然7个网络集成效果不如GoogLeNet，但是单一网络测试误差好一些，而且只用2个网络集成效果与GoogLeNet的7网络集成差不多。

5 CONCLUSION

我们将卷积网络深度设置为19，相比于其他网络，VGGNet效果更好，并且在其他不同的任务或数据集上有很好的泛化能力。

参考

论文原文：VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

http://blog.csdn.net/muyiyushan/article/details/62895202

本文链接： http://example.com/2017/10/11/VGGNet论文笔记/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

ciicA BOCer

个人简介