🧨AlexNet论文翻译——中文版
2023-8-24
| 2023-8-24
0  |  阅读时长 0 分钟
type
status
password
date
slug
summary
category
URL
tags
icon

摘要

我们训练了一个大型深度卷积神经网络来将ImageNet LSVRC-2010竞赛的120万高分辨率的图像分到1000不同的类别中。在测试数据上,我们得到了top-1 37.5%, top-5 17.0%的错误率,这个结果比目前的最好结果好很多。这个神经网络有6000万参数和650000个神经元,包含5个卷积层(某些卷积层后面带有池化层)和3个全连接层,最后是一个1000维的softmax。为了训练的更快,我们使用了非饱和神经元并对卷积操作进行了非常有效的GPU实现。为了减少全连接层的过拟合,我们采用了一个最近开发的名为dropout的正则化方法,结果证明是非常有效的。我们也使用这个模型的一个变种参加了ILSVRC-2012竞赛,赢得了冠军并且与第二名 top-5 26.2%的错误率相比,我们取得了top-5 15.3%的错误率。

1 引言

目前的物体识别方法主要依赖于机器学习方法。为了提高物体识别的性能,我们可以收集更大的数据集、学习更强大的模型,并使用更好的技术防止过拟合。但是目前,带有标签的图像数据集相对较小,大约只有几万张图像(例如,NORB[16]、Caltech-101/256[8,9]和CIFAR-10/100[12])。这样大小的数据集上可以很好地解决简单的识别任务(尤其是如果通过标签保留变换进行数据增强的情况下)。例如,目前在MNIST数字识别任务上的错误率(<0.3%)已经接近人类表现[4]。但是,在真实环境中的物体变化很大,因此为了学会识别它们,需要使用更大的训练集。事实上,小型图像数据集的缺点已经众所周知(例如,Pinto等人[21]),但直到最近才有可能收集到拥有数百万张图像的带有标签的数据集。这些新的大型数据集包括LabelMe[23],它包含数十万张完全分割的图像,以及ImageNet[6],它包含超过1500万张标记的高分辨率图像,涵盖了超过22000个类别。
为了从数百万张图像中学习数千个物体,我们需要一个具有很强学习能力的模型。然而,物体识别任务的复杂性极高,这意味着即使是如ImageNet这样大规模的数据集也无法完全涵盖所有情况,因此我们的模型还应该具备大量的先验知识来弥补数据的不足。卷积神经网络(Convolutional Neural Networks,CNNs)就是这样一类模型[16, 11, 13, 18, 15, 22, 26]。它们的容量可以通过调整它们的深度和宽度进行控制,并且它们对图像的性质(即统计稳定性和像素之间的局部依赖性)做出了全面且准确的假设。因此,与具有相似大小层的标准前馈神经网络相比,CNN具有更少的连接和参数,更容易训练,而它的理论最佳性能可能仅比标准前馈神经网络差一点。
尽管CNN具有引人注目的效果,并且其局部架构相当有效,但将其大规模应用于高分辨率图像成本昂贵。幸运的是,当前的GPU实现了高效的2D卷积,强大到可以便利地训练各种的CNN模型,并且像ImageNet这样的最新数据集包含了足够的标记样本,使得训练这类模型时可以避免严重的过拟合问题。
本文的具体贡献如下:1、我们在ILSVRC-2010和ILSVRC-2012竞赛中使用ImageNet的子集训练了迄今为止最大的卷积神经网络,并在这些数据集上取得了迄今为止最好的结果。2、我们在GPU上实现了2D卷积和训练卷积神经网络中的所有其他操作,并且进行了开源。3、我们的网络包含了一些不寻常的新特性,可以提高性能并减少训练时间,这些特性在第3节中进行了详细介绍。4、由于我们的网络规模较大,即使有120万个带标签的训练样例,过拟合仍然是一个显著的问题,因此我们使用了几种有效的技术来避免过拟合,这些技术在第4节中进行了描述。我们的最终网络包含了五个卷积层和三个全连接层,其中网络的深度似乎是重要的:我们发现删除任何一个卷积层(每个卷积层的参数不超过模型参数的1%)都会导致性能下降。
最终,网络的尺寸主要受限于当前GPU的内存量以及我们愿意忍受的训练时间。我们的网络需要在两个GTX 580 3GB GPU上训练五到六天的时间。我们的所有实验表明我们的结果可以简单地通过更快的GPU和更大数据集来提高

2 数据集

ImageNet是一个超过1500万张带标签的高分辨率图像数据集,大约22,000个类别。这些图像是从网络上收集的,并通过亚马逊的Mechanical Turk众包工具由人工标注者进行标记。自2010年起,作为Pascal视觉目标挑战的一部分,每年都会举办ImageNet大规模视觉识别挑战赛(ILSVRC)。ILSVRC使用ImageNet的一个子集,1000个类别每个类别大约1000张图像。总计,大约120万训练图像,50000张验证图像和15张万测试图像。
ILSVRC-2010是唯一一个测试集标签可用的ILSVRC版本,所以我们在这个版本上进行了大部分的实验。由于我们还参加了ILSVRC-2012竞赛,因此在第6节中我们还报告了我们在该数据集版本上的结果,但是该版本没有测试集标签。在ImageNet上,按照惯例报告两个错误率:top-1top-5,其中top-5错误率是模型认为最有可能的五个标签中,正确标签不包含在内的测试图像的比例。
ImageNet包含各种分辨率的图像,而我们的系统需要一个固定的输入维度。因此,我们将图像降采样为256×256的固定分辨率。对于一个矩形图像,我们先缩放图像,将较短边的长度缩放到256,然后从结果图像中心裁剪出256×256大小的图像块。除了缩放和裁剪,我们没有对图像进行任何其他的预处理。因此,我们在256×256的原始RGB值上训练我们的网络

3 架构

我们网络的架构如图2所示。它包含了8个可学习的层,其中包括5个卷积层和3个全连接层。接下来,我们将介绍网络架构中一些新颖或不寻常的特点。在3.1-3.4小节中,我们按照我们估计的重要性进行排序,最重要的排在前面。

3.1 ReLU非线性

将神经元输出建模为输入的函数的标准方式是用。就梯度下降的训练时间而言,这些饱和的激活函数比非饱和激活函数更慢。根据Nair和Hinton[20]的说法,我们将这种激活函数称为修正线性单元(ReLU)。采用ReLU的深度卷积神经网络训练时间比采用tanh的等效网络要快几倍。这在图1中得到了证明,图中显示了在一个特定的四层卷积网络上,达到CIFAR-10数据集上25%的训练误差所需要的迭代次数。该图显示,如果我们使用传统的饱和激活函数,我们将无法进行这样大规模神经网络的实验。
图1  使用ReLU(实线)的四层卷积神经网络在CIFAR-10数据集上的训练误差率达到25%的速度比使用tanh激活函数(虚线)的等效网络快六倍。为了尽可能快地进行训练,每个网络的学习率是单独选择的,没有使用任何形式的正则化。这里展示的效果因网络架构而异,但是使用ReLU的网络始终比具有饱和激活函数的等效网络学习速度快几倍。
图1 使用ReLU(实线)的四层卷积神经网络在CIFAR-10数据集上的训练误差率达到25%的速度比使用tanh激活函数(虚线)的等效网络快六倍。为了尽可能快地进行训练,每个网络的学习率是单独选择的,没有使用任何形式的正则化。这里展示的效果因网络架构而异,但是使用ReLU的网络始终比具有饱和激活函数的等效网络学习速度快几倍。
我们不是第一个考虑替代CNN中传统神经元模型的人。例如,Jarrett等人[11]声称,非线性函数与他们的对比度归一化和局部平均池化方法非常契合,在Caltech-101数据集上表现非常好。然而,在这个数据集上主要的关注点是防止过拟合,而我们的关注点是ReLU在训练过程中的加速能力。更快的学习对大型数据集上训练大型模型的效率有很大的影响。

3.2 多GPU训练

单个GTX580 GPU只有3G内存,这限制了可以在GTX580上进行训练的网络最大尺寸。120万个训练样本足以训练出超过一张GPU容量的网络。因此我们将网络分布在两个GPU上。目前的GPU非常适合多卡并行计算,因为它们可以直接互相读写内存,而无需要通过主机内存。我们采用的并行方案基本上每个GPU放置一半的核(或神经元),还有一个额外的技巧:只在某些特定的层上进行GPU通信。例如,第3层的核会将第2层的所有核映射作为输入。然而,第4层的核只将位于相同GPU上的第3层的核映射作为输入。选择连接模式对于交叉验证是一个不小的问题,但这使得我们能够精确调整通信量,直到它的计算量的达到可接受的程度。
最终的架构有点类似于Ciresan等人[5]采用的“columnar” CNN,只是我们的column并不是独立的(见图2)。与每个卷积层一半的核在单GPU上训练的网络相比,这种方案将我们的top-1top-5错误率分别降低了1.7%和1.2%。与一个GPU网络相比,双GPU网络的训练时间稍微缩短。

3.3 局部响应归一化

ReLU具有不需要输入归一化就能防止饱和的优点。只要有一些训练样本为ReLU产生了正的输入,那么这个神经元就会学习。然而,我们还是发现以下的局部响应归一化方法有助于泛化。假设表示第个内核计算位置的ReLU非线性单元的输出,而响应归一化(Local Response Normalization)的输出值定义为
其中,求和部分公式中的表示同一个位置下与该位置相邻的内核映射的数量,而表示这一层所有的内核数(即通道数)。内核映射的顺序当然是任意的,并且在训练之前就已经定好了。在神经生物学中,有一个概念叫做侧抑制(lateral inhibitio ),指的是被激活的神经元会抑制它周围的神经元,这种响应归一化通过对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,模仿真实神经元的侧向抑制,从而增强了模型的泛化能力。常数 都是超参数(hyper-parameters),它们的值都由验证集决定。我们取 。我们在某些层应用ReLU后再使用这种归一化方法(参见第3.5节)。
这个方案与Jarrett等人[11]的局部对比归一化方案有些相似之处,但我们的被更准确地称为“亮度归一化”,因为我们没有减去均值。 响应归一化将我们的top-1top-5的错误率分别降低了1.4%和1.2%的错误率。我们还验证了这种方案在CIFAR-10数据集上的有效性:没有进行归一化的四层CNN实现了13%的测试错误率,而进行了归一化的则为11%。
详解
通过实验确实证明它可以提高模型的泛化能力,但是提升的很少,以至于后面不再使用,甚至有人觉得它是一个“伪命题”,因而它饱受争议。
  • 灵感来源
    •  
      图中的abcd是[batch,width,height,channel]
      图中的abcd是[batch,width,height,channel]
      notion image

3.4 重叠池化

在AlexNet中实用的池化层却是可重叠的,也就是说在池化的时候每次移动的步长小于池化的窗口长度。AlexNet池化的大小是3x3的正方形,每次池化移动步长为2,这样就会出现重叠。重叠池化与非重叠方案相比输出的维度是相等的,并且能在一定程度上抑制过拟合。这个方案分别降低了top-1 0.4%top-5 0.3%的错误率。

3.5 整体架构

现在我们准备描述我们CNN的整体架构。如图2所示,我们的网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布。我们的网络最大化多项逻辑回归的目标,这相当于在预测的分布下最大化训练样本中正确标签对数概率的平均值。
第2,4,5卷积层的核只与位于同一GPU上的前一层的核映射相连接(看图2)。第3卷积层的核与第2层的所有核映射相连。全连接层的神经元与前一层的所有神经元相连。第1,2卷积层之后是响应归一化层。3.4节描述的这种最大池化层在响应归一化层和第5卷积层之后。ReLU非线性应用在每个卷积层和全连接层的输出上。
第1卷积层使用96个核对224 × 224 × 3的输入图像进行滤波,核大小为11 × 11 × 3,步长是4个像素(核映射中相邻神经元感受野中心之间的距离)。第2卷积层使用第1卷积层的输出(响应归一化和池化)作为输入,并使用256个核进行滤波,核大小为5 × 5 × 48。第3,4,5卷积层互相连接,中间没有接入池化层或归一化层。第3卷积层有384个核,核大小为3 × 3 × 256,与第2卷积层的输出(归一化的,池化的)相连。第4卷积层有384个核,核大小为3 × 3 × 192,第5卷积层有256个核,核大小为3 × 3 × 192。每个全连接层有4096个神经元。
图 2:我们CNN架构图解,明确描述了两个GPU之间的责任。在图的顶部,一个GPU运行在部分层上,而在图的底部,另一个GPU运行在部分层上。GPU只在特定的层进行通信。网络的输入是150,528维,网络剩下层的神经元数目分别是253,440–186,624–64,896–64,896–43,264–4096–4096–1000(8层)
图 2:我们CNN架构图解,明确描述了两个GPU之间的责任。在图的顶部,一个GPU运行在部分层上,而在图的底部,另一个GPU运行在部分层上。GPU只在特定的层进行通信。网络的输入是150,528维,网络剩下层的神经元数目分别是253,440–186,624–64,896–64,896–43,264–4096–4096–1000(8层)

4 减少过拟合

我们的神经网络架构有6000万参数。尽管ILSVRC的1000类使每个训练样本从图像到标签的映射上强加了10比特的约束,但这不足以学习这么多的参数,很容易出现过拟合。下面,我们会描述防止过拟合的两种主要方式。

4.1 数据增强

图像数据上的用来减少过拟合的常用方法是使用标签保留变换(例如[25, 4, 5])来人工增大数据集。我们使用了两种独特的数据增强方式,这两种方式都可以从原始图像通过非常少的计算量得到变换后的图像,因此变换后的图像不需要存储在硬盘上。在我们的实现中,变换图像通过CPU的Python代码生成,而此时GPU正在训练前一批图像。因此,实际上这些数据增强方案是计算免费的。
第一种数据增强方式包括产生图像平移和水平翻转。我们从256×256图像上通过随机提取224 × 224的图像块,然后在这些提取的图像块上进行训练。这样可以将我们的训练集的大小增加2048倍(尽管通过变换得到的训练样本与原始训练样本之间相关性很高)。如果没有这种方案,我们的网络将发生严重的过拟合,这将迫使我们使用规模更小的网络。在测试时,网络会提取5个224 × 224的图像块(四个角上的图像块和中心的图像块)和它们的水平翻转(因此总共10个图像块)进行预测,并对网络的softmax层在这十个块上的预测结果丘均值来进行预测
二种数据增强方式包括改变训练图像的RGB通道的强度。具体地,我们在整个ImageNet训练集上对RGB像素值集合执行PCA。对于每幅训练图像,我们添加找到的主成分的倍数,其大小与相应特征值乘以一个随机变量,随机变量通过均值为0,标准差为0.1的高斯分布得到。因此对于每幅RGB图像像,我们加上下面的数量:
分别是RGB像素值3 × 3协方差矩阵的第个特征向量和特征值,是前面提到的随机变量。对于某个训练图像的所有像素,每个只获取一次,直到图像进行下一次训练时才重新获取。这个方案近似抓住了自然图像的一个重要特性,即光照的颜色和强度发生变化时,目标身份是不变的。这个方案减少了top 1错误率1%以上

4.2 失活(Dropout)

将许多不同模型的预测结合起来是降低测试误差[1, 3]的一个非常成功的方法,但对于需要花费几天来训练的大型神经网络来说,这似乎太昂贵了。然而,有一种非常高效的模型组合版本,仅在训练过程中增加了大约两倍的计算成本。这种最近引入的技术,叫做“dropout”[10],它会以0.5的概率对每个隐层神经元的输出设为0。那些“失活的”的神经元不再进行前向传播并且不参与反向传播。因此每次输入时,神经网络会采样一个不同的架构,但所有架构共享权重。这个技术减少了复杂的神经元互适应,因为一个神经元不能依赖特定的其它神经元的存在。因此,神经元被强迫学习更鲁棒的特征,它在与许多不同的其它神经元的随机子集结合时是有用的。在测试时,我们使用所有的神经元,但将它们的输出乘以0.5,对指数级的多个dropout网络的预测分布进行几何平均,这是一种合理的近似。
我们在图2的前两个全连接层中使用了dropout。如果没有dropout,我们的网络将出现显著的过拟合。dropout大致使收敛所需的迭代次数增加一倍左右。

5 学习细节

我们使用随机梯度下降来训练我们的模型,样本的batch size为128,动量为0.9,权重衰减为0.0005。我们发现微弱的权重衰减对于模型的学习很重要。换句话说,权重衰减不仅仅是一个正则项:它减少了模型的训练误差。权重的更新规则是
是迭代索引,是动量变量,是学习率,是在第批batch 上,目标函数对导数的平均值。
我们使用均值为0,标准差为0.01的高斯分布对每一层的权重进行初始化。我们在第2,4,5卷积层和全连接隐层将神经元偏置初始化为常量1。这个初始化通过为ReLU提供正输入加速了学习的早期阶段。我们在剩下的层将神经元偏置初始化为0。
我们对所有的层使用相等的学习率,并在整个训练过程中进行手动调整。当验证误差在当前的学习率下停止改善时,我们遵循启发式的方法将学习率除以10。学习率初始化为0.01,在训练停止之前降低了三次。我们在120万图像的训练数据集上训练神经网络进行了大约90次迭代,在两个NVIDIA GTX 580 3GB GPU上训练了五到六天。

6 结果

我们在ILSVRC-2010上的结果如表1所示。我们的神经网络取得了top-1 37.5%top-5 17.0%的错误率。在ILSVRC-2010竞赛中最佳结果是top-1 47.1%top-5 28.2%,使用的方法是对6个在不同特征上训练的稀疏编码模型的预测结果计算平均值,从那时起已公布的最好结果是top-1 45.7%top-5 25.7%使用的方法是平均在Fisher向量(FV)上训练的两个分类器的预测结果,Fisher向量是通过两种密集采样特征计算得到的[24]。
表1:ILSVRC-2010测试集上的结果比较。斜体字显示了其他人取得的最佳结果
表1:ILSVRC-2010测试集上的结果比较。斜体字显示了其他人取得的最佳结果
我们也用我们的模型参加了ILSVRC-2012竞赛并在表2中报告了我们的结果。由于ILSVRC-2012的测试集标签没有公开,我们无法报告我们尝试的所有模型的测试集错误率。在本段剩余部分,我们会展示验证集误差率和测试集误差率两个指标,因为根据我们的经验它们的差别不会超过0.1%(看图2)。本文中描述的CNN取得了top-5 18.2%的错误率。将五个相似的卷积神经网络的预测结果进行平均,可使误差率降至top-5 16.4%。为了对ImageNet 2011秋季发布的整个数据集(1500万图像,22000个类别)进行分类,我们在最后的池化层之后有一个额外的第6卷积层,训练了一个CNN,然后在它上面进行“fine-tuning”,在ILSVRC-2012取得了16.6%的错误率。对在ImageNet 2011秋季发布的整个数据集上预训练的两个CNN和前面提到的五个CNN的预测进行平均得到了15.3%的错误率。第二名的最好竞赛输入取得了26.2%的错误率,他的方法是对FV上训练的一些分类器的预测结果进行平均,FV在不同类型密集采样特征计算得到的。
表2:ILSVRC-2012验证集和测试集的误差率比较。斜体字显示了其他人取得的最佳结果。带有星号*的模型是“预训练”以对ImageNet 2011年秋季发布进行分类的。详细信息请参见第6节。
表2:ILSVRC-2012验证集和测试集的误差率比较。斜体字显示了其他人取得的最佳结果。带有星号*的模型是“预训练”以对ImageNet 2011年秋季发布进行分类的。详细信息请参见第6节。
最后,我们也报告了我们在ImageNet 2009秋季数据集上的误差率,ImageNet 2009秋季数据集有10,184个类,890万图像。在这个数据集上我们按照惯例用一半的图像来训练,一半的图像来测试。由于没有确定的测试集,我们的数据集分割有可能不同于以前作者的数据集分割,但这对结果没有明显的影响。我们在这个数据集上的的top-1和top-5错误率是67.4%和40.9%,使用的是上面描述的在最后的池化层之后有一个额外的第6卷积层网络。这个数据集上公开可获得的最好结果是78.1%和60.9%[19]。

6.1 定性评估

图3显示了网络的两个与数据连接的卷积核。网络已经学到了各种频率和方向选择性的核,以及各种彩色斑点。可以注意到两个GPU所展示的不同特性,这是3.5节中描述的有限连接性的结果。GPU 1上的核主要是与颜色无关的,而GPU 2上的核主要是与颜色相关的。这种特性在每次运行时都会发生,并且独立于任何特定的随机权重初始化(除了重新编号GPU)。
图3:第一卷积层在224×224×3的输入图像上学习到的大小为11×11×3的96个卷积核。上面的48个核是在GPU 1上学习到的而下面的48个卷积核是在GPU 2上学习到的。更多细节请看6.1小节。
图3:第一卷积层在224×224×3的输入图像上学习到的大小为11×11×3的96个卷积核。上面的48个核是在GPU 1上学习到的而下面的48个卷积核是在GPU 2上学习到的。更多细节请看6.1小节。
图4:(左)8张ILSVRC-2010测试图像和我们的模型认为最有可能的5个标签。正确的标签写在每个图像下方,并且红色条形图显示了分配给正确标签的概率(如果正确标签在top 5中)。(右)第一列是5张ILSVRC-2010测试图像。剩下的列展示了6张训练图像,这些图像在最后的隐藏层的特征向量与测试图像的特征向量有最小的欧氏距离。
图4:(左)8张ILSVRC-2010测试图像和我们的模型认为最有可能的5个标签。正确的标签写在每个图像下方,并且红色条形图显示了分配给正确标签的概率(如果正确标签在top 5中)。(右)第一列是5张ILSVRC-2010测试图像。剩下的列展示了6张训练图像,这些图像在最后的隐藏层的特征向量与测试图像的特征向量有最小的欧氏距离。
在图4的左边,我们通过计算8张测试图像的top-5预测来定性评估网络的训练结果。请注意,即使是偏离中心的物体,如左上角的螨虫,也可以被网络识别出来。大多数top-5的标签都显得比较合理。例如,其它类型的猫被误认为是美洲豹;在某些情况下(栅栏、樱桃的图片) ,照片的关注点存在模糊性, 不知道到底该关注哪个。
探索网络可视化知识的另一种方式是思考最后的4096维隐藏层在图像上得到的特征激活。如果两幅图像生成的特征激活向量之间有较小的欧式距离,我们可以认为神经网络的更高层特征认为它们是相似的。图4表明根据这个度量标准,测试集的5张图像和训练集的6张图像中的每一张都是最相似的。注意在像素级别,检索到的训练图像与第一列的查询图像在L2上通常是不接近的。例如,检索的狗和大象似乎有很多姿态。我们在补充材料中对更多的测试图像呈现了这种结果。
通过两个4096维实值向量间的欧氏距离来计算相似性是效率低下的,但通过训练一个自动编码器将这些向量压缩为短二值编码可以使其变得高效。这应该会产生一种比将自动编码器应用到原始像素上[14]更好的图像检索方法,自动编码器应用到原始像素上的方法没有使用图像标签,因此会趋向于检索与要检索的图像具有相似边缘模式的图像,无论它们是否是语义上相似。

7 讨论

我们的结果表明,一个大型、深度的卷积神经网络能够通过纯粹的监督学习在一个非常具有挑战性的数据集上取得突破性的成果值得注意的是,如果删除任意一个卷积层,我们的网络性能会下降。例如,删除任何一个中间层会导致网络的top-1性能损失约2%。因此,深度对于我们的结果的取得确实非常重要。
为了简化我们的实验,我们没有使用任何无监督的预训练,(我们能获得足够的计算能力来显著增加网络的大小而标注的数据量没有对应增加的情况下,如果我们使用无监督预训练可能会有所帮助)。到目前为止,随着我们不断扩大网络并延长训练时间,我们的结果有所改进,但我们仍然有很大的改进空间到;但计算机视觉与人类视觉仍然有很大的差距。最后我们想在视频上使用非常大的深度卷积网络,因为视频的时序结构会提供非常有帮助的信息,这些信息是静态图像无法提供的。

References

[1] R.M.BellandY.Koren.Lessonsfromthenetflixprizechallenge.ACMSIGKDDExplorationsNewsletter, 9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cires ̧an, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cires ̧an, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J.SánchezandF.Perronnin.High-dimensionalsignaturecompressionforlarge-scaleimageclassification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26]S.C.Turaga,J.F.Murray,V.Jain,F.Roth,M.Helmstaedter,K.Briggman,W.Denk,andH.S.Seung.Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538, 2010.
  • 图像
  • 残差网络ResNet论文翻译旋转编码(RoPE)
    Loading...
    目录