技术编程OpenAI提出Image GPT实现高质量图像补全和样本生成( 三 ) |

本文插图
线性探测器和调优方法的精度比较，这些方法使用了监督或非监督的ImageNet迁移。结果中也包含了CIFAR上最好的端到端模型AutoAugment方法。
在不同的设置下，与不同的监督、非监督方法进行了比较。训练的图像分辨率为48x48 ， iGPT－L的特征维度为1536 ，实现了65．2％的top－1精度，已经超越了AlexNet的性能。
典型的特征维度一般都是8192维度，但训练如此庞大特征的iGPT模型非常耗时，所以研究人员将最后基层的特征叠加起来作为8192维的近似。但由于iGPT中的特征在不同层间存在相关性，所有需要更多的维度才能获得更具竞争力的效果。最终的设置使用了来自5层上的15360维的特征，实现了72％的top1精度，超过了AMDIM ，MoCo ，CPC v2等算法，但和最好的SimCLR还有一定的差距。

本文插图
与先进自监督模型的比较，虽然需要更多的计算但是本文提出的模型还是能得到更具竞争力的结果。
由于像BERT这类基于掩膜的语言模型在众多语言任务上超越了生成模型的结果，研究人员同时还利用BERT测评图像模型。研究人员没有调优而是使用了15％的掩膜来去除像素，并从非掩膜的像素中来预测出这些结果。结果表明基于BERT模型的线性探测器具有明显的劣势但却能在调优下实现后来者居上。

本文插图
BERT和iGPT－L预训练模型在32x32分辨率上的比较，可以看到生成模型在预训练阶段得到的特征更好，而BERT模型在调优后则迎头赶上。
虽然非监督学习无需人类标记数据，但近年来自监督学习取得了长足的进步，有效使用了有限的标注数据。成功的半监督学习方法都使用了像连续性正则、数据增强、准标签等手段来实现，纯粹基于生成的方法近年来没有显示出有效的竞争力。 iGPT－L在这一子领域对基准数据进行了评测，结果表明在没有图像增强的情况下性能超过了Mean Teacher和MixMatch ，并接近FixMatch的水平。

本文插图
与精心设计的半监督方法不同， iGPT－L在没有任何数据增强和调优的情况下用于逻辑回归分类器的拟合，实现了非常好的半监督学习结果。
局限性
虽然iGPT在各种图像任务上都很成功，但却不得不提这种方法的局限性。由于使用了GPT－2中的通用序列迁移器架构，这种方法需要大规模的计算资源， iGPT－L典型情况下需要2500 V－100 GPU日的计算才能达到MoGo模型的水平，而后者只需要约70 V100 计算日的训练。
此外，这一基于transformer模型的输入分辨率较低，而其他自监督方法可以利用卷积编码器轻松地处理高维度输入。也许在未来需要构建多尺度transformer的新架构来处理输入维度受限的问题。这一工作仅仅是大规模语言模型在新领域尝试的原型验证，无需领域知识的人工编码。然而庞大的计算量消耗、卷积网络的高精度表现使得这一方法在实际工作中并不实用。
最后，生成模型会受到训练序列中偏见的影响。有的对于构建上下文关系十分有利，但有的却会造成不好的结果。例如在训练数据中男性较多就会造成生成图像中包含更多的或者完全都是男性，而不是有男有女的场景。在未来的研究中希望可以对数据进行更有效的除偏处理，并更好的理解数据偏见与模型的关系。
利用语言模型GPT对图像进行处理的想法非常独特，实验也显示了这种非监督方法的对于全新领域的通用性，在提供足够计算资源的情况下序列transformer也许能在未来为很多新领域提供解决问题新思路。