技术编程OpenAI提出Image GPT实现高质量图像补全和样本生成( 二 ) |

迈向通用非监督学习
生成序列模型可以被视为一种通用的非监督学习算法：由于所有的数据类型都可以被标示为字节序列，无需额外的改动， transformer可以被直接应用于任何类型的数据形式上。为了验证这种算法的通用性，研究人员将原先用于自然语言处理的GPT－2的架构直接应用于图像生成任务上，故意放弃了对图像先验知识的手动编码（包括卷积、相关注意力、稀疏注意力、2D位置嵌入等等）。
但随之而来的是，如果要实现具有竞争力的非监督学习性能，就需要更多的计算量来保证。基于对比的方法在从图像生成高质量特征的过程中的确具有更高的计算效率，然而在与最好的无监督算法比较过程中，基于对领域知识的手工编码和计算需求间可以找到有效的平衡。在没有领域知识的全新领域，大规模的计算也许是解决问题值得一试的有效手段。
实现方法
研究人员分别在ImageNet上训练了大中小三个GPT－transformer模型，分别包含了1．4B ， 455M ， 76M的参数。同时还利用ImageNet和网络数据共同训练了包含6．8B参数的iGPT－XL ，由于长序列训练需要消耗非常大的计算资源，所有的训练都在较低的图像分辨率上进行（32x32 ， 48x48 ， 64x64）。
虽然研究人员尝试在更低的分辨率上继续减小计算资源的消耗，但先前研究认为人眼的识别分类能力会随图像尺寸的减小而迅速变弱。在先前显示模型研究的启发下，构建了9－bits的颜色表示模式，可以用较为真实的编码颜色同时代替RGB三个通道。
实验结果
研究人员使用了两种方法来评测模型的分类性能。第一种类似一个线性探测器，利用训练好的模型从图像中抽取特征进行分类，随后用逻辑回归拟合图像的标签。另一种方式是在下游任务数据上对整个模型进行调优。为了抽取特征，在某些层的输入添加了layernorm注意力模块，并在序列维度上使用了平均池化。为了调优模型，研究人员使用了layernorm transformer的输出，并在序列维度上进行平均池化来作为分类部分的输入。
由于针对序列中下一个像素的预测与图像分类并没有明显的关系，最后层的特征对于目标分类并不是最好的。从结果中可以看出一开始特征质量在迅速提升，而后随着深度的增加缓慢减小。这一现象表明transformer生成模型在运行中有两个显著的阶段，在第一阶段每个位置从它周围的上下文中获取信息以构建出有效的的图像特征；而后在第二阶段上下文特征被用于解决下一个像素的条件生成问题。在这种线性探测器下观测到的两阶段现象很容易让人联想到具有约束结构（bottleneck）的自编码器，其中间层就是手动设置用于特征抽取的结构。

本文插图
特征质量与层深度具有明显的相关性，与监督模型不同，生成模型特征质量最高的位置来自于模型网络的中间部分。
随后的实验结果还显示了生成模型性能和特征质量之间的关系，研究发现随着模型规模的训练迭代的增加，生成模型的性能也会逐步增加，并直接反映在更好的特征质量（分类精度）上。

本文插图
图中每条线都代表了不同的生成预训练模型在不同迭代下的结果。正的斜率表明生成模型的特征质量随着训练次数的增加而不断提高，更大的模型也显示出了更好的结果。
当研究人员在CIFAR－10 ，CIFAR－100 ，STL－10数据集上测评模型性能时，可以看到提出的方法超过了所有的监督和非监督迁移算法，同时也超过了完全调优情况下的结果。