技术编程OpenAI提出Image GPT实现高质量图像补全和样本生成 |

本文插图
GPT在自然语言处理上取得了有目共睹的成就，包括BERT ， RoBERTa ， T5等众多无监督或自监督学习方法轮番登场拿下了一个又一个语言高地。自然语言处理高歌猛进的同时图像领域不甘心了，也在跃跃欲试想要利用类似的模型学习出可以用于分类任务的有效特征来。
Transformer家族的模型基本上可以直接处理任何形式的1D数据，于是研究人员就想到将2D图像拉伸为长长的1D图像序列，利用与GPT－2模型类似的技术构建了用于处理像素序列的iGPT模型。

本文插图
在详细的实验分析后研究人员发现，模型显现出对于2D图像特征的理解能力，包括有效的个体和类别的理解。模型可以在没有人工指导情况下生成连续的图像样本，实现图像补全，同时可以在多个分类数据集上实现先进的分类性能，并在ImageNet实现了非常接近最优秀无监督方法精度水平。这证明了这类生成序列模型可以作为通用的无监督学习算法。
在使用GPT－2类似的架构时，虽然需要更多的计算来达到基于卷积的非监督学习水平，然而这种方法在面对全新领域时，大型的GPT－2模型无需针对特定领域架构进行设计就可以学习出非常有效的特征和优异的性能。

本文插图
下面让我先来看看iGPT应用于图像补全和样本生成任务下的一些结果，下图中红色框是原始图像，蓝色框中是模型补全的结果。可以看到模型很好的恢复出了另一半缺失的图像，并在不同的生成结果中添加了各种语义特征的对象。

本文插图

本文插图

本文插图

本文插图
模型直接生成的样本也具有明显的个体特征，包含着可以被清晰识别的目标个体，这说明模型的确理解了图像中所包含的空间信息和不同目标的特征。

本文插图
从语言跨界图像的GPT
在语言领域，像GPT－2和BERT等依赖于词预测的非监督学习算法非常成功，在多个语言相关任务上取得了最好的表现。其中一个重要的原因在于下游任务（数据）是以自然的文本方式呈现的：答案往往伴随着问题（问答任务），文章往往伴随着总结（文本摘要任务）。而像素序列针对其所属的图像却没有非常明显的标签。
即使没有这种隐式的监督， GPT－2在图像任务上成功的原因也不难发现：一个足够大的transformer模型，用于训练针对下一个像素的预测，最终能够学会生成丰富的可以清晰辨认的目标样本。
当模型可以有效合成图像时，研究人员开始思考是不是可以通过“基于合成的分析”来尝试利用模型识别目标的分类。先前很多生成模型都受到了这一观点的启发，最近的BigBiGAN就是一个典型的例子，可以产生非常有效的样本和特征。在这一研究中，研究人员首先展示了更好的生成模型可以实现更强的分类表现，随后通过对GPT－2生成能力的优化，在很多情况下实现了最为优异的分类表现，为基于合成的分析思想提供了更多的佐证。