EBET易博官网预训练模型（Pre-Trained Models）的过去现在和未来

新闻资讯 | 2023-10-06 12:53

　　深度神经网络，如卷积神经网络（CNNs），递归神经网络（RNNs），图形神经网络（GNNs）和注意神经网络（ANNs），广泛应用于各种AI任务。神经模型相对于以前非神经模型不同，不需要人工标注和统计，可以自动学习低纬的连续向量来作为特点任务的特征，从而摆脱复杂的特征工程。虽然神经网络取得成功，但是Xu等人发现[1]，由于深度神经网络通常具有大量参数，在没有足够训练数据的情况下（数据饥渴），它们容易过度拟合，泛化能力差。

　　2009年Pan和Yang引入了迁移学习[2]：可以学习用很少的样本来解决新问题，而不是用大量数据从头开始训练模型。人类就是这样，可以利用以前学到的知识来处理新问题。这样，迁移学习为数据饥渴提供了可行的方案。很快就被广泛应用于计算机视觉领域。2012到2016年间，一系列的CNN模型在ImageNet进行预训练，对于不同的下游任务进行微调（fine-tuning）有着非常不错的效果。这便引发了深度学习时代探索预训练模型的第一波浪潮。在这一波浪潮中，预训练模型（PTMs）几乎用于所有CV任务，EBET易博真人平台如如图像分类、目标检测、图像分割和图像字幕。

　　当然NLP领域也意识到PTMs的潜力，并开始为NLP任务开发PTMs[3]，为了充分利用大规模未标记语料库为NLP任务提供多方面的语言知识，采用自我监督学习来开发PTMs。自我监督学习是利用文本中的内在相关性作为监督信号，而不是人类的监督。看下面例子：

　　通过自我监督学习，可以利用大量未标记的文本数据来获取通用的语言知识，而无需耗费大量人力.

　　梯度消失或爆炸的问题是使用深度神经网络进行NLP任务的难点，早期探索侧重于预训练浅层网络，以捕获单词的语义如Word2Vec和GloVe。这些预先训练好的词向量嵌入在各种NLP任务中发挥着重要作用，但由于每个单词仅由一个向量表示，因此它们在不同上下文中表示多义词仍然面临着很大的限制。比如“苹果好吃”和“苹果手机”，”苹果“一词的意思完全不一样，但是词向量却一样。

　　直到Transformer的引入[4]，使得为NLP任务训练非常深度的神经模型成为可能。2018年，以Transformer为架构针对NLP任务提出了深度PTMs，GPT和BERT。从GPT和BERT可以发现，当PTMs的规模变大时，具有数亿个参数的大规模PTMs可以从文本中捕获多义消歧、词汇和句法结构以及事实知识。通过对大量样本的大规模PTMs进行微调，丰富的PTMs语言知识为下游NLP任务带来了出色的性能。

　　到目前为止，无论是NLP还是CV。为特定AI任务微调大规模PTMs，而不是从头开始学习模型也已成为共识[3]。如下图所示，随着分布式计算设备和策略的广泛使用，计算能力不断增强，PTMs的参数规模可以从百万级提升到十亿级。

　　预训练模型成为了AI邻域的一个里程碑。由于复杂的预训练任务和巨大的模型参数，大规模PTMs可以有效地从大量标记和未标记的数据中获取知识。AI邻域的共识是采用PTMs作为下游任务的主干，而不是从头开始学习模型。现有的大规模PTMs改善了各种AI任务的模型性能，甚至颠覆了我们目前对深度学习模型性能的看法。

　　迁移学习的研究主要是因为人们可以依靠以前学到的知识来解决新问题，甚至取得更好的结果。更正式的说，迁移学习旨在从多个源任务中获取重要知识，然后将这些知识应用到目标任务中。

　　在迁移学习中，源任务和目标任务可能具有完全不同的数据域和任务设置，但处理这些任务所需的知识是一致的[2]。选择一种可行的方法将知识从源任务转移到目标任务是非常重要的。为此，人们提出了各种预训练方法，作为源任务和目标任务之间的桥梁。具体来说，这些方法首先对多个源任务的数据预训练模型，对知识进行预编码，然后用这些先验知识培训目标任务的模型。

　　特征迁移：先训练出有效的特征表示，向目标任务中注入这些预先训练的特征表示。

　　自AlexNet以来，针对人工智能任务开发了一系列深度神经网络与传统的机器学习模型相比，深度神经网络模型具有更高的性能参数越多，拟合复杂数据的能力就越强。因此，AlexNet到后来的VGG和GoogleNet，这些神经网络的架构越来越深，其性能也相应地越来越好。尽管网络深度很重要，但训练深层网络并不容易，因为叠加更多网络层不可避免地会带来梯度消失或梯度爆炸的问题。除了梯度问题外，模型性能可能很快达到上限，然后随着网络深度的不断增加而迅速下降。ResNet[5]通过将标准化添加到参数初始化和隐藏层，引入与剩余层的快连接有效的解决了这一类问题。利用诸如ResNet50（具有50层的PTMs）等PTMs，是在大多数CV任务中获得高度准确结果的关键一步。受PTMs在CV任务中的成功启发，一些NLP研究人员也探索了有监督的预训练，最具代表性的工作是CoVE[6]。CoVE采用机器翻译作为其预训练目标，训练之后，源语言的编码器可以作为下游NLP任务的强大主干。

　　上图可以看出，迁移学习可分为：归纳迁移学习，直推迁移学习，自学习和以及无监督迁移学习。

　　在这四类种中，归纳和直推是研究的核心，因为这两种旨在将知识从监督源任务转移到目标任务。尽管监督学习一直是机器学习研究的核心问题之一，但是无监督数据比监督数据大得多啊。而且注释文本数据远比注释图像更复杂。因此，应用自监督学习来利用未标记的数据成为预训练NLP任务模型是最佳选择。

　　NLP早期PTMs就是词嵌入，它应用自监督方法将单词转换为分布式表示，这些预先训练的单词表示捕获了文本中的语法和语义信息，但是存在一词多义的困扰。

　　Transformer提出之后，NLP任务的PTMs进入了一个新阶段，因为与传统CNN和RNN相比，可以训练更深层的语言模型。

　　由于其突出的性质，Transformer逐渐成为自然语言理解和生成的标准结构。后来，它作为主干神经结构诞生的里程碑的预训练模型，BERT和GPT。GPT擅长自然语言生成，而BERT则更注重自然语言理解。

　　PTMs通常由两个阶段组成，即预训练阶段和微调阶段。GPT以Transformer 解码器为主干，几乎所有NLP任务上都取得了显著的成功，包括自然语言推理、问答、常识推理、语义相似性和分类。

　　对于没有标签的大规模语料库，GPT优化了标准的自回归语言建模，即通过将所有单词的前一个单词作为上下文，最大化所有单词的条件概率。在GPT的预训练阶段，每个单词的条件概率由Transformer建模。L(X)=\sum_{i+1}^{n+1}\log P(x_is_{i-k},...,x_{i-1};\Theta)

　　BERT的出现也极大地促进了PTMs领域的发展。与GPT相比，BERT使用双向深度Transformer 作为主要结构（多层Transformer的一个叠加）。还有两个单独的阶段使BERT适应特定任务，即预训练和微调.

　　在预训练阶段，BERT应用了自动编码语言建模，而不是GPT中使用的自回归语言建模。更具体地说，受完形填空的启发，设计了masked language modeling（MLM）。在MLM过程中，token随机掩蔽了一个特殊的tokenMASK]，目标是通过上下文预测隐藏位置的单词。

　　除MLM外，next sentence prediction（NSP）也被用于捕捉自然语言推理和问答等具有多个句子的下游任务的句子之间的语篇关系。但是后面研究发现，这个训练任务效果并不突出，在后面的模型优化中，都去掉了NSP任务。

　　在GPT之后，BERT在17项不同的NLP任务上取得了进一步的显著改进，包括SQuAD 、GLUE、MNLI等。

　　在GPT和BERT之后，一些基于它们改进的模型相继被提出，如RoBERTa和ALBERT。

　　Transformers已被证明是一种有效的预训练体系结构，然而，Transformers的主要限制是其计算复杂性。受GPU内存的限制，大多数当前的PTMs无法处理包含超过512个token序列。因此，寻找更有效的模型结构捕获更大范围的上下文信息。

　　Transformer编码器适用于自然语言理解任务而Transformer解码器适用于自然语言生成任务。因此，我们可能需要根据下游任务的类型仔细设计特定于任务的体系结构。

　　通用PTMs始终是我们学习语言固有的普遍知识（甚至世界知识）的追求，然而，此类PTMs通常需要更深入的体系结构、更大的语料库和具有挑战性的预训练任务。

　　微调是将PTMs知识转移到下游任务的主要方法，但一个缺陷是其参数效率低下：每个下游任务都有自己的微调参数。改进的解决方案是固定PTMs的原始参数，并为特定任务添加小的可微调自适应模块。因此，我们可以使用一个共享的PTMs来服务多个下游任务。随着GPT-3的出现，一种新的模型调整类型Prompt tuning出现！