NLP预训练EBET易博官网模型大集合!

  新闻资讯     |      2023-10-06 12:54

  词语和句子嵌入已经成为任何基于深度学习的自然语言处理系统的必备组成部分。它们将词语和句子编码成稠密的定长向量,从而大大地提升神经网络处理文本数据的能力。近日,Separius 在 GitHub 上列举了一系列关于 NLP 预训练模型的近期论文和文章,力求全面地概述 NLP 各个方面的最新研究成果,包括词嵌入、池化方法、编码器、OOV 处理等。

  几乎所有句子嵌入的工作原理都是这样的:给出某种词嵌入和可选编码器(例如 LSTM),句子嵌入获取语境词嵌入(contextualized word embedding)并定义某种池化(比如简单的 last pooling),然后基于此选择直接使用池化方法执行监督分类任务(如 infersent),或者生成目标序列(如 skip-thought)。这样通常我们就有了很EBET易博官网多你从未听说过的句子嵌入,你可以对任意词嵌入做平均池化,这就是句子嵌入!

  此外,Separius 还介绍了一些相关的文章和未发布代码或预训练模型的论文。