DeepMind：为什么AI这么擅长语言？这是语言本身的东西

像 OpenAI 的 GPT-3 神经网络这样的程序如何能够回答多项选择题，或者以特定的风格写一首诗，尽管从未针对这些特定任务进行过编程？

根据谷歌人工智能部门 DeepMind 的最新研究，这可能是因为人类语言具有导致神经网络预测意外的统计特性。

从统计学的角度来看，自然语言具有“不统一”的特性，例如可以代表多种事物的词，称为“多义词”，例如“银行”一词，意思是一个地方你把钱或一个上升的土堆。听起来相同的词可以代表不同的事物，称为同音异义词，例如“这里”和“听到”。

这些语言品质是本月在 arXiv 上发表的一篇论文的重点，“数据分布属性驱动变形金刚中的紧急小样本学习”，作者是 DeepMind 科学家 Stephanie C.Y. Chan、Adam Santoro、Andrew K. Lampinen、Jane X. Wang、Aaditya Singh、Pierre H. Richemond、Jay McClelland 和 Felix Hill。

作者首先询问诸如 GPT-3 之类的程序如何解决向他们提出未明确训练的各种查询的任务，即所谓的“小样本学习”。

例如，GPT-3 可以回答多项选择题，而无需明确编程来回答这种形式的问题，只需在人类用户输入多项选择题和答案对的示例的提示下即可。

“大型基于 transformer 的语言模型能够执行少量学习（也称为上下文学习），而无需对其进行明确的训练，”他们写道，指的是来自谷歌的广受欢迎的“Transformer”神经网络是 GPT-3 和谷歌 BERT 语言程序的基础。

正如他们解释的那样，“我们假设自然语言的特定分布特性可能会驱动这种新兴现象。”

作者推测这种大型语言模型程序的行为类似于另一种机器学习程序，称为元学习。 DeepMind 近年来探索的元学习程序通过能够对跨越不同数据集的数据模式进行建模来发挥作用。正如团队成员亚当·桑托罗 (Adam Santoro) 在之前的研究中所解释的那样，此类程序经过训练后不仅可以模拟单个数据分布，还可以模拟数据集的分布。

另外：OpenAI 的巨大 GPT-3 暗示了人工智能语言模型的局限性

这里的关键是不同数据集的想法。他们推测，语言的所有不统一性，例如语言的多义性和“长尾”，语音中包含使用频率相对较低的词这一事实——这些语言的每一个奇怪事实都类似于单独的数据分布。

事实上，他们写道，语言就像是介于具有规则模式的受监督训练数据和具有大量不同数据的元学习之间的东西：

与监督训练一样，项目（单词）确实会重复出现，并且项目标签映射（例如单词含义）在某种程度上是固定的。同时，长尾分布确保存在许多罕见词，这些词在上下文窗口中很少出现，但在上下文窗口中可能是突发的（多次出现）。我们还可以将同义词、同音异义词和多义词视为完全不固定的项目标签映射的较弱版本，这些映射用于少样本元训练，其中映射在每一集都会发生变化。

为了检验这个假设，令人惊讶的是，Chan 和他的同事实际上并没有处理语言任务。相反，他们训练了一个 Transformer 神经网络来解决名为 Omniglot 的视觉任务，该任务由纽约大学、卡内基梅隆大学和麻省理工学院的学者于 2016 年推出。 Omniglot 挑战一个程序，将正确的分类标签分配给 1,623 个手写字符字形。

就 Chan 等人的工作而言，他们通过随机打乱字形的标签，将标记的 Omniglot 挑战变成一次性任务，以便神经网络在每个“情节”中学习：

不像在训练中，标签在所有序列中都是固定的，这两个图像类的标签是为每个序列随机重新分配的[…]因为标签是为每个序列随机重新分配的，模型必须使用上下文当前序列，以便对查询图像进行标签预测（2 向分类问题）。除非另有说明，否则小样本学习总是在训练中从未见过的保留图像类上进行评估。

通过这种方式，作者正在操纵视觉数据，即字形，以捕捉语言的不统一特性。 “在训练时，我们将 Omniglot 图像和标签置于具有各种受语言启发的分布属性的序列中，”他们写道。例如，他们逐渐增加可以分配给给定字形的类别标签的数量，以接近多义词的质量。

“在评估时，我们会评估这些特性是否会产生小样本学习能力。”

他们发现，当他们将给定字形的标签数量相乘时，神经网络在执行少样本学习方面变得更好。 “我们看到，增加这种‘多义因子’（分配给每个词的标签数量）也会增加小样本学习，”正如 Chan 和同事所说。

“换句话说，使泛化问题变得更难实际上使少样本学习的出现更加强烈。”

与此同时，他们总结道，造成少镜头性能的不仅仅是数据分布。 Chan 和同事发现，Transformer 神经网络的特定结构有助于它实现少样本学习。他们写道，他们测试了“普通的递归神经网络”，并发现这样的网络永远无法实现几次射击的能力。

“与循环模型相比，变形金刚对小样本学习表现出更大的偏见。”

作者得出结论，数据的质量（例如语言的长尾）和神经网络的性质（例如 Transformer 结构）都很重要。这不是一个或另一个，而是两者。

作者列举了未来探索的许多途径。一个是与人类认知的联系，因为婴儿表现出似乎是少数学习。

例如，婴儿可以快速学习语言的统计特性。这些分布特征是否可以帮助婴儿获得快速学习的能力，或者为以后的学习提供有用的预训练？其他经验领域（例如视觉）中类似的非均匀分布是否也能在这种发展中发挥作用？

很明显，当前的工作根本不是语言测试。相反，它旨在通过重新创建视觉数据（Omniglot 图像）中的不均匀性来模拟语言的假定统计特性。

作者没有解释从一种模式到另一种模式的转换是否对他们工作的意义有任何影响。相反，他们写道，他们希望将他们的工作扩展到语言的更多方面。

“上述结果表明了未来研究的令人兴奋的方向，”他们写道，包括，“这些数据分布特性如何与强化学习与监督损失相互作用？在复制语言和语言建模的其他方面的实验中，结果可能有何不同，例如使用符号输入，训练下一个标记或掩码标记预测，并根据上下文确定单词的含义？”

DeepMind：为什么AI这么擅长语言？这是语言本身的东西

相关文章

左子网

相关文章

微信

左子网

QQ交流群