DeepMind:为什么AI这么擅长语言? 这是语言本身的东西

2026-02-07 0 307

DeepMind:为什么AI这么擅长语言? 这是语言本身的东西

像 OpenAI 的 GPT-3 神经网络这样的程序如何能够回答多项选择题,或者以特定的风格写一首诗,尽管从未针对这些特定任务进行过编程?

根据谷歌人工智能部门 DeepMind 的最新研究,这可能是因为人类语言具有导致神经网络预测意外的统计特性

从统计学的角度来看,自然语言具有“不统一”的特性,例如可以代表多种事物的词,称为“多义词”,例如“银行”一词,意思是一个地方 你把钱或一个上升的土堆。 听起来相同的词可以代表不同的事物,称为同音异义词,例如“这里”和“听到”。

这些语言品质是本月在 arXiv 上发表的一篇论文的重点,“数据分布属性驱动变形金刚中的紧急小样本学习”,作者是 DeepMind 科学家 Stephanie C.Y. Chan、Adam Santoro、Andrew K. Lampinen、Jane X. Wang、Aaditya Singh、Pierre H. Richemond、Jay McClelland 和 Felix Hill。

作者首先询问诸如 GPT-3 之类的程序如何解决向他们提出未明确训练的各种查询的任务,即所谓的“小样本学习”。

例如,GPT-3 可以回答多项选择题,而无需明确编程来回答这种形式的问题,只需在人类用户输入多项选择题和答案对的示例的提示下即可。

“大型基于 transformer 的语言模型能够执行少量学习(也称为上下文学习),而无需对其进行明确的训练,”他们写道,指的是来自谷歌的广受欢迎的“Transformer”神经网络 是 GPT-3 和谷歌 BERT 语言程序的基础。

正如他们解释的那样,“我们假设自然语言的特定分布特性可能会驱动这种新兴现象。”

作者推测这种大型语言模型程序的行为类似于另一种机器学习程序,称为元学习。 DeepMind 近年来探索的元学习程序通过能够对跨越不同数据集的数据模式进行建模来发挥作用。 正如团队成员亚当·桑托罗 (Adam Santoro) 在之前的研究中所解释的那样,此类程序经过训练后不仅可以模拟单个数据分布,还可以模拟数据集的分布。

另外:OpenAI 的巨大 GPT-3 暗示了人工智能语言模型的局限性

这里的关键是不同数据集的想法。 他们推测,语言的所有不统一性,例如语言的多义性和“长尾”,语音中包含使用频率相对较低的词这一事实——这些语言的每一个奇怪事实都类似于单独的数据分布。

事实上,他们写道,语言就像是介于具有规则模式的受监督训练数据和具有大量不同数据的元学习之间的东西:

与监督训练一样,项目(单词)确实会重复出现,并且项目标签映射(例如单词含义)在某种程度上是固定的。 同时,长尾分布确保存在许多罕见词,这些词在上下文窗口中很少出现,但在上下文窗口中可能是突发的(多次出现)。 我们还可以将同义词、同音异义词和多义词视为完全不固定的项目标签映射的较弱版本,这些映射用于少样本元训练,其中映射在每一集都会发生变化。

为了检验这个假设,令人惊讶的是,Chan 和他的同事实际上并没有处理语言任务。 相反,他们训练了一个 Transformer 神经网络来解决名为 Omniglot 的视觉任务,该任务由纽约大学、卡内基梅隆大学和麻省理工学院的学者于 2016 年推出。 Omniglot 挑战一个程序,将正确的分类标签分配给 1,623 个手写字符字形。

就 Chan 等人的工作而言,他们通过随机打乱字形的标签,将标记的 Omniglot 挑战变成一次性任务,以便神经网络在每个“情节”中学习:

不像在训练中,标签在所有序列中都是固定的,这两个图像类的标签是为每个序列随机重新分配的[…]因为标签是为每个序列随机重新分配的,模型必须使用上下文 当前序列,以便对查询图像进行标签预测(2 向分类问题)。 除非另有说明,否则小样本学习总是在训练中从未见过的保留图像类上进行评估。

通过这种方式,作者正在操纵视觉数据,即字形,以捕捉语言的不统一特性。 “在训练时,我们将 Omniglot 图像和标签置于具有各种受语言启发的分布属性的序列中,”他们写道。 例如,他们逐渐增加可以分配给给定字形的类别标签的数量,以接近多义词的质量。

“在评估时,我们会评估这些特性是否会产生小样本学习能力。”

他们发现,当他们将给定字形的标签数量相乘时,神经网络在执行少样本学习方面变得更好。 “我们看到,增加这种‘多义因子’(分配给每个词的标签数量)也会增加小样本学习,”正如 Chan 和同事所说。

“换句话说,使泛化问题变得更难实际上使少样本学习的出现更加强烈。”

与此同时,他们总结道,造成少镜头性能的不仅仅是数据分布。 Chan 和同事发现,Transformer 神经网络的特定结构有助于它实现少样本学习。 他们写道,他们测试了“普通的递归神经网络”,并发现这样的网络永远无法实现几次射击的能力。

“与循环模型相比,变形金刚对小样本学习表现出更大的偏见。”

作者得出结论,数据的质量(例如语言的长尾)和神经网络的性质(例如 Transformer 结构)都很重要。 这不是一个或另一个,而是两者。

作者列举了未来探索的许多途径。 一个是与人类认知的联系,因为婴儿表现出似乎是少数学习。

例如,婴儿可以快速学习语言的统计特性。 这些分布特征是否可以帮助婴儿获得快速学习的能力,或者为以后的学习提供有用的预训练? 其他经验领域(例如视觉)中类似的非均匀分布是否也能在这种发展中发挥作用?

很明显,当前的工作根本不是语言测试。 相反,它旨在通过重新创建视觉数据(Omniglot 图像)中的不均匀性来模拟语言的假定统计特性。

作者没有解释从一种模式到另一种模式的转换是否对他们工作的意义有任何影响。 相反,他们写道,他们希望将他们的工作扩展到语言的更多方面。

“上述结果表明了未来研究的令人兴奋的方向,”他们写道,包括,“这些数据分布特性如何与强化学习与监督损失相互作用?在复制语言和语言建模的其他方面的实验中,结果可能有何不同,例如 使用符号输入,训练下一个标记或掩码标记预测,并根据上下文确定单词的含义?”

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 开发教程 DeepMind:为什么AI这么擅长语言? 这是语言本身的东西 https://www.zuozi.net/55917.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务