复发性神经网络(RNN)。
我仍然记得我何时训练了我的第一个经常性网络进行图像字幕。在几十分钟的训练中,我的第一个婴儿模型(具有任意选择的超参数)开始产生非常漂亮的描述,这些描述是有意义的图像。有时,您的模型与结果的质量的比例与您从期望之外的期望之外所获得的质量的比例,这是其中之一。当时这一结果如此令人震惊的是,共同的智慧是RNN应该很难训练(实际上我有了更多的经验,我就达到了相反的结论)。快进了大约一年:我一直在培训RNNS,并且我已经见证了他们的力量和鲁棒性,但是他们的神奇成果仍然找到了让我感到有趣的方法。
我们将训练RNN通过字符生成文本,并思考“这是怎么可能?”的问题。
无论如何,什么是RNN?
复发性神经网络序列。根据您的背景,您可能会想知道:是什么使经常性网络如此特别?香草神经网络(以及卷积网络)的明显限制是,它们的API过于限制:他们接受固定尺寸的向量作为输入(例如图像)并产生固定尺寸的向量作为输出(例如,不同类别的概率)。不仅如此:这些模型使用固定数量的计算步骤执行此映射(例如模型中的层数)。复发网络更令人兴奋的核心原因是,它们使我们能够通过向量序列进行操作:输入,输出或最通用情况下的序列。一些例子可能会使这一更具体:
每个矩形是一个向量,箭头代表函数(例如矩阵乘法)。输入向量为红色,输出向量为蓝色,绿色向量保持RNN的状态(很快会详细介绍)。从左到右:(1)无RNN处理模式,从固定尺寸输入到固定尺寸的输出(例如图像分类)。 (2)序列输出(例如,图像字幕拍摄图像并输出单词的句子)。 (3)序列输入(例如情感分析,其中给定句子被归类为表达正情绪或负面情绪)。 (4)序列输入和序列输出(例如机器翻译:rnn用英语读取句子,然后用法语输出句子)。 (5)同步序列输入和输出(例如,我们希望标记视频的每个帧的视频分类)。请注意,在每种情况下,都不是对长度序列的预先指定的约束,因为固定了复发转换(绿色),并且可以按照我们的意愿进行多次应用。
忘了我在这里说什么
如您所料,与固定数量的计算步骤注定要从一开始的固定网络相比,操作序列的功能要强大得多,因此对于那些渴望建立更智能系统的人来说,这也更具吸引力。此外,正如我们将一点点看到的那样,RNN将输入向量与其状态向量与固定(但学习的)功能相结合,以产生新的状态向量。在编程术语中,这可以解释为运行具有某些输入和某些内部变量的固定程序。以这种方式查看,RNN基本上描述了程序。实际上,众所周知,RNN在模拟任意程序(适当的权重)的意义上是在Turing-Complete。但是类似于神经网的通用近似定理,您不应该对此读太多。实际上,忘记我说了什么。
如果训练香草神经网比功能优化,则训练复发网是对程序的优化。
在没有序列的情况下进行顺序处理。您可能会认为,将序列作为输入或输出可能相对罕见,但是要意识到的重要一点是,即使您的输入/输出是固定的矢量,仍然可以使用这种强大的形式主义以顺序处理它们。例如,下图显示了来自DeepMind的两篇非常好的论文的结果。在左侧,算法学习了一个经常性网络策略,该政策引导其注意力围绕图像引起人们的注意。特别是,它学会了从左到右读取房屋数字(Ba等人)。在右边,一个经常性网络通过学习将颜色顺序添加到画布上来生成数字图像(Gregor等人):
字符级的语言模型还可以,因此我们对RNN是什么,为什么它们超级令人兴奋以及它们的工作方式有所了解。现在,我们将在一个有趣的应用程序中进行基础:我们将培训RNN角色级语言模型。也就是说,我们将为RNN提供一大堆文本,并要求它对下一个字符的下一个字符的概率分布进行建模给定以前字符的顺序。然后,这将使我们一次生成新的文本一个字符。
作为一个工作的例子,假设我们只有四个可能的字母“ Helo”的词汇量,并且想在训练序列“ Hello”上训练RNN。实际上,该训练顺序是4个单独的训练示例的来源:1。“ e”的可能性应具有“ h”的背景,2。“ l”应该在“ he”,3。“ l”的背景下,也应该给予“ hel”的上下文,最后是4个。“ o”。
跨熵损失函数
一个更具技术性的解释是,我们同时在每个输出向量上使用标准的软磁性分类器。对RNN进行了迷你批次随机梯度下降训练,我喜欢使用RMSPROP或ADAM(人参数自适应学习率方法)来稳定更新。
还请注意,字符“ L”是输入的第一次,目标是“ L”,但第二次目标是“ O”。因此,RNN不能单独依靠输入,并且必须使用其经常性连接来跟踪上下文以实现此任务。
在测试时,我们将角色喂入RNN,并在接下来可能会发生哪些字符上分发。我们从此分布中进行采样,然后立即将其馈入以获取下一个字母。重复此过程,您正在采样文本!现在让我们在不同数据集上训练RNN,看看会发生什么。
为了进一步澄清,出于教育目的,我还用Python/numpy写了一个最小的角色级RNN语言模型。它只有大约100行的长度,希望如果您比文本更好地阅读代码,则可以提供上述简洁,具体且有用的摘要。现在,我们将深入研究示例结果,以更有效的LUA/TORCH代码库产生。
我们已经了解了RNN,它们的工作方式,为什么它们成为大事,我们已经在几个有趣的数据集上培训了RNN角色级的语言模型,我们已经看到了RNN的去向。您可以自信地期望在RNN的空间中进行大量创新,我相信它们将成为智能系统的普遍和关键组成部分。
最后,为了在这篇文章中添加一些元数据,我在此“ readme.md”文件的源文件上训练了一个RNN。不幸的是,在大约少量字符的情况下,我没有编写足够的数据来正确喂养RNN,但是返回的样品(以低温生成以获取更典型的样本)是:
I've the RNN with and works, but the computed with program of the RNN with and the computed of the RNN with with and the code"
