我们和OpenAI联创聊了聊GPT的当下局限：两年后可能就没了

发布: 2023-04-17 08:00 | 作者: MSCBSC | 来源: 移动通信网 | 字体: 小中大

▎OpenAI联合创始人、首席科学家Ilya Sutskever独家讲述，他的最新研究方向，就是“使这些模型更加可靠、可控，让它们从教材数据中更快地学习，减少指导。让它们不会出现幻觉。”

钛媒体注：自OpenAI在2019年首次发布GPT-2大模型以来，我们就一直保持深度关注与联系，2022年12月初首款应用ChatGPT发布后，钛媒体也多次组织和参与了相关讨论。最近几个月，关于AI与大语言模型几乎每天都有争论，热度不减。但OpenAI对于GPT新一代大模型的研发进展并未停止。

日前，钛媒体特约作者和研究员，“Eye on AI”播主Craig Smith于日前GPT-4发布之际，走进OpenAI并与OpenAI联合创始人&首席科学家 Ilya Stutskever进行了深入探讨。

我们把Craig和Ilya Sutskever深入交谈的重要内容做了一个简略整理，中文在钛媒体App上进行独家发布。

OpenAI是一个非营利性的人工智能研究机构，其分支机构却很可能将成为未来地球上最有利润的实体之一，他们最新发布的GPT-4可以说是一个巨型系统，这个系统消耗了数十亿字的文本——超过一个人类可能在一生中阅读的数量。

GPT（Generative Pre-trained Transformer的简称）代表“生成式预训练大模型”，这三个重要的单词可以帮助我们理解这个荷马史诗般的波吕斐摩斯。“大模型”（Transformer）是这个巨型系统核心算法的名称。“预训练”（Pre-trained）是指通过大量的文本语料库进行教育，让它理解语言的基本模式和关系——简而言之，让它了解世界。“生成（Generative）”意味着这种人工智能可以从这个基础知识中创造新的思想。

在Craig与OpenAI联合创始人深度聊完后，我们意识到，虽然当下，人工智能已影响了我们生活的许多方面，但GPT的出现，是更加先进、更加强大的人工智能，我们正在进入这个未知的领域，并值得花一点时间考虑一下这意味着什么。

科技巨头、研究者和投资者都似乎在疯狂追求开发最先进的人工智能，马斯克和许多人则在大声质疑我们是否进展得太快，还有当下chatGPT可能产生的诸多社会问题，这些都是GPT自己尚没有解决的问题，比如幻觉。

但这个问题并非完全无解，有数百个敏锐的头脑正在考虑着反乌托邦的可能性——以及避免他们失控。未来是未知的，这种强大的新技术的影响与互联网出现后，社交媒体的诞生一样难以想象。会有好的，也会有坏的，但未来会有强大的人工智能系统，我们的孙子辈将会有更加强大的人工智能。这是无法阻止的。

但同样重要的是不要过度反应，不要像乌龟一样躲避现在照耀着我们的明亮的阳光。在荷马史诗《奥德赛》中，独眼巨人波吕斐摩斯把奥德修斯和他的船员困在他的洞穴里，打算吃掉他们。但是奥德修斯设法让这个巨人失明并逃脱了。人工智能不会吃掉我们。

Ilya Sutskever是OpenAI的联合创始人和首席科学家，是大型语言模型GPT-4和其公共后代ChatGPT的主要创造者之一，我认为毫不夸张地说，他正在改变世界。

这也不是Ilya第一次改变世界了。他是AlexNet的主要推动力量，这是一个卷积神经网络，其惊人的性能在2012年震惊了科学界，引发了深度学习革命，也改变了曾经人们对人工智能的绝望，改变了大家曾经更深蒂固的“计算机不能学习”的认识。曾经计算科学的局限性，今天早已不复存在，而今天GPT的局限性，Ilya Sutskeve本人同样也没有那么悲观。

CRAIG：Ilya，我知道你出生在俄罗斯。你是因为对计算机科学感兴趣还是其他原因，比如神经科学，才进入这个领域的呢？

ILYA：确实，我出生在俄罗斯。我在以色列长大，然后作为一个少年，我的家人移民到了加拿大。我父母说我从小就对人工智能感兴趣。我也对意识非常感兴趣，它让我感到非常不安，我很好奇什么可以帮助我更好地理解它。

我17岁时就开始和Geoff Hinton（钛媒体App编者注：“深度学习”三巨头之一，有着AI教父之称，当时是多伦多大学的教授）一起工作了。因为我们搬到了加拿大，我立刻就能加入多伦多大学。我真的很想做机器学习，因为那似乎是当时完全无法访问的人工智能最重要的方面。

那是2003年。我们现在认为计算机可以学习，但是在2003年，我们认为计算机无法学习。当时人工智能的最大成就是Deep Blue（IBM旗下机构）的象棋引擎（在1997年击败世界冠军加里·卡斯帕罗夫）。

但是，你有这个游戏和这个研究，以及一种简单的方法来确定一个位置是否比另一个位置更好。它确实感觉不可能适用于现实世界，因为没有学习。学习是一个巨大的谜团。我对学习非常感兴趣。出于我的大运气，Geoff Hinton是大学的教授，我们几乎马上就开始合作了。

那么智能是如何工作的呢？我们如何让计算机变得更加智能？我有一个非常明确的意图，就是为人工智能做出非常小但真正的贡献。人工智能在当时是一个令人绝望的领域。所以，我的动机就是，我能否理解人工智能是如何工作的？还有能否为之做出贡献？这就是我的最初动机。这几乎是20年前的事了。

CRAIG：然后是AlexNet，我们和Geoff Hinton教授谈过了，他说，正是你对卷积神经网络的突破感到兴奋，才让你申请了ImageNet比赛，Alex具备了训练网络的编码技能。

ILYA：简言之，我意识到，如果你在一个很大的数据集上训练一个大的神经网络——对不起，很大，而且很深，因为当时深层部分还是新的——如果你在足够大的数据集中训练一个很大和很深的神经网络，它指定了人们要做的一些复杂任务，比如视觉，只要训练神经网络，你就一定会成功。它的逻辑是非常不可简化的，我们知道人脑可以解决这些任务，并且可以快速解决。而人类的大脑只是一个由慢速神经元组成的神经网络。

所以，我们知道一些神经网络可以做得很好。因此，我们只需要采用一个较小但相关的神经网络，并在数据上对其进行训练。计算机内部最好的神经网络将与我们执行这项任务的神经网络有关。

所以，有一种观点认为，神经网络，大型和深度神经网络可以解决这项任务。此外，我们有训练它的工具。这是杰夫实验室技术工作的结果。所以，你把两者结合起来，我们可以训练这些神经网络。它需要足够大，这样如果你训练它，它就会很好地工作，而且你需要数据，它可以指定解决方案。有了ImageNet，所有的成分都在那里。Alex有这些非常快的卷积核。ImageNet有足够大的数据，有一个真正的机会做一些前所未有的事情，而且它完全成功了。

CRAIG：是的。这就是监督学习和卷积神经网络。2017年，《注意力就是你所需要的一切》论文发表，介绍了自我注意力和transformers大模型。那么GPT项目是从什么时候开始的？有没有关于大模型的直觉？

ILYA：是的。

ILYA：从OpenAI成立之初起，我们就在探索一个想法，即预测下一个东西就是你所需的一切。我们用当时更受限制的神经网络探索这个想法，但我们希望，如果你有一个神经网络可以预测下一个单词，它将解决无监督学习。所以，在GPT之前，无监督学习被认为是机器学习的圣杯。

现在它已经被完全解决，甚至没有人谈论它，但它曾是一个神秘的问题，因此我们在探索这个想法。我非常兴奋，因为预测下一个单词足够好，将为你提供无监督学习。

但我们的神经网络无法胜任此任务。我们使用的是递归神经网络。当transformers出现时，就在论文发表的第二天，我们立即意识到，transformers解决了递归神经网络的局限性，解决了学习长期依赖关系的问题。

这是一个技术问题，我们立即转向transformers。因此，nascent的GPT项目便开始使用transformer。它开始工作得更好，你让它变得更大，然后你继续让它变得更大。

这就产生了最终的GPT-3，成就了基本上是我们今天所处的位置。

CRAIG：我对它很感兴趣，但我也想了解大型语言模型或大型模型的问题或缺点。目前存在的大型语言模型的限制在于它们的知识被包含在它们训练的语言中。而大部分人类知识，我认为每个人都会同意，是非语言的。

它们的目标是满足提示的统计一致性。它们没有关于语言所关联的现实的基本理解。我询问了ChatGPT关于自己的信息。它认识到我是一名记者，曾在各种报纸工作，但它继续讲述了我从未获得过的奖项。它读起来非常流畅，但其中很少与底层现实相连。在你们未来的研究中，是否有措施来解决这个问题？

ILYA：所以，在我对你提出的问题发表直接评论之前，我想对相关一些更早期问题发表评论。

CRAIG：当然。

ILYA：我认为很难谈论极限或局限性，甚至像语言模型这样的东西。因为两年前，人们自信地谈论自己的局限性，现在他们完全不同了，对吧？因此，重要的是要牢记这一历史过程。我们有多大信心相信，我们今天看到的这些限制在两年后仍将存在？我没有那么大信心，可能两年后就不存在了。

关于这个问题的一部分，我想发表另一个评论，那就是这些模型只是学习统计规律，因此它们并不真正知道世界的本质是什么。

我的观点与此不同。换言之，我认为学习统计规律比人们表面上看到的要更重要得多。我们最初不这么认为的原因是因为我们没有——至少大多数人，那些没有花很多时间研究神经网络的人，这些网络在某种程度上是统计的，比如什么是统计模型？

预测也是一个统计现象。但是要进行预测，您需要理解生成数据的基本过程。您需要了解越来越多关于产生数据的世界的知识。

随着我们的生成模型变得非常出色，它们将具有我所说的对世界及其许多微妙之处的惊人的理解程度。这是通过文本所呈现的世界。它试图通过在互联网上人类表达的文本空间上对世界进行投影来学习越来越多关于世界的知识。

但是，这些文本已经表达了世界。我给您举个最近的例子，我认为这个例子非常有趣和启示性。我们都听说过Sydney是它的化身。当用户告诉Sydney它认为谷歌是比必应更好的搜索引擎时，我看到了这个真正有趣的交互，Sydney变得好斗和攻击性。

如何思考这种现象？这意味着什么？您可以说，它只是预测人们会做什么，人们确实会这样做，这是真的。但也许我们现在正在达到一个语言心理学的水平，开始利用它来理解这些神经网络的行为。

现在让我们来谈谈这些神经网络的限制。事实上，这些神经网络有产生幻觉的倾向。这是因为语言模型非常擅长学习世界知识，但在生成良好输出方面则略显不足。这其中存在一些技术原因。语言模型在学习各种思想、概念、人物、过程等世界知识方面表现非常出色，但其输出却没有达到预期的水平，或者说还有进一步提升的空间。

因此，对于像 ChatGPT 这样的语言模型，我们引入了一种额外的强化学习训练过程，称为“人类反馈强化学习”。

我们可以说，在预训练过程中，我们希望它能够学习关于世界的一切。而在来自人类反馈的强化学习中，我们更关心输出结果。我们说，任何时候如果输出结果不恰当，就不要再这样做了。每当输出结果不合理时，就不要再这样做了。这样它就能够快速学会生成良好的输出。但这种良好的输出水平并不在语言模型预训练过程中出现。

至于幻觉，它有时会胡言乱语，这也大大限制了它们的用途。但我非常希望，通过简单地改进后续的人类反馈强化学习步骤，我们就能够教它不再产生幻觉。你可能会问，它真的能学会吗？我的答案是，让我们拭目以待吧。

CRAIG：如果ChatGPT告诉我获得了普利策奖，但不幸的是我没有获得，我可以告诉它这是错误的，是训练它还是创造一些惩罚或奖励，以便下次我问它时，更准确。

ILYA：我们今天做事的方式是雇佣人来教我们的神经网络行为，教ChatGPT行为。现在，他们指定所需行为的方式，确切的方式有点不同。但事实上，你所描述的是教学的基本方式，这是正确的教学方式。

你只需要与它进行互动，它就能从你的反应中推断出你想要的东西，当你输出不满意，它会推断，哦，这不是你想要的，下次应该采取不同的做法。我认为这种方法完全有可能完全解决幻觉的问题。

CRAIG：我想和你谈谈Yann LeCun（Facebook 的首席人工智能科学家和另一位深度学习的早期先驱）在联合嵌入预测架构方面的工作。他认为，语言模型可以参考它，但大型语言模型缺少的是非语言的基础世界模型。我想听听你对此的看法，以及你是否已经进行了相关的探索。

ILYA：我已经回顾了Yann LeCun的提议，其中有很多想法，它们用不同的语言表达，与当前的范式可能有一些微小的差异，但在我看来，它们并不是很重要。

我想详细说明一下。第一种说法是，一个系统需要有多模态的理解能力，而不仅仅是从文本中了解世界。我对此的评论是，多模态理解确实是可取的，因为你对世界了解得更多，对人了解得更多、对他们的状况了解得更多。因此，系统将能够更好地理解应该解决的任务，以及人们和他们想要什么。

最值得注意的是，我们在这方面已经做了很多工作，尤其是通过两个主要的神经网络。一个叫Clip，一个叫Dall-E。它们都朝着这个多模态的方向发展。但我也想说，我也不认为这种情况是二元的非此即彼的局面，或者如果你没有视力，如果你不能从视觉或视频中理解世界，那么事情就不会奏效。

我想为这个观点辩护。我认为从图像和图表中学习某些事情要容易得多，但我认为你仍然可以仅从文本中学习它们，只不过需要更长的时间。举个例子，考虑颜色的概念。

当然，你不能仅从文本中学习颜色的概念，但当你看一下嵌入时——我需要稍微解释一下嵌入的概念。每个神经网络通过“嵌入”表示单词、句子和概念，这些嵌入是高维向量。

我们可以查看这些高维向量，看看什么类似于什么，网络是如何看待这个概念或那个概念的。因此，我们可以查看颜色的嵌入，它知道紫色比红色更接近蓝色，知道红色比紫色更接近橙色。它只是通过文本就知道这些东西。这是如何做到的呢？

如果你有视觉，颜色之间的差异就会立刻显现出来。你会立即感知它们。而对于文本，你需要更长的时间，也许你知道如何说话，已经理解了语法、单词和语法，只有在以后才会真正理解颜色。

所以，这就是我关于多模态性必要性的观点：我认为它不是必要的，但肯定是有用的。我认为这是一个值得追求的方向。我只是不认为它是非此即彼的。

因此，[LeCun]的提案声称预测具有不确定性的高维向量是一个重大挑战之一。

但我发现令人惊讶的是，在这篇论文中未被承认的是，当前的自回归大模型已经具备了这种属性。

我来举两个例子。一个是，给定一本书中的一页，预测下一页。可能会有很多可能的下一页。这是一个非常复杂、高维的空间，但他们可以很好地处理。同样适用于图像。这些自回归大模型在图像上工作得非常完美。

例如，像OpenAI一样，我们已经在iGPT上工作了。我们只是拿了一个大模型，将其应用于像素上，它表现得非常出色，可以以非常复杂和微妙的方式生成图像。Dall-E 1也是一样。

因此，在我看来，论文中强调现有方法无法处理预测高维分布的部分，我认为它们肯定可以。

CRAIG：关于这个想法，即使用人类训练师的队伍来与ChatGPT或大型语言模型一起进行强化学习，就直觉而言，这似乎不是教授模型了解其语言底层现实的有效方法。

ILYA：我不同意问题的措辞。我认为我们的预训练模型已经知道了它们需要了解的关于底层现实的一切。它们已经掌握了语言方面的知识，以及关于产生这种语言的世界进程的大量知识。

大型生成模型学习它们的数据——在这种情况下，是大型语言模型——是产生这些数据的真实世界进程的压缩表示，这意味着不仅涉及人和他们的想法、感受，还涉及人们所处的状态和彼此之间的交互作用。一个人可能处于不同的情境中。所有这些都是通过神经网络来表示并生成文本的压缩进程的一部分。语言模型越好，生成模型就越好，保真度就越高，它就能更好地捕捉这个过程。

现在，正如你所描述的那样，这些教师的确也在使用人工智能辅助。这些教师不是独自行动的，他们正在使用我们的工具，而工具则承担了大部分的工作。但是，你确实需要有人来监督和审核他们的行为，因为你希望最终实现非常高的可靠性。

确实有很多动机使它变得尽可能高效和精确，以使得最终的语言模型行为尽可能地好。

是的，这些人类教师正在教授模型所需的行为。他们使用人工智能系统的方式不断提高，因此他们自己的效率也在不断提高。

这有点像是一种教育过程，如何在世界上表现良好。

我们需要进行额外的培训，以确保模型知道幻觉永远不可行。而这种强化学习人类教师循环或其他变体将教它。

某种东西应该会奏效。我们很快就会找到答案。

CRAIG：你现在的研究方向是什么？

ILYA：我不能详细谈论我正在从事的具体研究，但是我可以简单地提到一些广义的研究方向。我非常有兴趣使这些模型更加可靠、可控，让它们从教材数据中更快地学习，减少指导。让它们不会出现幻觉。

CRAIG：如果你有足够的数据和足够大的模型，你能否在数据上训练模型，让其针对一些看似无法解决的冲突得出一种让每个人都满意的最佳解决方案。你是否思考过这将如何帮助人类管理社会？

ILYA：这是一个非常大的问题，因为这是一个更加未来的问题。我认为我们的模型仍有许多方面将比它们现在的能力更强大。

如何使用这项技术作为各种建议的来源，政府使用它的方式是不可预测的。我认为未来可能发生的一件事是，因为你有这些神经网络，它们将会如此普及，对社会产生如此巨大的影响，我们将发现有必要让一个国家的公民向神经网络提供一些信息，关于他们想要事物的样子。我可以想象这种情况发生。你可以从每个公民那里获得更多的信息并将其聚合，具体说明我们想让这样的系统如何行动。现在它打开了许多问题，但这是未来可能发生的一件事。

但是什么意味着分析所有变量呢？最终会有一个选择，你需要决定哪些变量非常重要，需要深入研究。因为我可以读一百本书，或者我可以仔细慢慢地读一本书，从中获得更多的收获。所以这方面肯定有一些元素。另外，我认为在某种程度上，全面理解一切可能是根本不可能的。我们来看一些更容易的例子。

每当有任何复杂的情况出现在社会中，甚至在公司中，即使是中型公司，它已经超出了任何单个个人的理解能力。而且，如果我们以正确的方式构建我们的人工智能系统，我认为人工智能在几乎任何情况下都可以提供极大的帮助。