【资料图】
研究人员已经让GPT-4对自己的工作进行了检讨,进而使其性能提高了30%。研究人员Noah Shinn和Ashwin Gopinath写道:"人类不是每天都在开发新技术,利用曾经被认为是人类智能所特有的决策过程来达到最先进的标准。但是,这正是我们所做的。"
"反思"技术采用了GPT-4已经令人印象深刻的执行各种测试的能力,并引入了"一个框架,允许人工智能代理模仿人类一样的自我反思并评估其性能"。有效地,它引入了额外的步骤,让GPT-4设计测试来批判自己的答案,寻找错误和误区,然后根据发现的问题重写其解决方案。
在HumanEval编码测试中,GPT-4的准确率从67%提高到88%,这是一个令人印象深刻的飞跃,使用的是自我反省循环。
该团队在一些不同的性能测试中使用其技术。在HumanEval测试中,由模型从未见过的164个Python编程问题组成,GPT-4的得分创下了67%的记录,但使用Reflexion技术,其得分跃升至非常令人印象深刻的88%。
在Alfworld测试中,该测试挑战人工智能通过在各种互动环境中执行几种不同的允许行动来做出决定和解决多步骤任务的能力,Reflexion技术将GPT-4的表现从73%左右提升到接近完美的97%,在134项任务中只有4项失败。
在另一项名为HotPotQA的测试中,语言模型被赋予了对维基百科的访问权,然后在可能的13000个问题/答案对中给出100个,可以"挑战代理人对内容的解析和对几个支持文件的推理"。在这项测试中,GPT-4的准确率只有34%,但带有Reflexion的GPT-4设法做得更好,达到54%。
越来越多的时候,解决人工智能问题的方法似乎是更多的人工智能本身。在某些方面,这感觉有点像生成式对抗网络,其中两个人工智能互相磨练技能,例如,一个试图生成无法与"真实"图像区分的图像,而另一个试图区分假的和真的。但在这种情况下,GPT既是作者又是编辑,努力改善自己的输出。
这篇论文可以在Arxiv上找到。