科技生活| 反思能力通过多项测试 GPT-4准确度升近30%
即使不太可能的六个月暂停人工智能开发计划继续进行,似乎GPT-4也有能力实现巨大的飞跃,只要它认真审视一下自己。研究人员已经让GPT对自己的工作进行了批评,使其性能提升30%。
研究人员Noah Shinn和Ashwin Gopinath写道:“人类不是每天都在开发新技术,利用曾经被认为是人类智能所特有的决策过程来达到最先进的标准。但是,这正是我们所做的。”
“反思”(Reflexion)技术采用了GPT-4已经令人印象深刻的执行各种测试的能力,并引入了“一个框架,允许人工智能代理模仿人类一样的自我反思并评估其性能”。有效地,它引入了额外的步骤,让GPT-4设计测试来批判自己的答案,寻找错误和误区,然后根据它发现的情况重写其解决方案。
该团队将其技术用于几个不同的性能测试。在由模型从未见过的164个Python编程问题组成的HumanEval测试中,GPT-4的得分创下了67%的纪录,但使用反思技术,其得分跃升至非常令人印象深刻的88%。
在Alfworld测试中,该测试挑战人工智能通过在各种互动环境中执行几种不同的允许行动来作出决定和解决多步骤任务的能力,反思技术将GPT-4的性能从73%左右提升到接近完美的97%,在134项任务中只有4项失败。
在另一项名为HotPotQA的测试中,语言模型被赋予了对维基百科的访问权,然后在可能的13,000个问题/答案对中给出100个,“挑战代理人对内容的解析和对几个支持文件的推理”。在这项测试中,GPT-4的准确率只有34%,但带有反思能力的GPT-4成功地做得更好,达到54%。
越来越多的时候,解决人工智能问题的方法似乎是更多的人工智能。在某些方面,这感觉有点像生成式对抗网络,其中两个人工智能互相磨练技能,例如,一个试图生成无法与“真实”图像区分的图像,而另一个试图区分假的和真的。但在这种情况下,GPT既是作者又是编辑,努力改善自己的输出。
图片:Northwestern University/MIT
T09
>>>立即浏览【移民百答】栏目:新移民抵埗攻略,老华侨也未必知道的事,移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。
>>>即读【新移民专栏】:新移民第一身经验,与你分享当下年轻移民生活日常大小事,即读“新移民专栏”。
iPhone:https://apple.co/2IBi812
Android:https://bit.ly/2Pe8anu
>>>订阅【加拿大星岛网电邮快讯】,每天可收到最快新闻资讯电邮:
https://www.singtao.ca/subscribe/singtao.php
>>>立即关注加拿大星岛新闻网TG Channel,让加国新闻无遗漏全天候向你推送:
https://t.me/singtaoca
>>>订阅CCUE YouTube 频道,查看更多吃喝玩乐、生活资讯影片。