超强进化!GPT-4正在改进自己,近万人联名封杀|全球微动态
来源:富途牛牛 发布时间:2023-04-05 21:16:53

来源:综合新智元、AI Explained

最近,似乎全世界都在围剿ChatGPT。


(资料图)

前一阵由马斯克、图灵奖得主Bengio等大佬联名发起的暂停高级AI研发的公开信,现在签名已经上升到9000多人。

即使全世界都对超级AI如临大敌,想赶紧悬崖勒马,恐怕也为时已晚。

因为,如今的AI,已经学会自我进化了!

前段时间,前谷歌大脑研究工程师Eric Jang发现:GPT-4能够以合理的方式批评自己的成果。

与其为大型语言模型(LLM)寻找完美的提示(让我们一步一步思考),不如让LLM评估自己的输出并立即纠正自己的错误。

甚至连特斯拉前AI总监,OpenAI研究科学家Andrej Karpathy大赞,这是一个很好的例子,说明我们还没有看到GPT-4的最大能力。

在Eric Jang给出的例子中,曾看到微软研究员发推说GPT-4根本无法写出「不押韵」的诗歌。

然而,当再去询问GPT-4是否完成了任务。这时,它道歉后,生成了一个不押韵的诗!可以说是满分。

这恰恰印证了GPT-4是有「反思」能力的。

最近,来自美国东北大学、MIT等机构研究者提出了Reflexion(反思)。这一方法赋予智能体动态记忆,以及自我反思的能力。

研究人员诺亚·希恩和阿什温·戈皮纳特写道:“人类利用曾经被认为是人类智力独有的决策过程,开发出新的技术来达到最先进的标准,这种情况并不是每天都会发生的。”“但是,这正是我们所做的。”

Reflexion 利用GPT-4的各种能力来进行不同的测试,并引入了一个框架,允许AI模拟类似人类的自我反思行为并评估其表现。在这个过程中,它引入了额外的步骤,在这些步骤中,GPT-4设计测试来质疑自己的答案,寻找错误和失误,然后根据发现的结果重写答案。

Reflexion智能体的整体架构

为了验证方法的有效性,研究人员评估了智能体在AlfWorld环境中完成决策任务的能力,以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。

在Alfworld测试中,Reflexion(反思机制)将GPT-4的成功率从73%左右提高到接近完美的97%,在134项任务中只有4项失败。

在另一项名为HotPotQA的测试中,GPT-4的准确率仅为34%,但应用反思机制的GPT-4的准确率显著提高,达到54%。

在HumanEval测试中,也就是测试模型编写代码的能力时,GPT-4准确率是67%,但通过反思机制,它的准确率跃升至令人印象深刻的88%。该测试包含了模型从未见过的164个Python编程问题。

有网友便表示,你可以通过要求 GPT-4 反思「你为什么错了?」,并为自己生成一个新的提示,将这个错误原因考虑在内,直到结果正确,从而将GPT-4的性能提高惊人的30%。

这样看来,就像Eric Jang所说,

我们现在可以考虑一种「后缀提示工程」,而不是巧妙的「前缀提示工程」。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。

关键词:

上一篇:

下一篇:

猜你喜欢

超强进化!GPT-4正在改进自己,近万人联名封杀|全球微动态

超强进化!GPT-4正在改进自己,近万人联名封杀|全

来源:综合新智元、AIExplained最近,似乎全世界都在围剿ChatGPT。前一阵由马斯克、图灵奖得主Bengi...更多

2023-04-05 21:16:53
瑞银在收购瑞信后首次召开股东大会:整合预计将耗时三至四年

瑞银在收购瑞信后首次召开股东大会:整合预计将耗

来源:Wind$瑞银(UBS US)$于周三召开年度股东大会,上月,瑞银收购了已衰落的竞争对手瑞士信贷(Cre...更多

2023-04-05 20:15:24
世界看热讯:挟ChatGPT之威,微软要“二选一”

世界看热讯:挟ChatGPT之威,微软要“二选一”

来源:字母榜作者:毕安娣“高开”的微软新必应,正在承受压力。一方面,谷歌没有留在原地被动挨打...更多

2023-04-05 17:57:33
暂停Plus付费、大规模封号、多国“封杀围剿”!ChatGPT进阶之路并不平坦

暂停Plus付费、大规模封号、多国“封杀围剿”!Ch

来源:格隆汇在一阵声势浩大的“热浪”之后,ChatGPT的争议也是铺天盖地。前有马斯克等上千余名科技...更多

2023-04-05 18:08:11
观点 | 美国制造业PMI持续下滑,“衰退交易”重启?

观点 | 美国制造业PMI持续下滑,“衰退交易”重启?

来源:赵伟宏观探索事件北京时间4月3日晚22:00,美国ISM发布3月制造业PMI数据。一、总体表现:3月美...更多

2023-04-05 18:13:39
环球热头条丨做空报告叠加各国禁令,美股最火AI股一天暴跌了26%,盘前续跌超3%

环球热头条丨做空报告叠加各国禁令,美股最火AI股

来源:华尔街见闻趁着AI赛道的风,C3 ai凭借超市场预期的财报,在短短3个月内股价飙升200%,但接踵...更多

2023-04-05 18:15:07
天天通讯!全球针对银行业最大空头赌注竟在加拿大!道明银行是下一个雷?

天天通讯!全球针对银行业最大空头赌注竟在加拿大

来源:智通财经作者:李均柃智通财经APP获悉,据S3Partners的一份分析报告显示,近几周全球卖空者加...更多

2023-04-05 16:09:50
通用超越福特,晋升美国第二大畅销电动车生产商,还远逊特斯拉 简讯

通用超越福特,晋升美国第二大畅销电动车生产商,

来源:华尔街见闻作者:李丹一季度通用汽车在美电动汽车销量2 067万辆。特斯拉公布的一季度创单季...更多

2023-04-05 15:57:21
每日热闻!“股神”又要借日元买日股了?伯克希尔聘请银行安排日元债券发行

每日热闻!“股神”又要借日元买日股了?伯克希尔

来源:华尔街见闻作者:葛佳明自2019年以来,伯克希尔已连续5年发行日元债,截至2022年日元债规模超...更多

2023-04-05 14:53:45
申请破产!维珍轨道今年来已暴跌90%:全球新消息

申请破产!维珍轨道今年来已暴跌90%:全球新消息

来源:中国基金报作者:伊万在发射了6枚火箭后,马斯克SpaceX的“劲敌”维珍轨道(VirginOrbit)倒...更多

2023-04-05 13:55:41

© 2012-2020 财经快报网 版权所有

网站联系邮箱:435 227 67@qq.com

琼ICP备2022009675号-3