[返回科技频道首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
MIT微软证实GPT-4有自我纠错能力
送交者: xiaochuliu[♂★★大🇨🇳lngviva★★♂] 于 2023-07-04 17:49 已读 3938 次  

xiaochuliu的个人频道

MIT微软证实GPT-4有自我纠错能力,智能体循环根据反馈让代码迭代 6park.com

训练GPT-5竟然可以不用手写代码。 6park.com

MIT微软最新研究发现,GPT-4在代码修复中的有效性。以后,OpenAI工程师能做的只有——Critique is all you need。 6park.com

我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。 6park.com


6park.com

这种自我修复背后的机制,究竟是怎样运作的? 6park.com


6park.com

对代码为什么是错误的,模型在多大程度上能提供准确反馈? 6park.com


6park.com

近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。 6park.com


6park.com

6park.com

论文地址:https://arxiv.org/pdf/2306.09896.pdf 6park.com


6park.com

英伟达科学家Jim Fan强烈推荐了这项研究。 6park.com


6park.com

在他看来,即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果,推理出问题所在,给出修复措施,反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。 6park.com


6park.com

很有可能,OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。 6park.com


6park.com

6park.com

- GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在,其他模型无法与之竞争。 6park.com


6park.com


6park.com


6park.com

- 反馈模型和代码生成模型不必相同。事实上,反馈模型是瓶颈。 6park.com


6park.com


6park.com


6park.com

- 基于GPT-4的反馈,GPT-3.5能够编写更好的代码。 6park.com


6park.com


6park.com


6park.com

- 基于专业人员的反馈,GPT-4本身能够编写更好的代码。 6park.com


6park.com

揭秘用于代码生成GPT修复 6park.com


6park.com

我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。 6park.com


6park.com

然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。 6park.com


6park.com

好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。 6park.com


6park.com

研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。 6park.com


6park.com

如图显示的是,基于自我修复方法的经典工作流程。 6park.com


6park.com

首先,给定一个规范,从代码生成模型中采样一个程序,然后在规范中提供的一组单元测试上执行该程序。 6park.com


6park.com

6park.com

如果程序在任何单元测试中失败,那么错误的消息和程序会被提供给一个反馈生成模型,该模型再输出代码失败原因的简短解释。 6park.com


6park.com

最后,反馈被传递给一个修复模型,该模型生成程序的一个固定版本。 6park.com


6park.com

表面上看,这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误,在修复阶段容易地合并来自符号系统(编译器、静态分析工具和执行引擎等)的反馈。 6park.com


6park.com

并且模仿人类软件工程师编写代码的试错方式。 6park.com


6park.com

6park.com

然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。 6park.com


6park.com

而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。 6park.com


6park.com

目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。 6park.com


6park.com

研究人员提出了一个新的评估策略,称为,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。 6park.com


6park.com

因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。 6park.com


6park.com

从实验中,研究者发现: 6park.com


6park.com

1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。 6park.com


6park.com


6park.com


6park.com

2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。 6park.com


6park.com


6park.com


6park.com

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。 6park.com


6park.com


6park.com


6park.com

4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。 6park.com


6park.com

自我修复四阶段 6park.com


6park.com

自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。 6park.com

阶段一:代码生成 6park.com


6park.com

给定规范,一个程序模型,首先生成样本 6park.com


6park.com

用一个公式来表示: 6park.com


6park.com

6park.com

阶段二:代码执行 6park.com


6park.com

然后在测试平台上执行代码示例,并假设可以以可执行形式的访问完整测试集。 6park.com


6park.com

如果任何样本通过了所有的测试,就会停止,因为此时已经找到了令人满意的程序。 6park.com


6park.com

否则,收集执行环境返回的错误信息。 6park.com


6park.com

这些错误消息要么包含编译/运行时错误信息,要么包含程序输出与预期不同的示例输入。 6park.com


6park.com

阶段三:反馈生成 6park.com


6park.com

在此,研究人员使用反馈模型来生成更详细的错误解释。 6park.com


6park.com

在这个阶段,为每个错误的程序生成反馈字符串,,如下所示: 6park.com


6park.com

6park.com

阶段四:代码修复 6park.com


6park.com

在最后一步中,对于每个初始程序和反馈,候选修复程序从中采样: 6park.com


6park.com

6park.com

研究人员称这个过程产生的交错文本和程序树修复树T 6park.com


6park.com

——植根于规范,然后分支到初始程序,每个程序分支到反馈,然后修复。 6park.com


6park.com

具体如图所示: 6park.com


6park.com

6park.com

由于自我修复需要几个非一致成本的相关模型调用,在这种设置中,(在样本中获得正确程序的可能性)不是比较和评估自我修复的各种超参数选择的合适度量。 6park.com


6park.com

相反,研究人员将通过率作为从模型中采样总token数量的函数来衡量,将其称之为的度量。 6park.com


6park.com

实验过程 6park.com


6park.com

研究人员又进一步针对3个问题进行了测试: 6park.com


6park.com

1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样? 6park.com


6park.com

2. 更强的反馈模型会提高模型的修复性能吗? 6park.com


6park.com

3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能? 6park.com


6park.com

首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。 6park.com


6park.com

这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。 6park.com


6park.com

研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。 6park.com


6park.com

6park.com

研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。 6park.com


6park.com

下图为提示词的实例之一。 6park.com


6park.com

6park.com

自修复需要强大的模型和多样化的初始样本 6park.com


6park.com

研究人员让单个模型分别进行代码的修复生成和反馈生成。 6park.com


6park.com

在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。 6park.com


6park.com

6park.com

从图中可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。 6park.com


6park.com

而在GPT-4(下图)中,有几个值的自修复通过率明显优于基线。 6park.com


6park.com

6park.com

下图是和基线的无修复方法。 6park.com


6park.com

GPT-4反馈改进了GPT3.5的修复结果 6park.com


6park.com

研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。 6park.com


6park.com

6park.com

这个实验的结果如上图(亮蓝色)所示。 6park.com


6park.com

在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。 6park.com


6park.com

这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。 6park.com


6park.com

人工反馈显著提高了GPT-4修复的成功率 6park.com


6park.com

在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。 6park.com


6park.com

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。 6park.com


6park.com

研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。 6park.com


6park.com

每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。 6park.com


6park.com

每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。 6park.com


6park.com

然后,参与者被要求用他们自己的话解释这个程序做错了什么。 6park.com


6park.com

实验结果如下图所示: 6park.com


6park.com

6park.com

研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。 6park.com


6park.com

不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。 6park.com


6park.com

6park.com

作者介绍 6park.com


6park.com

Jianfeng Gao(高剑锋) 6park.com


6park.com

6park.com

高剑锋是微软的杰出科学家和副总裁,也是IEEE Fellow。 6park.com


6park.com

在微软研究院,他是Redmond分部深度学习(DL)组的负责人。该组的使命是推进DL的最新技术,并将其应用于自然语言和图像理解以及构建对话代理。他领导了构建大规模基础模型的研究,这些模型为微软的重要人工智能产品提供了支持。 6park.com


6park.com

从2022年开始,他负责自我改进人工智能的研究,其中包括对LLM(如ChatGPT/GPT4)进行增强和适应,以用于商业人工智能系统的开发。 6park.com


6park.com

在此之前,他于1999年在上海交通大学获得博士学位。 6park.com


6park.com

Chenglong Wang 6park.com


6park.com

6park.com

Chenglong Wang是微软研究院的研究员,此前在华盛顿大学获得了博士学位,并曾就读于北京大学。 6park.com

只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码实验新发现 6park.com

GPT-4 有自我纠正生成代码的能力,结合人类反馈,自我纠正能力还能进一步的提高。 6park.com


6park.com

大型语言模型(LLM)已被证明能够从自然语言中生成代码片段,但在应对复杂的编码挑战,如专业竞赛和软件工程专业面试时,仍面临巨大的挑战。最近的研究试图通过利用自修复来提高模型编码性能。自修复是指让模型反思并纠正自己代码中的错误。 6park.com


6park.com

下图 1 显示了基于自修复方法的典型工作流程。首先,给定一个规范,从代码生成模型中对程序进行采样;然后在作为一部分规范提供的一套单元测试上执行程序;如果程序在任一单元测试中失败,则将错误消息和错误程序提供给一个反馈生成模型,该模型输出代码失败原因的简短解释;最后,反馈被传递给修复模型,该模型生成程序的最终固化版本。 6park.com


6park.com

从表面上看,这是一个非常有吸引力的想法。这种设计能让系统克服在解码过程中由离群样本引起的错误;在修复阶段,可以轻松地整合来自编译器、静态分析工具和执行引擎等符号系统的反馈,并模仿人类软件工程师编写代码的试错方式。 6park.com


6park.com


6park.com

然而,自修复需要更多的模型调用,计算成本较高。特别要注意的是,自修复能否奏效,最终归结为在同等计算性能预算下,是否能从模型中抽取更多代码样本,并将其与作为一部分任务提供的单元测试套件进行比较。 6park.com


6park.com

至关重要的是,自修复的有效性不仅取决于模型生成代码的能力(文献中对此进行了广泛研究),还取决于它识别代码(由模型本身生成)在任务规范方面是如何出错的能力。此前没有任何工作试图详细研究这些能力的影响。 6park.com


6park.com

本文中,来自 MIT、微软研究院的研究者在解决竞赛级别的代码生成任务时,使用 GPT-3.5 和 GPT-4 研究自修复的有效性。研究者首先提出一种新的评估策略,称为 pass@t,其中获得正确程序的可能性(相对于给定的单元测试)相对于从模型中采样的 token 总数进行加权。 6park.com


6park.com

使用新的评估策略代替传统的 pass@k 度量(根据试验次数衡量通过率),研究者能够准确地将通过自修复获得的性能与模型在生成反馈和进行修复时所做的任何额外工作进行比较。研究者仔细探究了在一系列超参数下的动态自修复过程。 6park.com


6park.com

最后,鉴于研究的主要目标是深入了解最先进的代码生成模型反思和调试自己代码的能力,本文进行了一组实验,单独研究了改进反馈阶段的影响。通过分析使用比代码生成模型更强的反馈生成模型(使用 GPT-4 为 GPT-3.5 代码模型生成反馈)的影响,研究者进行了一项研究:让人类对不正确的程序提供反馈,以便将模型生成的自反馈与人类提供的自反馈进行比较。 6park.com


6park.com


6park.com

论文地址: 6park.com

https://arxiv.org/pdf/2306.09896.pdf 6park.com


6park.com

从本文的实验中,研究者有了以下发现: 6park.com


6park.com

1. 当考虑进行检查和修复的成本时,自修复的性能收益只能用 GPT-4 来衡量;对于 GPT-3.5,在所有配置下,修复的通过率低于或等于基线模型 / 无修复方法的通过率。 6park.com


6park.com

2. 即使对于 GPT-4,性能提升也是适度的(66%→ 71% 的通过率,预算为 7000 个 token,约 45 个独立同分布(i.i.d.)的 GPT-4 样本),并同时取决于初始程序是否具有足够的多样性。 6park.com


6park.com

3. 用 GPT-4 产生的反馈代替 GPT-3.5 对错误的解释,可以获得更好的自修复性能,甚至超过了基线的无修复 GPT-3.5 方法(50%→ 7000token 时为 54%)。 6park.com


6park.com

4. 用人类的解释取代 GPT-4 自己的解释可以显著改善修复结果,从而使通过测试的修复程序数量增加 57%。 6park.com


6park.com

爱丁堡大学博士生符尧表示:「只有 GPT-4 可以自我改进,而较弱的模型不能,这一发现非常有趣,表明(大模型存在)一种新型的涌现能力(即改进自然语言反馈),可能只有在模型足够成熟(大而整齐)时才存在。大模型的这种能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也存在过。 6park.com


6park.com

只有足够成熟的模型才能清楚(listen to)并改进自然语言反馈,较弱的模型要么无法理解反馈,要么无法对其进行改进。 6park.com


6park.com

我倾向于相信这种涌现能力(通过语言反馈进行自我改进)会对 LLM 研究产生非常重要的影响,因为这意味着 AI 可以在很少的人类监督下不断自主改进。」 6park.com


6park.com


6park.com

方法 6park.com


6park.com

自修复概述 6park.com


6park.com

如上图 1 所示,自修复方法包括 4 个阶段:代码生成、代码执行、反馈生成和代码修复。接下来正式定义这四个阶段。 6park.com


6park.com

代码生成 6park.com


6park.com

给定一个规范 ψ,程序模型 M_P 首先生成 n_p 个独立同分布样本,研究者将其表示为 6park.com


6park.com


6park.com

代码执行 6park.com


6park.com

然后在测试台上执行这 n_p 个代码样本。研究者假设可以访问可执行形式的全套测试,因此如果任何样本通过了所有测试,系统就会停止,因为这时已经找到了一个令人满意的程序。否则,系统将收集执行环境返回的错误消息。这些错误消息要么包含编译 / 运行时错误信息,要么包含程序输出与预期输出不同的示例输入。示例如图 1(组件 3)所示。 6park.com


6park.com

反馈生成 6park.com


6park.com

由于来自执行环境的错误消息通常非常高级,因此它们提供的修复信号很少。作为中间步骤,研究者使用反馈模型来更详细地解释出了什么问题;示例如图 1(组件 4)所示。形式上,在这个阶段,他们为每个错误的程序 p_i 生成 n_f 个反馈字符串,具体如下所示: 6park.com


6park.com


6park.com

有了明确的反馈生成步骤,就可以消融这个组件,独立地研究它的意义。 6park.com


6park.com

代码修复 6park.com


6park.com

在最后一步中,对于每个初始程序 p_i 和反馈 f_ij,可以从采样 n_r 个候选修复程序: 6park.com


6park.com


6park.com

修复树。研究者将该过程生成的包含文本和程序的树称为植根于规范中的 ψ,然后分支到初始程序 p_i,每个初始程序分支到反馈 f_ij,然后对修复树 r_ijk 进行修复,如下图所示。 6park.com


6park.com


6park.com

注意:联合采样反馈和修复。上述通用框架不要求编程模型和反馈模型相同,因此两个模型可以使用各自的专有模型。然而,当 M_P=M_F 时,研究者在单个 API 调用中联合生成反馈和修复的程序,因为 GPT-3.5 和 GPT-4 都有在响应中交织文本和代码的自然倾向。形式上,研究者将其表示为 6park.com


6park.com


6park.com

pass@t:通过率与 token 数量的关系 6park.com


6park.com

由于自修复需要几个非均匀成本的依赖模型调用,因此 pass@k 这种在 k 个独立同分布样本中获得正确程序的可能性指标,不是用于比较和评估自修复的各种超参数选择的合适度量。相反,研究者将通过率作为从模型中采样的 token 总数的函数,称之为 pass@t。 6park.com


6park.com

形式上,假设一个数据集 D=_d 和超参数(M_P,M_F,n_p,n_f,n_r)的一组选定值。令 6park.com


6park.com


6park.com

表示上文所述对任务 ψ_d 进行采样的修复树;令 size(T^i_d)表示修复树中的程序和反馈 token 的总数;并在当且仅当 T^i_d 至少有一个叶子节点程序满足规范中的单元测试 ψ_d 时,令 T^i_d |=ψ_d 为真。然后 pass@t 这种超参数选择的度量被定义为希望通过这种超参数选择生成的 token 数量时预期通过率: 6park.com


6park.com


6park.com

实验绘制了这两个量的 bootstrapped estimates(一种统计估计方法,通常用于评估参数估计的不确定性)。为了获得这些数值,本文首先为每个任务规范生成一个非常大的修复树,其中:有 N_p≥n_p 个初始程序样本;每个错误程序有 N_f≥n_f 个反馈字符串;并且每个反馈串有 N_r≥n_r 个修复候选。给定(n_p,n_f,n_r)的设置,然后从这个冻结的数据集中对 N_t 个不同的修复树进行子采样(带替换)。最后,本文计算了这 N_t 棵树上通过率和树大小的样本均值和标准差。如此估计 pass@t 大大降低了实验的计算成本,因为可以重用相同的初始数据集来计算 n_p、n_f 和 n_r 的所有不同选择的估计。 6park.com


6park.com

本文所有实验中,N_p=50,自修复方法中 n_p≤25,基线无修复方法中 n_p≤50。类似地,对于反馈,本文令 N_f=25 和 N_f≤10。对于候选修复,由于本文在大多数实验中对反馈和修复进行联合采样,因此本文设置 N_r=n_r=1。最后,本文对所有设置使用 N_t=1000。 6park.com


6park.com

实验 6park.com


6park.com

研究者针对以下问题进行了相关实验: 6park.com


6park.com

(a)在具有挑战性的编程难题的背景下,对于本文提出的模型,自修复是否比不修复的独立同分布采样更好?如果是,在什么超参数下自修复最有效? 6park.com


6park.com

(b) 更强的反馈模型会提高模型的修复性能吗? 6park.com


6park.com

(c) 即使是最强的模型,让人参与提供反馈会带来更好的修复性能吗? 6park.com


6park.com

本文使用 APPS 数据集评估了这些关于 Python 编程挑战的疑惑。 6park.com


6park.com

自修复需要强大的模型和多样化的初始样本 6park.com


6park.com

令 M_P=M_F∈,用于代码 / 修复生成和反馈生成的是同一个模型。GPT-3.5 的结果见图 3,GPT-4 的结果见图 4。 6park.com


6park.com


6park.com


6park.com

从图中可以看出,对于 GPT-3.5 模型,pass@t 在所有的 n_p、n_fr 选值中,都低于或等于相应基线(黑线),这清楚地表明自修复不是 GPT-3.5 的有效策略。另一方面,对于 GPT-4,有几个 n_p、n_fr 值,其自修复的通过率明显优于基线的通过率。例如,当 n_p=10,n_fr=3 时,通过率从 65% 增加到 70%,当 n_p=25,n_fr=1 时,通过率从 65% 增加至 71%。 6park.com


6park.com

GPT-4 的反馈改进了 GPT-3.5 自修复能力 6park.com


6park.com

接下来,本文进行了一个实验,在这个实验中,研究者评估了使用一个单独的、更强的模型来生成反馈的影响。这是为了检验一种假设:即模型无法内省和调试自己本身的代码,从而阻碍了自修复(尤其是 GPT-3.5)。 6park.com


6park.com

该实验的结果如图 5 所示(亮蓝线)。研究者观察到,就绝对性能而言,M_P=GPT-3.5,M_F=GPT-4 确实突破了性能障碍,变得比 GPT-3.5 的独立同分布采样效率略高。这表明反馈阶段至关重要,改进它可以缓解 GPT-3.5 自修复的瓶颈。 6park.com


6park.com


6park.com

人类反馈显著提高了 GPT-4 自修复的成功率 6park.com


6park.com

在本文的最后一个实验中,研究者考虑了在使用 GPT-4 等更强的模型进行修复时使用专业人类程序员的反馈的效果。这项研究的目的不是直接比较人在循环中的方法与自修复方法,因为人在循环方法会带来更多的认知负担,而本文没有对此进行研究。相反,本文的目标是了解模型识别代码中错误的能力与人类相比如何,以及这如何影响自修复的下游性能。因此,该研究对人类反馈对自修复的影响进行了定性和定量分析。 6park.com


6park.com

结果总结在表 1 中。我们首先注意到,当我们用人类参与者的调试取代 GPT-4 自己的调试时,总体成功率提高了 1.57 倍以上。也许不足为奇的是,随着问题变得越来越困难,相对差异也会增加,这表明当任务(和代码)变得更加复杂时,GPT-4 产生准确和有用反馈的能力远远落后于我们的人类参与者。 6park.com


6park.com


6park.com

此外,该研究还定性地分析了人类参与者提供的反馈与 GPT-4 提供的反馈之间的差异。 6park.com


6park.com

只有 2/80 个人贡献的反馈字符串包括伪代码或显式 Python;也就是说,获得的几乎所有人类反馈都是自然语言,偶尔穿插着单语句数学 / 代码表达式。 6park.com


6park.com

GPT-4 的反馈更可能明显不准确(32/80 与人类反馈的 7/80)。 6park.com


6park.com

GPT-4 更可能明确地建议小的变化(54/80 对 42/80;28/48 对 38/73,当看起来正确时),而我们的人类参与者显示出更大的趋势来建议高水平的变化(23/80 对 18/80,GPT-4;21/73 对 13/48,当看起来正确时)。 6park.com


6park.com

人类参与者有时会表达不确定性(7/80);GPT-4 没有(0/80)。 6park.com


6park.com

进一步的分析表明,表 1 中的结果不是由于人为因素造成的,例如参与者提供了模型简单复制的显式代码块。相反,性能的差异似乎是由更准确的反馈、在需要时建议对代码进行高级别、大规模更改的更大能力,以及参与者表达其不确定性的能力(而不是自信地给出潜在的不准确反馈)共同造成的。 6park.com


喜欢xiaochuliu朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ xiaochuliu的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回科技频道首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]