哥哥干 刚刚,OpenAI发布GPT-4.1

原标题:刚刚哥哥干,OpenAI发布GPT-4.1 起首:机器之心

今天凌晨,OpenAI 的新系列模子 GPT-4.1 如约而至。

该系列包含了三个模子,分袂是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,它们仅通过 API 调用,并已向统统建立者洞开。

跟着该系列模子在许多关节功能上提供了雷同或更强的性能,况且资本和延伸更低,因此 OpenAI 将启动在 API 中弃用 GPT-4.5 预览版。弃用时辰为三个月后(2025 年 7 月 14 日),从而为建立者提供时辰过渡。

OpenAI 示意,这三个模子的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程和指示征服方面均有显耀进步。它们还领有更大的高下文窗口 —— 补助高达 100 万个高下文 token,况且大要通过雠校的长高下文贯通更好地欺诈这些高下文。学问截止日历已更新至 2024 年 6 月。

总的来说,GPT-4.1 在以下行业门径计较上说明出色:

编程:GPT-4.1 在 SWE-bench Verified 测试中得分为 54.6%,比 GPT-4o 进步 21.4%,比 GPT-4.5 进步 26.6%,使其成为*的编程模子。

指示征服:在 Scale 的 MultiChallenge 基准测试(揣摸指示征服才调的计较)中,GPT-4.1 得分为 38.3%,比 GPT-4o 进步了 10.5%。

长高下文:在多模态长高下文贯通基准测试 Video-MME 中,GPT-4.1 创下了新的最高记载 —— 在长篇无字幕测试中得分为 72.0%,比 GPT-4o 进步了 6.7%。

天然基准测试得益相配可以,但 OpenAI 在磨真金不怕火这些模子时重心随和了施行遵守。通过与建立者社区的密切联结和伙伴关系,OpenAI 针对建立者应用最磋磨的任务优化来这些模子。

为此,GPT-4.1 模子系列以更低的资本提供了*的性能。这些模子在延伸弧线的每个点上都完结了性能的进步。

GPT-4.1 mini 在微型模子性能上完结了显耀飞跃,以致在多项基准测试中超越了 GPT-4o。该模子在智能评估方面与 GPT-4o 旗饱读相配以致超越,同期将延伸裁汰了近一半,资本裁汰了 83%。

对于条目低延伸的任务,GPT-4.1 nano 是 OpenAI 目下速率最快、资本*的模子。该模子领有 100 万 token 高下文窗口,在小范畴下仍能提供*的性能,在 MMLU 测试中得分达 80.1%、在 GPQA 测试中得分达 50.3%、在 Aider 多讲话编码测试中得分达 9.8%,以致高于 GPT-4o mini。该模子是分类或自动补全等任务的理思礼聘。

在指示征服可靠性和长高下文贯通方面的雠校,也使 GPT-4.1 模子在驱动智能体(即大要代表用户落寞完成任务的系统)方面愈加高效。王人集 Responses API 等原语,建立者目下可以构建在施行软件工程中更有用、更可靠的智能体,从大型文档中索要洞见,以最少的手动操作惩处客户肯求,以及履行其他复杂任务。

同期,通过进步推理系统的终局,OpenAI 得以裁汰 GPT-4.1 系列的价钱。GPT-4.1 的中等范畴查询资本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今为止*、速率最快的模子。

对于重叠传递换取高下文的查询,OpenAI 将新系列模子的即时缓存扣头从之前的 50% 进步至 75%。此外,除了门径的每 token 资本外,OpenAI 还提供长高下文肯求,况且无需非凡付费。

OpenAI CEO 山姆・奥特曼示意,GPT-4.1 不仅基准测试得益优异,况且专注信得过天下的实用性,应该会令建立者繁荣的。

看起来,OpenAI 完结了自家模子才调上的「4.10﹥4.5」。

编程

GPT-4.1 在多样编码任务上都显耀优于 GPT-4o,包括智能体惩处编码任务、前端编程、减少无关裁剪、可靠征服 diff 神志、确保器用使用一致性等任务。

在揣摸信得过天下软件工程妙技的 SWE-bench Verified 测试中,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o(2024-11-20)完成了 33.2%。这反应了该模子在探索代码库、完成任务以及生成可运行和通过测试的代码方面的才调进步。

对于需要裁剪大型文献的 API 建立者来说,GPT-4.1 在处理多样神志的代码 diff 时更可靠。在 Aider 的多讲话各异基准测试中,GPT-4.1 的得分是 GPT-4o 的两倍多,以致比 GPT-4.5 高出 8%。这项评估既揣摸了跨多种编程讲话的编码才调,也揣摸了模子在举座和 diff 神志下生成编削的才调。

OpenAI 成心磨真金不怕火了 GPT-4.1,使其大要更可靠地征服 diff 神志,这使得建立者只需输出编削的行,而无需重写统统这个词文献,简易资本和延伸。同期,对于心爱重写统统这个词文献的建立者,OpenAI 将 GPT-4.1 的输出 token 适度增多到 32,768 个 token(高于 GPT-4o 的 16,384 个 token)。OpenAI 还提议使用预计输出来减少圆善文献重写的延伸。

丝袜色情

GPT-4.1 在前端编程方面也较 GPT-4o 有了显耀进步,大要创立功能更巨大、更好意思不雅的 Web 应用。在 head-to-head 对比中,付费东谈主工评分员 80% 的评分终局涌现,GPT-4.1 的网站比 GPT-4o 的网站更受迎接。

除了上述基准测试除外,GPT-4.1 在征服神志方面说明更佳,可靠性更高,况且减少了无关裁剪的频率。在 OpenAI 里面评估中,代码中的无关裁剪从 GPT-4o 的 9% 下落到了 GPT-4.1 的 2%。

指示征服

GPT-4.1 大要更可靠地征服指示,并在多样指示征服评估中完结了显耀的雠校。OpenAI 建立了一个里面指示征服评估系统,用于追踪模子在多个维度和几个关节指示履行类别中的说明,包括:

神志征服。提供指示,指定模子响应的自界说神志,举例 XML、YAML、Markdown 等。

负面指示。指定模子应幸免的举止,举例:「不要条目用户磋磨补助东谈主员」。

有序指示。提供一组模子必须按给定法例征服的指示,举例:「最初计划用户的姓名,然后计划他们的电子邮件地址」。

内容条目。输出包含特定信息的内容,举例:「编写养分蓄意时,务必包含卵白质含量」。

排序。以特定形状对输出进行排序,举例:「按东谈主口数目对响应进行排序」。

过度自信。教学模子在肯求的信息不能用或肯求不属于给定类别时回答「我不知谈」或雷同的内容,举例:「要是您不知谈谜底,请提供补助磋磨电子邮件地址」。

这些类别是笔据建立者的反馈得出的,标明了哪些指示征服对他们来说最磋磨且最迫切。在每个类别中,OpenAI 将其分为浮浅、中等和贫困教导。GPT-4.1 在贫困教导方面的说明尤其优于 GPT-4o。

多轮指示征服对许多建立者来说至关迫切。对于模子来说,在对话中保握连贯性并追踪用户之前输入的内容至关迫切。GPT-4.1 大要更好地从对话中的过往音信中识别信息,从而完结了更天然的对话。Scale 的 MultiChallenge基准测试是揣摸这一才调的灵验计较,GPT-4.1 的说明比 GPT-4o 提高了 10.5%。

GPT-4.1 在 IFEval 上也得回了 87.4%,而 GPT-4o 的得分为 81.0%。IFEval 使用带有可考证指示的教导,举例指定内容长度或幸免使用某些术语或神志。

更佳的指示征服才调使现存应用法子愈加可靠,并补助此前受可靠性低下适度的新应用法子。早期测试东谈主员指出,GPT-4.1 可以愈加直不雅,因此 OpenAI 提议在教导中愈加明确和具体。

长高下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个高下文 token,而之前的 GPT-4o 模子最多可处理 12.8 万个。100 万个 token 相配于 8 个圆善的 React 代码库,因此长高下文相配妥贴处理大型代码库或多数长文档。

GPT-4.1 大要可靠地处理 100 万 token 高下文长度的信息,并在驻扎磋磨文本和忽略短长高下文干与项方面比 GPT-4o 愈加可靠。长高下文贯通是法律、编程、客户补助以及许多其他范畴应用的关节才调。

OpenAI 演示了 GPT-4.1 检索位于高下文窗口内各个点的荫藏小信息(needle)的才调。GPT-4.1 大要握续准确地检索统统位置和统统高下文长度的 needle,*检索量可达 100 万个 token。不管这些 token 在输入中的位置如何,GPT-4.1 都能灵验地索要与面前任务磋磨的细节。

然则,现实天下中很少有任务像检索一个不言而谕的「needle 」谜底那样浮浅。OpenAI 发现用户频繁需要模子检索和贯通多条信息,并贯通这些信息之间的互磋磨联。为了展示这一才调,OpenAI 开源了一项新的评估:OpenAI-MRCR(多轮共指)。

OpenAI-MRCR 测试模子识别并摒除高下文中荫藏的多个「needle 」的才调。评估包括用户和助手之间的多轮合成对话,用户条目援手撰写一篇对于某个主题的著述,举例「写一首对于貘的诗」或「写一篇对于岩石的博客著述」,接着会在统统这个词高下文中插入两个、四个或八个换取的肯求,临了模子必须检索与特定实例对应的响应(举例「给我第三首对于貘的诗」)。

挑战在于这些肯求与高下文其余部分的相似性,模子很容易被幽微的各异误导,举例对于貘的短篇故事而不是诗歌,或者对于青蛙的诗歌而不是貘。OpenAI 发现,GPT-4.1 在高下文长度高达 128K 个 token 时的说明优于 GPT-4o,况且即使长度高达 100 万个 token 时也能保握刚劲的性能。

OpenAI 还发布了 Graphwalks⁠,这是一个用于评估多跳长高下文推理的数据集。许多建立者在长高下文用例中需要在高下文中进行屡次逻辑越过,举例在编写代码时在多个文献之间跳转,或在回回应杂的法律问题时交叉援用文档。

表面上,模子(以致东谈主类)可以通过一遍遍阅读教导词来惩处 OpenAI-MRCR 问题,但 Graphwalks 的联想条目在高下文中的多个位置进行推理,况且无法按法例求解。

Graphwalks 会用由十六进制哈希值构成的有向图填充高下文窗口,然后条目模子从图中的当场节点启动履行广度优先搜索 (BFS)。然后条目它复返一定深度的统统节点。终局涌现,GPT-4.1 在此基准测试中达到了 61.7% 的准确率,与 o1 的性能相配,并纵容打败了 GPT-4o。

视觉

GPT-4.1 系列模子在图像贯通方面雷同相配巨大,尤其是 GPT-4.1 mini 完结了要紧的飞跃,在图像基准测试中频繁打败 GPT-4o。

以下为 MMMU(回答包含图表、图解、舆图等的问题)、MathVista⁠(惩处视觉数学问题)、CharXiv-Reasoning(回答科学论文中对于图表的问题)等基准上的说明对比。

长高下文性能对于多模态用例(举例处理长视频)也至关迫切。在 Video-MME(长视频无字幕)中,模子基于 30-60 分钟长的无字幕视频回答多项礼聘题。GPT-4.1 达到了*性能,得分为 72.0%,高于 GPT-4o 的 65.3%。

更多测试计较请参考 OpenAI 原博客。

博客地址:https://openai.com/index/gpt-4-1/哥哥干

【本文由投资界联结伴伴机器之心授权发布,本平台仅提供信息存储管事。】如有任何疑问,请磋磨(editor@zero2ipo.com.cn)投资界处理。

]article_adlist-->



Powered by 中文字幕 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024