哥哥干刚刚，OpenAI发布GPT-4.1

发布日期：2025-04-16 19:58 点击次数：98

原标题：刚刚哥哥干，OpenAI发布GPT-4.1 起首：机器之心

今天凌晨，OpenAI 的新系列模子 GPT-4.1 如约而至。

该系列包含了三个模子，分袂是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，它们仅通过 API 调用，并已向统统建立者洞开。

跟着该系列模子在许多关节功能上提供了雷同或更强的性能，况且资本和延伸更低，因此 OpenAI 将启动在 API 中弃用 GPT-4.5 预览版。弃用时辰为三个月后（2025 年 7 月 14 日），从而为建立者提供时辰过渡。

OpenAI 示意，这三个模子的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程和指示征服方面均有显耀进步。它们还领有更大的高下文窗口 —— 补助高达 100 万个高下文 token，况且大要通过雠校的长高下文贯通更好地欺诈这些高下文。学问截止日历已更新至 2024 年 6 月。

总的来说，GPT-4.1 在以下行业门径计较上说明出色：

编程：GPT-4.1 在 SWE-bench Verified 测试中得分为 54.6%，比 GPT-4o 进步 21.4%，比 GPT-4.5 进步 26.6%，使其成为*的编程模子。

指示征服：在 Scale 的 MultiChallenge 基准测试（揣摸指示征服才调的计较）中，GPT-4.1 得分为 38.3%，比 GPT-4o 进步了 10.5%。

长高下文：在多模态长高下文贯通基准测试 Video-MME 中，GPT-4.1 创下了新的最高记载 —— 在长篇无字幕测试中得分为 72.0%，比 GPT-4o 进步了 6.7%。

天然基准测试得益相配可以，但 OpenAI 在磨真金不怕火这些模子时重心随和了施行遵守。通过与建立者社区的密切联结和伙伴关系，OpenAI 针对建立者应用最磋磨的任务优化来这些模子。

为此，GPT-4.1 模子系列以更低的资本提供了*的性能。这些模子在延伸弧线的每个点上都完结了性能的进步。

GPT-4.1 mini 在微型模子性能上完结了显耀飞跃，以致在多项基准测试中超越了 GPT-4o。该模子在智能评估方面与 GPT-4o 旗饱读相配以致超越，同期将延伸裁汰了近一半，资本裁汰了 83%。

对于条目低延伸的任务，GPT-4.1 nano 是 OpenAI 目下速率最快、资本*的模子。该模子领有 100 万 token 高下文窗口，在小范畴下仍能提供*的性能，在 MMLU 测试中得分达 80.1%、在 GPQA 测试中得分达 50.3%、在 Aider 多讲话编码测试中得分达 9.8%，以致高于 GPT-4o mini。该模子是分类或自动补全等任务的理思礼聘。

在指示征服可靠性和长高下文贯通方面的雠校，也使 GPT-4.1 模子在驱动智能体（即大要代表用户落寞完成任务的系统）方面愈加高效。王人集 Responses API 等原语，建立者目下可以构建在施行软件工程中更有用、更可靠的智能体，从大型文档中索要洞见，以最少的手动操作惩处客户肯求，以及履行其他复杂任务。

同期，通过进步推理系统的终局，OpenAI 得以裁汰 GPT-4.1 系列的价钱。GPT-4.1 的中等范畴查询资本比 GPT-4o 低 26%，而 GPT-4.1 nano 是 OpenAI 迄今为止*、速率最快的模子。

对于重叠传递换取高下文的查询，OpenAI 将新系列模子的即时缓存扣头从之前的 50% 进步至 75%。此外，除了门径的每 token 资本外，OpenAI 还提供长高下文肯求，况且无需非凡付费。

OpenAI CEO 山姆・奥特曼示意，GPT-4.1 不仅基准测试得益优异，况且专注信得过天下的实用性，应该会令建立者繁荣的。

看起来，OpenAI 完结了自家模子才调上的「4.10﹥4.5」。

编程

GPT-4.1 在多样编码任务上都显耀优于 GPT-4o，包括智能体惩处编码任务、前端编程、减少无关裁剪、可靠征服 diff 神志、确保器用使用一致性等任务。

在揣摸信得过天下软件工程妙技的 SWE-bench Verified 测试中，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o（2024-11-20）完成了 33.2%。这反应了该模子在探索代码库、完成任务以及生成可运行和通过测试的代码方面的才调进步。

对于需要裁剪大型文献的 API 建立者来说，GPT-4.1 在处理多样神志的代码 diff 时更可靠。在 Aider 的多讲话各异基准测试中，GPT-4.1 的得分是 GPT-4o 的两倍多，以致比 GPT-4.5 高出 8%。这项评估既揣摸了跨多种编程讲话的编码才调，也揣摸了模子在举座和 diff 神志下生成编削的才调。

OpenAI 成心磨真金不怕火了 GPT-4.1，使其大要更可靠地征服 diff 神志，这使得建立者只需输出编削的行，而无需重写统统这个词文献，简易资本和延伸。同期，对于心爱重写统统这个词文献的建立者，OpenAI 将 GPT-4.1 的输出 token 适度增多到 32，768 个 token（高于 GPT-4o 的 16，384 个 token）。OpenAI 还提议使用预计输出来减少圆善文献重写的延伸。

丝袜色情

GPT-4.1 在前端编程方面也较 GPT-4o 有了显耀进步，大要创立功能更巨大、更好意思不雅的 Web 应用。在 head-to-head 对比中，付费东谈主工评分员 80% 的评分终局涌现，GPT-4.1 的网站比 GPT-4o 的网站更受迎接。

除了上述基准测试除外，GPT-4.1 在征服神志方面说明更佳，可靠性更高，况且减少了无关裁剪的频率。在 OpenAI 里面评估中，代码中的无关裁剪从 GPT-4o 的 9% 下落到了 GPT-4.1 的 2%。

指示征服

GPT-4.1 大要更可靠地征服指示，并在多样指示征服评估中完结了显耀的雠校。OpenAI 建立了一个里面指示征服评估系统，用于追踪模子在多个维度和几个关节指示履行类别中的说明，包括：

神志征服。提供指示，指定模子响应的自界说神志，举例 XML、YAML、Markdown 等。

负面指示。指定模子应幸免的举止，举例：「不要条目用户磋磨补助东谈主员」。

有序指示。提供一组模子必须按给定法例征服的指示，举例：「最初计划用户的姓名，然后计划他们的电子邮件地址」。

内容条目。输出包含特定信息的内容，举例：「编写养分蓄意时，务必包含卵白质含量」。

排序。以特定形状对输出进行排序，举例：「按东谈主口数目对响应进行排序」。

过度自信。教学模子在肯求的信息不能用或肯求不属于给定类别时回答「我不知谈」或雷同的内容，举例：「要是您不知谈谜底，请提供补助磋磨电子邮件地址」。

这些类别是笔据建立者的反馈得出的，标明了哪些指示征服对他们来说最磋磨且最迫切。在每个类别中，OpenAI 将其分为浮浅、中等和贫困教导。GPT-4.1 在贫困教导方面的说明尤其优于 GPT-4o。

多轮指示征服对许多建立者来说至关迫切。对于模子来说，在对话中保握连贯性并追踪用户之前输入的内容至关迫切。GPT-4.1 大要更好地从对话中的过往音信中识别信息，从而完结了更天然的对话。Scale 的 MultiChallenge基准测试是揣摸这一才调的灵验计较，GPT-4.1 的说明比 GPT-4o 提高了 10.5%。

GPT-4.1 在 IFEval 上也得回了 87.4%，而 GPT-4o 的得分为 81.0%。IFEval 使用带有可考证指示的教导，举例指定内容长度或幸免使用某些术语或神志。

更佳的指示征服才调使现存应用法子愈加可靠，并补助此前受可靠性低下适度的新应用法子。早期测试东谈主员指出，GPT-4.1 可以愈加直不雅，因此 OpenAI 提议在教导中愈加明确和具体。

长高下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个高下文 token，而之前的 GPT-4o 模子最多可处理 12.8 万个。100 万个 token 相配于 8 个圆善的 React 代码库，因此长高下文相配妥贴处理大型代码库或多数长文档。

GPT-4.1 大要可靠地处理 100 万 token 高下文长度的信息，并在驻扎磋磨文本和忽略短长高下文干与项方面比 GPT-4o 愈加可靠。长高下文贯通是法律、编程、客户补助以及许多其他范畴应用的关节才调。

OpenAI 演示了 GPT-4.1 检索位于高下文窗口内各个点的荫藏小信息（needle）的才调。GPT-4.1 大要握续准确地检索统统位置和统统高下文长度的 needle，*检索量可达 100 万个 token。不管这些 token 在输入中的位置如何，GPT-4.1 都能灵验地索要与面前任务磋磨的细节。

然则，现实天下中很少有任务像检索一个不言而谕的「needle 」谜底那样浮浅。OpenAI 发现用户频繁需要模子检索和贯通多条信息，并贯通这些信息之间的互磋磨联。为了展示这一才调，OpenAI 开源了一项新的评估：OpenAI-MRCR（多轮共指）。

OpenAI-MRCR 测试模子识别并摒除高下文中荫藏的多个「needle 」的才调。评估包括用户和助手之间的多轮合成对话，用户条目援手撰写一篇对于某个主题的著述，举例「写一首对于貘的诗」或「写一篇对于岩石的博客著述」，接着会在统统这个词高下文中插入两个、四个或八个换取的肯求，临了模子必须检索与特定实例对应的响应（举例「给我第三首对于貘的诗」）。

挑战在于这些肯求与高下文其余部分的相似性，模子很容易被幽微的各异误导，举例对于貘的短篇故事而不是诗歌，或者对于青蛙的诗歌而不是貘。OpenAI 发现，GPT-4.1 在高下文长度高达 128K 个 token 时的说明优于 GPT-4o，况且即使长度高达 100 万个 token 时也能保握刚劲的性能。

OpenAI 还发布了 Graphwalks⁠，这是一个用于评估多跳长高下文推理的数据集。许多建立者在长高下文用例中需要在高下文中进行屡次逻辑越过，举例在编写代码时在多个文献之间跳转，或在回回应杂的法律问题时交叉援用文档。

表面上，模子（以致东谈主类）可以通过一遍遍阅读教导词来惩处 OpenAI-MRCR 问题，但 Graphwalks 的联想条目在高下文中的多个位置进行推理，况且无法按法例求解。

Graphwalks 会用由十六进制哈希值构成的有向图填充高下文窗口，然后条目模子从图中的当场节点启动履行广度优先搜索 (BFS)。然后条目它复返一定深度的统统节点。终局涌现，GPT-4.1 在此基准测试中达到了 61.7% 的准确率，与 o1 的性能相配，并纵容打败了 GPT-4o。

视觉

GPT-4.1 系列模子在图像贯通方面雷同相配巨大，尤其是 GPT-4.1 mini 完结了要紧的飞跃，在图像基准测试中频繁打败 GPT-4o。

以下为 MMMU（回答包含图表、图解、舆图等的问题）、MathVista⁠（惩处视觉数学问题）、CharXiv-Reasoning（回答科学论文中对于图表的问题）等基准上的说明对比。

长高下文性能对于多模态用例（举例处理长视频）也至关迫切。在 Video-MME（长视频无字幕）中，模子基于 30-60 分钟长的无字幕视频回答多项礼聘题。GPT-4.1 达到了*性能，得分为 72.0%，高于 GPT-4o 的 65.3%。

更多测试计较请参考 OpenAI 原博客。

博客地址：https://openai.com/index/gpt-4-1/哥哥干

【本文由投资界联结伴伴机器之心授权发布，本平台仅提供信息存储管事。】如有任何疑问，请磋磨（editor@zero2ipo.com.cn）投资界处理。

]article_adlist-->

哥哥干刚刚，OpenAI发布GPT-4.1

上一篇：杨超越 ai换脸澄天大业跌0.82%，成交额3767.99万元，近3日主力净流入700.04万

下一篇：偷拍自拍改换路越走越宽盛开门越敞越大

热点资讯

相关资讯

哥哥干 刚刚，OpenAI发布GPT-4.1

上一篇：杨超越 ai换脸 澄天大业跌0.82%，成交额3767.99万元，近3日主力净流入700.04万 下一篇：偷拍 自拍 改换路越走越宽 盛开门越敞越大

热点资讯

相关资讯

哥哥干刚刚，OpenAI发布GPT-4.1

上一篇：杨超越 ai换脸澄天大业跌0.82%，成交额3767.99万元，近3日主力净流入700.04万

下一篇：偷拍自拍改换路越走越宽盛开门越敞越大