北京时间8月8日凌晨,人工智能(AI)领先企业OpenAI正式发布备受瞩目的新一代人工智能模型GPT-5。据介绍,GPT-5有诸多亮点,包括根据需求智能切换模型版本,可实现更低的幻觉率、更强的代码能力,且支持个性化设定等等。OpenAI称:GPT-5在准确性、速度、推理能力、背景信息识别、结构化思维和问题解决能力方面实现了重大突破,“这是我们迄今为止在编码和智能体任务方面表现最佳的模型”。
OpenAI称,GPT-5在关键编码基准测试中处于行业领先水平(SOTA),在SWE-bench Verified测试中得分74.9%,在Aider polyglot测试中得分88%。OpenAI称,通过训练,使GPT-5成为真正的编码协作伙伴。它擅长生成高质量代码并处理诸如修复漏洞、修改代码以及解答复杂代码库相关问题等任务。该模型具备可控性和协作性——它能够以极高精度执行非常详细的指令,并在工具调用前及期间提前解释其操作原因。OpenAI称,GPT-5在前端编码方面也表现出色,在内部测试中,其在70%的前端Web开发任务中表现优于OpenAI o3。
OpenAI称,与初创公司和企业的早期测试者合作,使用真实世界的编码任务对GPT-5进行了训练。GPT-5是公司迄今为止发布的最强大的编码模型。它在编码基准测试和实际应用场景中均优于OpenAI o3,并且经过专门优化,在Cursor、Windsurf和Codex CLI等智能体编码产品中表现尤为出色。
Cursor表示,GPT-5“具有显著的智能,易于操控,甚至拥有其他模型中不具备的人格特质”。Windsurf指出,GPT-5在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。
据介绍,GPT-5在持续型智能体任务中同样表现卓越。在两个月前刚发布的工具调用基准测试τ2-bench telecom中,以96.7%的成绩刷新了业界最优水平。在事实准确性基准测试LongFact和FActScore中,GPT-5的错误率仅为o3的五分之一。GPT-5改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。人工智能体公司Manus表示,GPT-5“在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。
据介绍,GPT-5的“幻觉”问题大幅改善,在HealthBench Hard Hallucinations测试中错误信息率仅为1.6%,远低于GPT-4o的15.8%。
OpenAI透露,将在API中发布GPT-5的三个版本——GPT-5、GPT-5-mini和GPT-5-nano,以赋予开发人员更多灵活性,在性能、成本和延迟之间进行权衡。GPT-5现已对所有ChatGPT用户开放,包括免费用户,付费用户(Plus、Pro、Team)可获得更高使用额度或无限使用。
就在不久前,OpenAI再次获得83亿美元融资,超额认购幅度达到了五倍之多,其估值已经增至3000亿美元。该公司ChatGPT产品的付费用户数已突破500万,“每周有7亿人使用ChatGPT”。