解读｜远未达到AGI但是一款好产品的GPT-5，或成为OpenAI的利润引擎

09

2025-08

-09

【导语】GPT-5震撼发布：智能升级，商业潜力巨大GPT-5，作为OpenAI最新的旗舰模型，终于惊艳亮相。这款被标榜为“最聪明、最智能”的AI，不仅在幻觉减少、指令遵循改善上取得显著进步，还在视觉推理、智能编程、科学问题解决等多项能力上展现出了卓越性能。商业层面上，GPT-5更像一台强大的利润引擎，备受瞩目。本文将深入探讨GPT-5的技术革新、商业应用及未来展望。

GPT-5终于现身了，这款被OpenAI称为目前“最聪明、最智能”的新旗舰模型减少了幻觉、改善了指令遵循，在视觉推理、智能编程、研究生级科学问题解决等多项能力上，仅需使用OpenAI o3模型50%-80%的输出token，就能实现更优表现。

数字经济学者刘兴亮8日在接受澎湃科技采访时表示，从“选模型”到“模型会选自己”，GPT-5形态进化，OpenAI正聚焦“少折腾菜单，多交付结果”。GPT-5写代码更少废话、走流程更少走神，但在写作质感和AGI跨度上并没有达到他的想象，可以先将其当成“超级实习生”。商业层面上，GPT-5更像一台利润引擎，铺开给全体用户，押注企业用量放大。

快思慢想研究院院长、原商汤智能产业研究院创始院长田丰则表示，GPT-5专业推理能力更强，幻觉更少，但远未达到AGI，其通用泛化能力不足，多模态能力也并未形成巨大的领先优势。总体来看，GPT-5并未像GPT-3或GPT-3.5那样对人们形成巨大冲击，而是沿着现有方向进一步提升推理能力。不过，GPT-5和GPT-4的最大区别是产品越做越好，新模型将更多承担营收任务。

自动决定“快答”还是“深想”

GPT-5采用一体化系统设计，其中，智能高效的基础模型可以处理大多数问题，深度推理模型GPT-5 Thinking专攻复杂难题，实时路由系统能根据对话类型、问题复杂度、工具需求及用户明确指令，快速决定调用哪个模型。也就是说，GPT-5懂得何时快速响应，何时深入思考以提供专业级答案。

GPT-5的回答速度更快，在基准测试中超越前代模型，在编程、数学、写作、健康、视觉感知等领域达到先进性能。在数学方面，无需工具的情况下，GPT-5在2025年AIME竞赛数学测试中得分94.6%。

GPT-5在AIME竞赛数学中的性能表现。

GPT-5在MMMU（多模态推理评估）中达到84.2%。在真实世界编程方面，GPT-5在SWE-bench Verified测试中得分74.9%，在Aider Polyglot测试中得分88%。而OpenAI o3在SWE-bench Verified测试中得分为69.1%，GPT-4o为30.8%。

在编程能力方面，GPT-5在SWE-bench Verified测试中得分74.9%。

借助GPT-5 Pro的扩展推理能力，它还在GPQA（研究生级别专家推理）测试中创下新纪录，无需工具即可达到88.4%的得分。

HealthBench是OpenAI今年早些时候发布的基于真实场景和医生定义的评估标准。在HealthBench评估中，GPT-5得分显著高于所有前代模型，得分为46.2%，是OpenAI目前最擅长处理健康相关问题的模型。它会主动提出潜在问题，通过提问来提供更有帮助的答案。但它无法替代医疗专业人员，而是可以将其视为一个辅助伙伴，例如帮助用户理解检查结果、在与医生沟通时提出恰当的问题、在做决策时权衡各种选项。

尽管GPT-5的专业推理能力更强了，但田丰表示，这并不意味着它可以快速迁移到开放型任务链条上，GPT-5的泛化推理能力仍有待加强，多模态推理能力也没有形成领先优势。

减少幻觉、改善指令遵循、诚实回答

OpenAI表示，团队在减少幻觉、改善指令遵循和减少奉承方面取得进展。在测试中，GPT-5回应出现事实错误的概率比GPT-4o低约45%；在启用思考功能时，其事实错误率比OpenAI o3低约80%。

在训练过程中，推理模型通常可能会谎报任务完成情况，或对不确定的答案表现得过于自信。但启用思考功能的GPT-5能更诚实地向用户说明自身的行动与能力范围，尤其针对那些不可能完成、描述不充分或缺乏关键工具支持的任务。

为测试这一点，OpenAI从多模态基准测试测试CharXiv的提示词中移除了所有图像，结果发现OpenAI o3仍有86.7%的概率对不存在的图像给出自信回答，而GPT-5的这一比例仅为9%。因此，在推理过程(chéng)中(zhōng)，GPT-5能(néng)更(gèng)准(zhǔn)确(què)地(de)识(shi)别(bié)任(rèn)务(wu)何(hé)时(shí)无(wú)法(fǎ)完(wán)成(chéng)，并(bìng)清(qīng)晰(xī)说(shuō)明(míng)自(zì)身(shēn)局(jú)限(xiàn)，回(huí)答(dá)更(gèng)诚(chéng)实(shí)。

GPT-5在(zài)指(zhǐ)令(lìng)遵(zūn)循和智能体工具运用的基准测试中性能优异，能执行多步骤任务、协调不同工具并适应语境变化。在实际应用中，它能更好地处理复杂且动态变化的任务。

GPT-5在复杂前端生成和大型代码库调试方面的性能突出，仅凭提示就创建出美观且响应迅速的网站、APP和游戏。

GPT-5创建的游戏。提示词包括界面色彩丰富并带有视差滚动背景；角色采用卡通风格，看起来生动有趣；目标是跳过障碍物，尽可能长时间地存活。

GPT‑5能帮助用户梳理模糊想法，将其转化为富有感染力的文字，更好地协助用户起草和编辑报告、邮件、备忘录等。在自由形式写作中的指令遵循能力测试中，GPT‑5得分99%。

GPT‑5在自由形式写作中的指令遵循能力测试中的表现。

追求更成熟的工程化产品

目前，GPT-5面向所有用户开放，Plus订阅用户可获得更多使用额度，Pro订阅用户则能访问GPT-5 Pro 版本，该版本具备扩展推理能力，可提供更全面精准的回答。

刘兴亮表示，此次GPT-5直接变成ChatGPT默认款，会根据任务自动决定“快答”还是“深想”，也能手动切到“GPT-5 Thinking/Pro”实现更长推理。GPT-5面向所有用户开放，付费用(yòng)户(hù)只(zhǐ)是(shì)额(é)度(dù)更(gèng)高(gāo)，同(tóng)时(shí)上(shàng)线(xiàn)语(yǔ)音(yīn)升(shēng)级(jí)、学(xué)习(xí)模(mó)式(shì)，以(yǐ)及(jí)接(jiē)入(rù)了(le)Gmail、日(rì)历(lì)等(děng)“生(shēng)活(huó)插(chā)件(jiàn)”，总(zǒng)体(tǐ)来(lái)看(kàn)就(jiù)是(shì)少(shǎo)折(zhé)腾(téng)“菜(cài)单(dān)”，多(duō)交(jiāo)付(fù)结果。商业层面上，GPT-5更像一台利润引擎，铺开给全体用户，押注企业用量放大。

“大家需要的是一个专业化的产品，并不是一个聊天搭子。”田丰表示，OpenAI正朝着典型的产品型公司发展，GPT-5和GPT-4的最大区别是产品越做越好，而医疗、编程等领域对AI产品的要求就是严谨。“OpenAI非常明确，它并不是在科研领域追求AGI，而是在产品领域追求一(yī)个更成熟的工程化产品。这和谷歌DeepMind的路完全不一样。”

田丰表示，未来新模型将更多承担营收任务。尽管B端行业是OpenAI的营收重点，但OpenAI期望在C端产品层面打造出AI原生应用的爆款工具，“To C的估值显然要比To B大很多。”

在GPT-5发布前，OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b，可在高端笔记本和手机上运行。田丰表示，OpenAI的目标一直是在闭源模型领域做到最强，最近的开源是一个“别扭”的举动。OpenAI并未将最强大的基础(chǔ)模(mó)型(xíng)开(kāi)源(yuán)，而(ér)是(shì)开(kāi)源(yuán)出(chū)端(duān)侧(cè)小(xiǎo)模(mó)型(xíng)，这(zhè)并(bìng)不(bù)能(néng)支(zhī)撑(chēng)起(qǐ)开(kāi)源(yuán)大(dà)生(shēng)态(tài)，开(kāi)发(fā)者(zhě)无(wú)法(fǎ)大(dà)范(fàn)围(wéi)二(èr)次(cì)开(kāi)发(fā)。

官方网站-首页

企业动态

解读｜远未达到AGI但是一款好产品的GPT-5，或成为OpenAI的利润引擎

09

2025-08

-09

返回列表

分享新闻

上一页

SPSS数据分析应用技巧

下一页

数据分析师考证指南