
2月25日,由亚马逊支持的AI初创公司Anthropic推出首个混合推理模型Claude 3.7 Sonnet。它可以产生近乎即时的反应和对用户可见、可扩展的逐步思考。API用户还可以控制模型思考时间。
Anthropic表示,正如人类使用一个大脑进行快速反应和深度思考一样,推理应该是前沿模型的综合能力,而不是完全独立的模型。这种统一方法可以为用户创造无缝体验。Claude 3.7 Sonnet既是一个普通的大模型,也是一个推理模型,用户可以选择何时让模型在标准模式下回答,何时让模型在回答前思考更长时间。Anthropic联合创始人兼首席科学官贾里德·卡普兰(Jared Kaplan)表示:“我们想要一个连贯的人工智能,它可以帮助我们做任何事情。”
在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版。在扩展思维模式下,Claude 3.7 Sonnet在回答问题前会自我反思,数学、物理、指令遵循、编程等任务上的表现得到提高。
在标准模型和扩展思维模式下,Claude 3.7 Sonnet每百万输入token为3美元,每百万输出token为15美元,其中包括思考的token。当通过API使用Claude 3.7 Sonnet时,用户还可以控制思考的预算,在速度和成本上换取质量,例如用户可以要求Claude思考不超过多少个token。

Anthropic表示,扩展思维模式使模型在数学、物理、指令遵循、编程等任务方面获得提升。
Anthropic产品负责人、Instagram的联合创始人迈克·克里格(Mike Krieger)表示,这种混合方式可以简化聊天机器人流程,用户可以使用多种功能,而不需要考虑哪个是最好的选择。
Anthropic在开发推理模型时降低了对数学和计算机科学竞赛问题的优化程度,而是将优化的重点转移到现实世界任务上,这些任务更好地反映企业实际如何使用大模型。
Claude 3.7 Sonnet在编程和前端网络开发方面优化改进,并引入一个用于智能编程的命令行工具Claude Code。Claude Code可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到GitHub,并使用命令行工具,开发者可以直接将大量工程任务委托给Claude Code。
在早期测试中,Claude Code一次性完成了通常需要45分钟以上手动工作的任务,减少了开发时间和开销。Anthropic表示,在接下来的几周里计划(huà)根(gēn)据(jù)开(kāi)发(fā)者(zhě)的(de)使(shǐ)用(yòng)情(qíng)况(kuàng)继(jì)续(xù)改(gǎi)进(jìn),增(zēng)强(qiáng)工(gōng)具(jù)调(diào)用(yòng)的(de)可(kě)靠(kào)性(xìng)、增(zēng)加(jiā)对(duì)长(zhǎng)时(shí)间(jiān)运(yùn)行(xíng)命(mìng)令(lìng)的(de)支(zhī)持(chí)等(děng)。
“我(wǒ)们(men)使(shǐ)用(yòng)Claude Code的(de)目(mù)标(biāo)是(shì)更(gèng)好(hǎo)地(de)理(lǐ)解(jiě)开(kāi)发(fā)者(zhě)如(rú)何(hé)使(shǐ)用(yòng)Claude编(biān)程(chéng),为(wèi)未(wèi)来(lái)的(de)模(mó)型(xíng)改(gǎi)进(jìn)提(tí)供(gōng)信(xìn)息(xi)。”Anthropic表(biǎo)示(shì),Claude 3.7 Sonnet是(shì)该(gāi)企(qǐ)业(yè)迄(qì)今(jīn)最(zuì)好的(de)编(biān)程(chéng)模(mó)型(xíng),随(suí)着(zhe)对(duì)用(yòng)户(hù)工(gōng)作(zuò)和(hé)开(kāi)源(yuán)项(xiàng)目(mù)的(de)深(shēn)入(rù)了(le)解(jiě),它(tā)可(kě)以(yǐ)在(zài)GitHub项(xiàng)目(mù)中(zhōng)修(xiū)复(fù)bug(漏(lòu)洞(dòng))、开(kāi)发(fā)功(gōng)能(néng)和(hé)构(gòu)建(jiàn)文档(dàng)。
2月(yuè)以(yǐ)来(lái),大(dà)模(mó)型(xíng)竞(jìng)争(zhēng)态(tài)势(shì)愈发激(jī)烈(liè)。2月(yuè)18日(rì),特(tè)斯(sī)拉(lā)创(chuàng)始(shǐ)人(rén)埃(āi)隆(lóng)·马(mǎ)斯(sī)克(kè)旗(qí)下(xià)xAI推(tuī)出(chū)最(zuì)新(xīn)大(dà)模(mó)型(xíng)Grok 3。Grok 3和(hé)轻(qīng)量(liàng)化(huà)的(de)Grok 3 mini在(zài)多(duō)个(gè)性(xìng)能(néng)上(shàng)超(chāo)过(guò)或(huò)媲(pì)美(měi)Gemini、DeepSeek和(hé)GPT-4o等(děng)对手。Grok 3在xAI位于孟菲斯的Colossus超算中心进行训练。xAI透露,这一超算中心的算力已经翻倍,拥有的英伟达GPU数量达20万颗。
2月13日,OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交媒体上表示,下一个将发布的模型是OpenAI最后一个非思维链模型GPT-4.5,也被称为Orion(猎户座)模型。在那(nà)之(zhī)后(hòu),OpenAI的(de)最高目标是创建可以使用所有工具的系统来统一o系列模型和GPT系列模型,它能够知道什么时候应该长时间思考,并且通常适用(yòng)于(yú)广(guǎng)泛(fàn)任(rèn)务(wu)。OpenAI将(jiāng)发(fā)布(bù)GPT-5,GPT-5将(jiāng)成为一个集成o3模型(xíng)等(děng)OpenAI诸(zhū)多(duō)技(jì)术(shù)的(de)系(xì)统(tǒng)。“我(wǒ)们(men)希(xī)望(wàng)AI ‘只(zhǐ)为(wèi)你(nǐ)工(gōng)作(zuò)’,我(wǒ)们(men)意(yì)识(shi)到(dào)我(wǒ)们(men)的(de)模(mó)式(shì)和(hé)产(chǎn)品(pǐn)供(gōng)应(yīng)变(biàn)得(de)多(duō)么(me)复(fù)杂(zá)。我(wǒ)们(men)和(hé)你(nǐ)一(yī)样(yàng)讨(tǎo)厌(yàn)模(mó)型(xíng)选(xuǎn)择(zé)器(qì),希(xī)望(wàng)回(huí)归(guī)神(shén)奇(qí)的(de)统(tǒng)一(yī)智(zhì)能(néng)。”