
【导语】4月17日,火山引擎2025 FORCE LINK AI创新巡展杭州站活动中,字节跳动火山总裁谭待强调,当前Agent能力尚处初级,深度思考模型是实现高级Agent的关键。活动中,豆包1.5深度思考模型正式发布,展示其在视觉推理等复杂任务中的卓越表现,预示着AI Agent领域正加速迈向智能化新纪元。
“目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent,是行业发展的方向。”4月17日,在火山引擎2025 FORCE LINK AI创新巡展现场杭州站上,字节跳动旗下的火山总裁谭待在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示。
谭待认为,深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。

豆包1.5深度思考模型发布 记者 摄
当日,豆包1.5深度思(sī)考(kǎo)模(mó)型(xíng)正(zhèng)式(shì)发(fā)布(bù)。据(jù)介(jiè)绍(shào),这(zhè)款(kuǎn)模(mó)型(xíng)除(chú)了(le)在(zài)数(shù)学(xué)、编(biān)程(chéng)、科(kē)学(xué)推(tuī)理(lǐ)、创(chuàng)意(yì)写(xiě)作(zuò)等(děng)通(tōng)用(yòng)任(rèn)务(wu)表(biǎo)现(xiàn)突(tū)出(chū)之(zhī)外(wài),还(hái)上(shàng)线(xiàn)了(le)具(jù)备(bèi)视(shì)觉(jué)推(tuī)理(lǐ)能(néng)力(lì)的(de)深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)视(shì)觉(jué)版(bǎn),能(néng)像(xiàng)人(rén)类(lèi)一(yī)样(yàng)对(duì)看(kàn)到(dào)的(de)事(shì)物(wù)进(jìn)行(xíng)联(lián)想(xiǎng)和(hé)思(sī)考(kǎo)。
值(zhí)得(de)一(yī)提(tí)的(de)是(shì),就(jiù)在(zài)今(jīn)天(tiān)凌(líng)晨(chen),OpenAI也(yě)发(fā)布(bù)了(le)能(néng)够(gòu)进(jìn)行(xíng)视(shì)觉(jué)推(tuī)理(lǐ)的(de)推(tuī)理(lǐ)模(mó)型(xíng)o3。
在(zài)发(fā)布(bù)会(huì)现(xiàn)场(chǎng),谭(tán)待(dài)展(zhǎn)示(shì)了(le)豆(dòu)包(bāo)1.5深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)的(de)视(shì)觉(jué)推(tuī)理(lǐ)功(gōng)能(néng),不(bù)仅(jǐn)能(néng)够(gòu)根(gēn)据(jù)照(zhào)片(piàn)分(fēn)析(xī)地(de)貌(mào),还(hái)能(néng)在(zài)帮(bāng)助(zhù)用(yòng)户(hù)点(diǎn)餐(cān),还(hái)可(kě)以(yǐ)根(gēn)据(jù)家(jiā)庭(tíng)成(chéng)员(yuán)的(de)需(xū)求(qiú)推(tuī)荐(jiàn)露(lù)营(yíng)装(zhuāng)备(bèi),甚至也能协助制定旅行计划。在企业场景中,该模型可辅助完成项目管理流程图,优化工作流程,推动企业实现智能化运营。
2025年被业界视为“AI Agent智能体元年”,全球科技巨头如微软、谷歌、OpenAI等纷纷加速布局,推出具备自主决策和多任务处理能力的AI Agent产品,如微软发布了企业级AI助手Microsoft 365 Copilot Chat,谷歌升级了Gemini 2.0模型,OpenAI则在17日凌晨突然推出最新的o系列模型,o3和o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。
国内继中国初创公司Monica推出号称全球首款AI智能体产品Manus后,行业内也在等待下一个科技圈的爆款产品出现。

现场展示豆包1.5深度思考模型 记者 摄
面对行业内激烈的竞争,谭待在接受采访时直言,现在所谓的“Agent”,不能仅完成“写一首打油诗”或“写篇小学生作文”这样的简单任务。真正的Agent,需要能完成专业性较高、耗时较长、结构完整的任务,这是从定性角度来看。从技术实现的角度来看,如果没有运用深度思考模型,缺乏反思和规划能力,也很难称其为真正的Agent。
谈及市面上目前Agent的发展阶段,谭待以目前大家熟悉的自动驾驶领域来类比。自动驾驶技术根(gēn)据(jù)自(zì)动(dòng)化(huà)程(chéng)度(dù)的(de)不(bù)同(tóng)分(fēn)为(wèi)L0到(dào)L5六(liù)个(gè)级(jí)别(bié)。其(qí)中(zhōng),L0级(jí)、L1级(jí)、L2级(jí)都(dōu)只(zhǐ)能(néng)称(chēng)为(wèi)辅(fǔ)助(zhù)驾(jià)驶(shǐ)系(xì)统。谭待指出,2025年行业内和大众可能会对Agent的定义会更加清晰,行业内或许会像自动驾驶分级一样,对Agent进行分级,如Agent L1、L2、L3、L4 这类。“那些开发三四千个 Agent的企业,(Agent能力)可能仅相当于自动驾驶中的 L1 级别;而真正实现落地应用,至少应具备 L2++ 能力(注:L2部分自动驾驶范畴,但在技术和体验上比普通的L2更先进,接近甚至部分具备L3能力)”谭待表示。
澎湃科技注意到,在此次AI创新巡展现场杭州站上,火山引擎还推出了OS Agent解决方案。据悉,OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他Agent的操作。其中,豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合了在一起,为Agent的智能交互提供了更接近人类操作的模型基础。