火山总裁谭待：很多Agent的能力还停留在类似自动驾驶的L1阶段

17

2025-04

-17

【导语】4月17日，火山引擎2025 FORCE LINK AI创新巡展杭州站活动中，字节跳动火山总裁谭待强调，当前Agent能力尚处初级，深度思考模型是实现高级Agent的关键。活动中，豆包1.5深度思考模型正式发布，展示其在视觉推理等复杂任务中的卓越表现，预示着AI Agent领域正加速迈向智能化新纪元。

“目前很多Agent的能力仍停留在初级水平，真正实现具备更强反思、规划与自主决策能力的Agent，是行业发展的方向。”4月17日，在火山引擎2025 FORCE LINK AI创新巡展现场杭州站上，字节跳动旗下的火山总裁谭待在接受包括澎湃科技（www.thepaper.cn）在内的媒体采访时表示。

谭待认为，深度思考模型是构建Agent的基础，模型要有能力做好思考、计划和反思，并且一定要支持多模态，就像人类具备视觉和听觉一样，Agent才能更好地处理复杂任务。

豆包1.5深度思考模型发布记者摄

当日，豆包1.5深度思(sī)考(kǎo)模(mó)型(xíng)正(zhèng)式(shì)发(fā)布(bù)。据(jù)介(jiè)绍(shào)，这(zhè)款(kuǎn)模(mó)型(xíng)除(chú)了(le)在(zài)数(shù)学(xué)、编(biān)程(chéng)、科(kē)学(xué)推(tuī)理(lǐ)、创(chuàng)意(yì)写(xiě)作(zuò)等(děng)通(tōng)用(yòng)任(rèn)务(wu)表(biǎo)现(xiàn)突(tū)出(chū)之(zhī)外(wài)，还(hái)上(shàng)线(xiàn)了(le)具(jù)备(bèi)视(shì)觉(jué)推(tuī)理(lǐ)能(néng)力(lì)的(de)深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)视(shì)觉(jué)版(bǎn)，能(néng)像(xiàng)人(rén)类(lèi)一(yī)样(yàng)对(duì)看(kàn)到(dào)的(de)事(shì)物(wù)进(jìn)行(xíng)联(lián)想(xiǎng)和(hé)思(sī)考(kǎo)。

值(zhí)得(de)一(yī)提(tí)的(de)是(shì)，就(jiù)在(zài)今(jīn)天(tiān)凌(líng)晨(chen)，OpenAI也(yě)发(fā)布(bù)了(le)能(néng)够(gòu)进(jìn)行(xíng)视(shì)觉(jué)推(tuī)理(lǐ)的(de)推(tuī)理(lǐ)模(mó)型(xíng)o3。

在(zài)发(fā)布(bù)会(huì)现(xiàn)场(chǎng)，谭(tán)待(dài)展(zhǎn)示(shì)了(le)豆(dòu)包(bāo)1.5深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)的(de)视(shì)觉(jué)推(tuī)理(lǐ)功(gōng)能(néng)，不(bù)仅(jǐn)能(néng)够(gòu)根(gēn)据(jù)照(zhào)片(piàn)分(fēn)析(xī)地(de)貌(mào)，还(hái)能(néng)在(zài)帮(bāng)助(zhù)用(yòng)户(hù)点(diǎn)餐(cān)，还(hái)可(kě)以(yǐ)根(gēn)据(jù)家(jiā)庭(tíng)成(chéng)员(yuán)的(de)需(xū)求(qiú)推(tuī)荐(jiàn)露(lù)营(yíng)装(zhuāng)备(bèi)，甚至也能协助制定旅行计划。在企业场景中，该模型可辅助完成项目管理流程图，优化工作流程，推动企业实现智能化运营。

2025年被业界视为“AI Agent智能体元年”，全球科技巨头如微软、谷歌、OpenAI等纷纷加速布局，推出具备自主决策和多任务处理能力的AI Agent产品，如微软发布了企业级AI助手Microsoft 365 Copilot Chat，谷歌升级了Gemini 2.0模型，OpenAI则在17日凌晨突然推出最新的o系列模型，o3和o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具，包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。

国内继中国初创公司Monica推出号称全球首款AI智能体产品Manus后，行业内也在等待下一个科技圈的爆款产品出现。

现场展示豆包1.5深度思考模型记者摄

面对行业内激烈的竞争，谭待在接受采访时直言，现在所谓的“Agent”，不能仅完成“写一首打油诗”或“写篇小学生作文”这样的简单任务。真正的Agent，需要能完成专业性较高、耗时较长、结构完整的任务，这是从定性角度来看。从技术实现的角度来看，如果没有运用深度思考模型，缺乏反思和规划能力，也很难称其为真正的Agent。

谈及市面上目前Agent的发展阶段，谭待以目前大家熟悉的自动驾驶领域来类比。自动驾驶技术根(gēn)据(jù)自(zì)动(dòng)化(huà)程(chéng)度(dù)的(de)不(bù)同(tóng)分(fēn)为(wèi)L0到(dào)L5六(liù)个(gè)级(jí)别(bié)。其(qí)中(zhōng)，L0级(jí)、L1级(jí)、L2级(jí)都(dōu)只(zhǐ)能(néng)称(chēng)为(wèi)辅(fǔ)助(zhù)驾(jià)驶(shǐ)系(xì)统。谭待指出，2025年行业内和大众可能会对Agent的定义会更加清晰，行业内或许会像自动驾驶分级一样，对Agent进行分级，如Agent L1、L2、L3、L4 这类。“那些开发三四千个 Agent的企业，（Agent能力）可能仅相当于自动驾驶中的 L1 级别；而真正实现落地应用，至少应具备 L2++ 能力（注：L2部分自动驾驶范畴，但在技术和体验上比普通的L2更先进，接近甚至部分具备L3能力）”谭待表示。

澎湃科技注意到，在此次AI创新巡展现场杭州站上，火山引擎还推出了OS Agent解决方案。据悉，OS Agent解决方案包含豆包UI-TARS模型，以及veFaaS函数服务、云服务器、云手机等产品，实现对代码、浏览器、电脑、手机以及其他Agent的操作。其中，豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合了在一起，为Agent的智能交互提供了更接近人类操作的模型基础。

官方网站-首页

企业动态

火山总裁谭待：很多Agent的能力还停留在类似自动驾驶的L1阶段

17

2025-04

-17

返回列表

分享新闻

上一页

19岁癫痫患者植入脑机接口后，“脑控”玩上了“黑悟空”

下一页

今日科普|NBA比赛数据分析