

科技巨头Meta回应了对公司最新开源AI(人工智能)模型Llama 4的质疑,否认该模型在训练集中作弊“刷分”。
当地时间4月7日,Meta的生成式AI负责人Ahmad Al-Dahle在社交平台上发布了一篇长文,回应了对于Llama 4的质疑。Ahmad表示,由于Llama 4刚开发完就迅速发布,所以模型“在不同服务中表现出了参差不齐的质量”,公司会尽快修复漏洞。同时,Ahmad否认了Llama 4在训练集中作弊“刷分”的说法。
两天前,4月5日,Meta推出了旗下最受欢迎的模型系列Llama的最新一代模型,包括较小模型Scout和标准模型Maverick这两个版本。此外,Meta还展示了被称为“迄今最强大、最智能”的模型Llama 4 Behemoth的预览。
据介绍,Llama 4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型,在多模态性能上表现出众。其中,最先进的Llama 4 Behemoth的总参数高达2万亿,担当了其他模型的“老师”;Scout和Maverick的活跃参数量为170亿,Scout主要面向文档摘要与大型代码库推理任务,Maverick则专注于多模态能力。

Meta一次性介绍三款Llama 4模型。来源:Meta
作为原生多模态模型,Llama 4采用了早期融合(Early Fusion)的技术,通过使用大量无标签文本、图片和视频数据一起来预训练模型,将文本和视觉token无缝整合到统一的模型框架中。此外,Llama 4在长文本能力上也取得了突破,Scout模型支持高达1000万token的上下文窗口,Maverick模型则支持100万token的上下文窗口。
不过,Llama 4一经发布就遭到了(le)质(zhì)疑(yí)。Meta的(de)发(fā)布(bù)界(jiè)面(miàn)显(xiǎn)示(shì),在(zài)评(píng)估(gū)代(dài)码(mǎ)能(néng)力(lì)的(de)LiveCodeBench测(cè)试集和大模型竞技场(Chatbot Arena)中,Scout和Maverick都表现得很不错。但许多开发者发现,这些模型在小型基准测试中的表现令人失望。
例如,有网友指出,在一项让模型完成225项编程任务的名为aider polyglot的基准测试中,Llama 4 Maverick只取得了16%的成绩,远低于Gemini 2.5 Pro、Claude 3.7 Sonnet和DeepSeek -V3等规模相近的旧模型。

Llama 4 Maverick在小型测试集上成绩不如人意。来源:X平台
AI工程师和技术作家Andriy Burkov则在社交平台X上指出,Meta称Llama 4 Scout拥有1000万token的上下文窗口,而这其实是一个“伪命题(tí)”:“实(shí)际(jì)上(shàng),不(bù)会(huì)有(yǒu)任(rèn)何(hé)模(mó)型(xíng)针(zhēn)对(duì)超(chāo)过(guò)256000个(gè)token的(de)提(tí)示(shì)词进(jìn)行(xíng)训(xun)练(liàn)。如(rú)果(guǒ)你(nǐ)向它发送这么多token,在大多数时候只会得到低质量的输出。”
对于Llama 4令人失望的表现,一些开发者开始怀疑,为了在测试集中取得更好的成绩,Meta为这些测试集制作了“特供版”Llama 4。例如,前Meta研究员、现任AI2(艾伦人工智能研究所)的高级研究员Nathan Lambert在经过比较测试后指出,在大模型竞技场中取得成绩的Llama 4 Maverick与该公司公开发布的版本不同,前者是“在对话性上进行了优化”的版本。
此外,就在Llama 4发布的前几天,在Meta工作了8年的AI研究主管Joelle Pineau宣布离职。联系到Llama 4的表现,更加深了网友对于Llama 4“暗箱操作”的质疑。而在国内社交平台上,也有自称为Meta内部员工的网友称“Llama 4的训练存在严重问题”,自己已经向公司提交了离职申请,AI研究主管的离任也是出于同种原因。
这位网(wǎng)友(you)表(biǎo)示(shì):“经(jīng)过(guò)反(fǎn)复(fù)训(xun)练(liàn),其(qí)实(shí)内(nèi)部(bù)模(mó)型(xíng)的(de)表(biǎo)现(xiàn)依(yī)然(rán)未(wèi)能(néng)达(dá)到(dào)开(kāi)源(yuán)SOTA(指(zhǐ)在(zài)研(yán)究(jiū)任(rèn)务(wu)中(zhōng)表(biǎo)现(xiàn)最(zuì)好(hǎo)的(de)模(mó)型(xíng)),甚(shén)至(zhì)与(yǔ)之(zhī)相(xiāng)差(chà)甚(shén)远(yuǎn)。公(gōng)司(sī)领(lǐng)导(dǎo)层(céng)建(jiàn)议(yì)将(jiāng)各(gè)个(gè)benchmark(基(jī)准(zhǔn))的(de)测(cè)试(shì)集混(hùn)合(hé)在(zài)post-training(后(hòu)训(xun)练(liàn))过(guò)程(chéng)中,目的是希望能够在各项指标上交差,拿出一个‘看起来可以’的结果。”
可以肯定的是,Llama 4的初始发布并没有给AI社区带来巨大的积极反响。目前,面对进步迅速的(de)中(zhōng)国(guó)AI模(mó)型(xíng),Meta急(jí)于(yú)稳(wěn)住(zhù)Llama系(xì)列(liè)在(zài)开(kāi)源(yuán)领(lǐng)域的(de)领(lǐng)先(xiān)地(de)位(wèi)。今(jīn)年(nián)2月,阿里通义千问(Qwen)系列模型的下载量已经达到了1.8亿,累计衍生模型总数达到9万个,衍生模型数超越Meta的Llama系列,成为了全球第一大开源模型系列。
7日当天,Meta(Nasdaq:META)股价涨2.28%,收于(yú)每(měi)股(gǔ)516.25美(měi)元(yuán),总(zǒng)市(shì)值(zhí)1.31万(wàn)亿美元。