
【导语】随着智能体应用场景的不断拓展,对大模型上下文窗口长度的需求日益提升。近日,国家超算互联网平台上线了由上海稀宇科技有限公司研发的超长文本多模态大模型MiniMax-01系列。该系列模型在“上下文长度”指标上达到国际领先水平,能够高效处理超长内(nèi)容(róng)。此(cǐ)次(cì)合(hé)作(zuò)不(bù)仅(jǐn)将(jiāng)激(jī)发(fā)更(gèng)多(duō)长(zhǎng)上下文技术的创新研究,还将推动国产人工智能技术加速发展。
随着越来越多的智能体(Agent)进入应用场景,无论是单个智能体工作时产生的记忆,还是多个智能体协作产生的上下文,都会对大模型的上下文窗口长度提出更高要求。澎湃科技4月15日获悉,国家超算互联网平台近日已上线超长文本多模态大模型,该模型由上海稀宇科技有限公司(以下简称“稀宇科技”)研发,分别为MiniMax-Text-01和MiniMax-VL-01。

SCNet超算互联网平台chat页面截图
国家超算互联网作为国家级算力服务平台(tái),于(yú)2024年(nián)4月(yuè)正(zhèng)式(shì)上(shàng)线(xiàn),今(jīn)年(nián)2月(yuè)启(qǐ)动(dòng)了(le)“AI生(shēng)态(tài)伙(huǒ)伴(bàn)加(jiā)速(sù)计(jì)划(huà)”,提(tí)供(gōng)3个(gè)月(yuè)DeepSeek API接(jiē)口(kǒu)免(miǎn)费(fèi)使(shǐ)用(yòng)、千(qiān)万(wàn)卡(kǎ)时(shí)算(suàn)力(lì)资(zī)源(yuán)池(chí)等(děng)激(jī)励(lì),并(bìng)通(tōng)过(guò)技(jì)术(shù)赋(fù)能(néng)、市(shì)场(chǎng)协(xié)同(tóng)、资(zī)源(yuán)扶(fú)持(chí)三(sān)位(wèi)一(yī)体(tǐ),加(jiā)速(sù)生(shēng)态(tài)伙(huǒ)伴(bàn)全面(miàn)发(fā)展(zhǎn)。
统(tǒng)计(jì)数(shù)据(jù)显(xiǎn)示(shì),自(zì)上(shàng)线(xiàn)一(yī)年(nián)以(yǐ)来(lái),国(guó)家(jiā)超(chāo)算(suàn)互(hù)联(lián)网(wǎng)平(píng)台(tái)总(zǒng)用(yòng)户(hù)量(liàng)已(yǐ)突(tū)破(pò)35万(wàn),连(lián)接(jiē)了(le)全国(guó)14个(gè)省(shěng)区(qū)市(shì)20多(duō)家(jiā)超(chāo)算(suàn)和(hé)智(zhì)算(suàn)中(zhōng)心(xīn),并(bìng)上(shàng)线(xiàn)算(suàn)力(lì)商(shāng)品(pǐn)超(chāo)6500款(kuǎn)。澎(pēng)湃(pài)科(kē)技(jì)注(zhù)意(yì)到(dào),其(qí)中(zhōng)AI模(mó)型(xíng)服(fú)务(wu)有(yǒu)近(jìn)240款(kuǎn),既(jì)有(yǒu)阿(ā)里(lǐ)通(tōng)义(yì)千(qiān)问(wèn)Qwen、DeepSeek等(děng)国(guó)内(nèi)开(kāi)源(yuán)模(mó)型(xíng),也(yě)有(yǒu)Llama、Stable Diffusion、Gemma等(děng)国(guó)外(wài)AI开(kāi)源(yuán)模(mó)型(xíng)。
稀(xī)宇(yǔ)科(kē)技(jì)认(rèn)为(wèi),该(gāi)公(gōng)司(sī)此(cǐ)次(cì)与(yǔ)国(guó)家(jiā)超(chāo)算(suàn)互联网平台的合作能激发更多关于长上下文技术的创新研究与实际应用。长上下文能力与多模态处理能力的提升,有助于智能体为各行业带来更丰富、高效的解决方案。
“放眼国内外的大模型,‘大脑’虽大,但‘记忆力’往往不够。”稀宇科技研发负责人表示,“如果让大模型理解一份长达1000页的法律合同、一部长篇小说或一个几十万行的源代码项目,并给出准确的摘要、发现潜在风险、提出结构化建议,大多数大模型都无法完成任务,因为它们连读完材料也做不到,更不用说音视频等多模态信息处理了。而MiniMax-01可以做到,因为它的上下文窗口约为700万字,相当于一下子读完中国四大文学名著和哈利波特全集。”
据了解,今年初发布并开源的新一代系列模型MiniMax-01首次将线性注意力机制扩展到商用模型级别,综合能力跻身全球第一梯队。特别是在“上下文长度”这个指标上,它达到了国内外一些顶尖模型的20—32 倍水平,推理时的上下文窗口能达到400万token(词元)。在架构上,MiniMax-Text-01几乎重构了训练和推理系统,模型的参数量高达4560亿,每次激活459亿。在注意力机制层面,它的80个注意力层有架构创新,使大模型在处理长输入时在确保处理效果的同时做到(dào)了(le)低(dī)延(yán)迟(chí)。这(zhè)意(yì)味(wèi)着(zhe)该(gāi)模(mó)型(xíng)不(bù)仅(jǐn)能(néng)一(yī)次(cì)性(xìng)完(wán)成(chéng)大(dà)量(liàng)文字(zì)的(de)分(fēn)析(xī),还(hái)能(néng)做(zuò)到(dào)真(zhēn)正(zhèng)理解并高效处理超长内容。
此次MiniMax加入国家超算互联网,将充分利用平台强大的算力资源、开放协作的生态体系以及广泛的开发者网络,稀宇科技认为,“此次合作不仅能够激发更多关于长上下文技术的创新研究与实际应用,推动Agent时代更快到来,也能通过开源形式进一步激励我们开展更深入、高质量的模型研发和创新工作。”未来,该公司还将继续以开源形式发布新版旗舰模型,并与国家超算互联网展开深入合作,共同推动国产人工智能技术加速发展。