官方网站-首页官方网站-首页

月之暗面研究员透露:为了省钱,未能更早将“长思维链”作为高优选项

17

2025-02

-17

2月17日,人工智能初创公司月之暗面在其官方微信公众号分享了其前段时间刚刚发布的Kimi k1.5多模态思考模型诞生的过程。

月之暗面研究员透露:为了省钱,未能更早将“长思维链”作为高优选项

这款模型与DeepSeek-R1同(tóng)日(rì)发(fā)布(bù),但(dàn)由(yóu)于(yú)后(hòu)者(zhě)过(guò)于(yú)火(huǒ)爆(bào),使(shǐ)得(de)前(qián)者(zhě)的(de)发(fā)布(bù)消(xiāo)息(xi)几(jǐ)乎(hu)被(bèi)淹(yān)没(méi)。在(zài)热(rè)潮(cháo)日(rì)渐(jiàn)平(píng)静(jìng)之(zhī)际(jì),月(yuè)之(zhī)暗(àn)面(miàn)研(yán)究(jiū)员(yuán)Flood Sung在(zài)分(fēn)享(xiǎng)中(zhōng)透(tòu)露(lù),长(zhǎng)思(sī)维(wéi)链的有效性其实在一年(nián)多(duō)前(qián)就(jiù)已(yǐ)经知道了,但为了省钱,他们优先选择攻关长文本而不是长思维链(Long-CoT:Long Chain of Thought);在去年9月OpenAI o1推出后,月之暗面决定出手长思维链。

据月之暗面官方介(jiè)绍(shào),新(xīn)推(tuī)出(chū)的(de)k1.5多(duō)模(mó)态(tài)思(sī)考(kǎo)模(mó)型(xíng)实(shí)现(xiàn)了(le)SOTA(state-of-the-art,指(zhǐ)最(zuì)佳(jiā)技(jì)术(shù)或(huò)最(zuì)高(gāo)水(shuǐ)平(píng)模(mó)型(xíng))级(jí)别(bié)的(de)多(duō)模(mó)态(tài)推(tuī)理(lǐ)和(hé)通(tōng)用(yòng)推(tuī)理(lǐ)能(néng)力(lì)。在(zài)长(zhǎng)思(sī)维(wéi)链(liàn)模(mó)式(shì)下(xià),kimi K1.5的(de)数(shù)学(xué)、代码、多模态推理能力,也达到长思考SOTA模型OpenAI o1正式版水平。

“长思维链的有效性其实在一年多前就已经知道了,月之暗面Kimi联合创始人Tim周昕宇很早就验证过,使用很(hěn)小(xiǎo)的(de)模(mó)型(xíng),训(xun)练(liàn)模(mó)型(xíng)做(zuò)几(jǐ)十(shí)位(wèi)的(de)加(jiā)减(jiǎn)乘(chéng)除(chú)运(yùn)算(suàn),将(jiāng)细(xì)粒(lì)度(dù)的(de)运(yùn)算(suàn)过(guò)程(chéng)合(hé)成(chéng)出(chū)来(lái)变(biàn)成(chéng)很(hěn)长(zhǎng)的(de)思(sī)维(wéi)链(liàn)数(shù)据(jù)做(zuò)监(jiān)督(dū)微调(Supervised Fine-Tuning),就可以获得非常好的效果。我依然记得当时看到那个效果的震撼。”Flood Sung表示。

Flood Sung称,他们意识到长上下文的重要性,但优先考虑把文本搞长,对长思维链这件事情不够重视。“主要还是考虑了成本问题”,他表示,长上下文主要做的是长文本输入,有预填充,有Mooncake(Kimi底层的推理平台,已逐步开源)加(jiā)持(chí),成(chéng)本速度可控,而长思维链是长文本输出,成本高很多,速度也要慢很多。在这种情况下,把输出搞长就没有成为一个高优选项。

长思维链技术(shù)路线(xiàn)是(shì)一种基于思维链(Chain-of-Thought, CoT)的推理增强技术,旨在通过生成更长的推理链来提升大型语言模型(LLM)在复杂推理任务中的性能。与传统的短推理链(Short CoT)相(xiāng)比(bǐ),长(zhǎng)思(sī)维链能够处理更复杂的任务,因为它允许模型在生成最终答案之前进行更深入的思考。

OpenAI o1模型验证了长思维链在数学和编码等推理任务中的有效性。在长思考(long thought)的帮助下,大语言模型(LLM )倾向于探索、反思和自我改进推理过程,以获得更准确的答案。

“OpenAI o1发布,震撼,效果爆炸,Long-CoT的有效让我陷入反思。”

但还有什么比性能更重要呢?Flood Sung认为,成本和速度有摩尔定律加持,可以不断下降,只要把性能搞上去,剩下的都不是主要问题。“所以,我们得搞长思维链,搞o1。”

他还提到在实际训练的过程中有了重要的发现:模型会随着训练提升性能也不断增加token数,也就是这是RL(强化学习)训练过程中模型可以自己涌现的,“这个和友商 Deepseek的发现几乎是一样的。”

Flood Sung称,AGI(Artificial General Intelligence,通用人工智能)确实就是近在眼前的事情,如今他重新开始思考ASL(Artificial Super Intelligence,超级人工智能)。对于做强化学习(RL)的人来说,从来都不会把实现AGI作为目标,现在给AI一个可衡量的目标,然后让AI自己去(qù)探(tàn)索(suǒ),通(tōng)过(guò)强(qiáng)化(huà)学(xué)习(xí)来(lái)提(tí)升(shēng)模(mó)型(xíng),未(wèi)来(lái)不(bù)过(guò)是(shì)把(bǎ)这(zhè)一(yī)过(guò)程(chéng)不(bù)断(duàn)地(de)复(fù)制(zhì)到(dào)更(gèng)复(fù)杂(zá)的(de)场(chǎng)景中去。

分享新闻