
【导语】近日,第21届全国高性能计算学术大会在内蒙古鄂尔多斯召开。会上,中国工程院院士、中国计算机学会理事长孙凝晖发表了题为《AI(人工智能)赋能科学发现》的报告。孙凝晖指出,AI赋能科学发现已成为科研新范式,标志着科研范式的重大改变。他深入剖析了这一新范式如何助力科学家突破认知极限,并展望了未来算力、数据及模型的发展趋势。随着AI技术的不断演进,崭新的“AI赋能科学发现”方法论和学术生态正在逐步形成。

近日,由中国计算机学会主办的第21届全国高性能计算学术大会在内蒙古鄂尔多斯召开。大会上,中国工(gōng)程(chéng)院(yuàn)院(yuàn)士(shì)、中(zhōng)国(guó)计(jì)算(suàn)机(jī)学(xué)会(huì)理(lǐ)事(shì)长(zhǎng)孙(sūn)凝(níng)晖(huī)在(zài)题(tí)为(wèi)《AI(人(rén)工(gōng)智(zhì)能(néng))赋(fù)能(néng)科(kē)学(xué)发(fā)现(xiàn)》报(bào)告(gào)中(zhōng),分(fēn)享(xiǎng)了(le)对(duì)这(zhè)一(yī)备(bèi)受(shòu)关注话题的思考。
“第五范式”登上历史舞台
孙凝晖首先谈到,“科学智能”是AI for Science,即“AI赋能科学发现”。这一研究范式的出现,始于AlphaFold在蛋白质结构预测上的突破。2020年,AlphaFold在CASP14大赛中成功预测了2/3的目标蛋白结构,开启了基于AI预测蛋白、核酸等分子结构的历史进程。
2024年诺贝尔物理学奖和化学奖授予AI基础理论和科学发现领域的科学家,展现了对AI的“偏爱”。孙凝晖认为(wèi),这(zhè)标(biāo)志(zhì)着(zhe)国(guó)际(jì)学(xué)术(shù)界(jiè)公(gōng)认(rèn)AI技(jì)术(shù)已(yǐ)进(jìn)入(rù)科(kē)学(xué)领(lǐng)域,“代(dài)表(biǎo)着(zhe)科(kē)研(yán)范(fàn)式(shì)的(de)重(zhòng)大(dà)改(gǎi)变(biàn)”。
“融(róng)合(hé)大(dà)模(mó)型(xíng)、大(dà)算(suàn)力(lì)、大(dà)数(shù)据(jù)和(hé)大(dà)团(tuán)队(duì)服(fú)务(wu)等(děng)特(tè)点的科学研究,对科学发现的作用就像大科学装置一样,是一个新范式。”孙凝晖说,新范式的形成,除了“大模型、大算力、大数据”外,还离不开物理、化学、生物、AI等各领域科学家和工程师团队的长期工作,以及企业资金的支持。
孙凝晖表示,在“AI赋能科学发现”之前,现代科学活动存在4种范式,即基于实验观(guān)察(chá)的(de)科(kē)学(xué)实(shí)验(yàn)范(fàn)式(shì)、依(yī)赖(lài)科(kē)学(xué)家(jiā)的(de)理(lǐ)论(lùn)推(tuī)演(yǎn)范(fàn)式(shì)、借(jiè)助(zhù)计(jì)算(suàn)设(shè)备(bèi)的(de)科(kē)学(xué)计(jì)算(suàn)或(huò)数(shù)值(zhí)模(mó)拟(nǐ)范(fàn)式(shì)、基(jī)于(yú)实(shí)验(yàn)和(hé)理(lǐ)论(lùn)数(shù)据(jù)计算的科学数据范式。如今,“AI赋能科学发现”当属“第五范式”,正登上历史舞台。
帮助科学家从“增肌强体”到“赋予大脑”
AI如何赋能科学发现?孙凝晖提出,从信息化视角看,“AI赋能科学发现”的核心在于构建观测(Observe)、模拟(Orient)、猜想(Hypothesis)与实验(Verify)4个环节,并将数据驱动和智能算法驱动引入这4个环节,形成“OOHV全环的AI赋能”。
“在这4个环节中,信息技术总能发挥作用,让知识获取、分享、检索、交换更方便,让信息抽取更简单。”孙凝晖谈到,推演模拟环节本质上是“高性能计算+AI”,而机器学习、大模型能通过处理科学数据发现规律、验证猜想,此外,观察和实验未来也可依靠具身智能。
从具体案例看,孙凝晖认为,信息学科的主要任务是提供工具。他有一个形象的比喻:信息技术赋能科学的手段如同从“增强肌肉(算力)”到“提供营养”(数据),如今正朝着“赋予大脑”(AI)的方向进化。
“‘AI赋能科学发现’更大的作用是突破人类认知极限,这也是科学研究的最高追求。”孙凝晖说,人类在第三范式和第四范式下都有许多突破认知极限的工作,比如通过科学计算,我们既能做公里级精度的中短期天气预报,也能做全球尺度的气候变化预测;通过数据解析,人类得以从基因组层面认识自己,利用天文望远镜摸到黑洞的“脉搏”。如今,在“第五范式”下也有(yǒu)突(tū)破人类认知极限的工作。
不过,孙凝晖提醒,AI工具并不是万能的,科学发现依然离不开高性能计算这一基础手段。同时,在解决实际科学问题时,如何对齐“AI赋能科学发现”共性工具的科学(xué)语(yǔ)义(yì),将(jiāng)成(chéng)为(wèi)一(yī)个(gè)关键问(wèn)题(tí)。
崭(zhǎn)新(xīn)的(de)方(fāng)法(fǎ)论(lùn)和(hé)学(xué)术(shù)生(shēng)态(tài)正(zhèng)在(zài)形(xíng)成(chéng)
孙(sūn)凝(níng)晖(huī)剖(pōu)析(xī)了(le)“AI赋(fù)能(néng)科(kē)学(xué)发(fā)现(xiàn)”面(miàn)临(lín)的(de)数(shù)据(jù)、模(mó)型(xíng)和(hé)计(jì)算(suàn)问(wèn)题(tí)。“科(kē)学(xué)数(shù)据(jù)大(dà)概(gài)来(lái)自(zì)4个(gè)方(fāng)面(miàn),即(jí)理(lǐ)论(lùn)数(shù)据(jù)、观(guān)测(cè)数(shù)据(jù)、实(shí)验(yàn)数(shù)据(jù)和(hé)知(zhī)识(shi)数(shù)据(jù),‘AI赋(fù)能(néng)科(kē)学(xué)发现’数据集不仅需要长期积累,还需要关注数据的AI-Ready化与成熟度。”孙凝晖表示。
在模型方面,孙凝晖提到,OpenAI将实现通用人工智能的路径分为5个阶段:对话者、推理者、代理者、创新者、组织者。这5个阶段对应的AI依次加入了数据驱动、知识嵌入、物理约束、人机协同、群体智能的能力。目前,“AI赋能科学发现”的能级正处于“数据驱动+知识嵌入+物理约束”的三轮驱动阶段(duàn)。
在孙凝晖展示的能级图中,AI进阶像“单车”到“高铁”那样循序渐进。仅靠数据驱动的AI仿佛“单轮车”,随着知识嵌入,AI成了“自行车”;加入物理约束后,AI堪比“三轮摩托车”;而随着人机协同、群体智能等更多“车轮”的加入,AI有望变成“跑车”“高铁”,将大大加速人类科学发现的进程。
在计算问题上,孙凝晖提到,衡量计算有两个关键维度,即精度和架构。“AI赋能科学发现”不仅需要高精度计算,还需要能够降低负载的融合架构。他表示,未来智算的融合架构是什么样,成为计算机科学家需要思考的问题。
孙凝晖展望说,随着算力集群的堆叠、数据来源的多样化、模型参数规模等的进一步提升,未来算力将进化成为Z级(每秒可进行1021次浮点运算)智能超算,数据方面将发展为由海量常识数据、高质量理论数据、实验数据及增强数据来解决更复杂的问题,模型方面将出(chū)现(xiàn)一(yī)个(gè)参数量超过千亿的通用科学智能大模型。
孙凝晖认为,随着AI技术对科学研究范式的重构,新研究工具链涌现,顶级期刊开设专栏,全球顶尖机构成立相关或专门研究单元,崭新的“AI赋能科学发现”方法论和学术生态正在形成(chéng)。
(原(yuán)标(biāo)题(tí)为(wèi)《孙凝晖:“AI赋能科学发现”最大作用是突破人类认知极限》)