
【导语】6月23日,在清华大学(xué)举(jǔ)办(bàn)的(de)“科(kē)学(xué)、技(jì)术(shù)与(yǔ)文明(míng)的(de)未(wèi)来(lái)——AI时(shí)代(dài)伦(lún)理(lǐ)奇(qí)点(diǎn)”国(guó)际(jì)论(lùn)坛(tán)上(shàng),图(tú)灵(líng)奖(jiǎng)得(de)主、中(zhōng)国(guó)科(kē)学(xué)院(yuàn)院(yuàn)士(shì)、清(qīng)华(huá)大(dà)学(xué)人(rén)工(gōng)智(zhì)能(néng)学(xué)院(yuàn)院(yuàn)长(zhǎng)姚(yáo)期(qī)智(zhì)提(tí)出(chū)关于(yú)人(rén)工(gōng)智(zhì)能(néng)安(ān)全治理的深刻疑问:随着通用人工智能能力的快速增长,人类是否仍能有效管控它?姚期智指出,AI的欺骗行为及潜在生存性风险已不容忽视,包括生物风险和大模型失控等。他提出两条治理思路:加强与AI的交流以对齐行为,以及设计可证明安全的AGI系统。同时,他强调发展AI对齐技术和建立相应评估方法的紧迫性。
“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”
6月23日,在清华大学举办的“科学、技术与文明的未来——AI时代伦理奇点”国际论坛上,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智发表《人工智能的安全治理》主题演讲时抛出这样的疑问。

图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智。澎湃科技记者 摄
姚期智表示,两年以前,“AI会和人类竞争”还是学术讨论的观点,但最近一年,业界(jiè)已(yǐ)经(jīng)出(chū)现(xiàn)了(le)不(bù)少(shǎo)大(dà)模(mó)型(xíng)的(de)“欺(qī)骗(piàn)行(xíng)为(wèi)”,“一(yī)旦(dàn)大(dà)模(mó)型(xíng)聪(cōng)明(míng)到(dào)某(mǒu)种(zhǒng)程(chéng)度(dù),一(yī)定(dìng)会(huì)骗(piàn)人(rén)。”姚(yáo)期(qī)智(zhì)进(jìn)一(yī)步(bù)指(zhǐ)出(chū),由(yóu)大(dà)语言模型的欺骗行为产生的“生存性”风险(Existential Risk)更值得关注。
在他看来,这类生存性风险有两个不同方向。
一种是“生物风险”(Bio-risk)。他指出,2020年,谷歌 DeepMind推出了AlphaFold2 ,运用AI算法来预测蛋白质折叠的三维结构,这一突破在生命科学领域影响深远,大大提升了医学病理研究以及新药开发技术。
但与此同时,安全隐忧也不可忽视。比如,近期在生命科学领域出现的“Mirror life”(镜像生命)这一概念引发了广泛关注。自然界所有已知生命都是同手性的(Homochiral),例如 DNA 和 RNA 通常以右旋形式存在,而蛋白质则多为左旋。这种手性的差异类似于镜中映像,虽然看似相似,但实际性质却可能完全不同。现在,由于科技创新和对新技术的好奇,已有研究者想创造镜像生物,但“Mirror life”一旦被滥用或失控,其潜在危害可能远超预期。它有可能逃避免疫机制,从而导致动物和植物的致命感染。
另一种风险即大模型失控,通用人工智能的能力当前正快速增长,人类是否还有能力管控它?
姚期智在演讲中举了一个极端案例,有模型为了避免公司把模型关闭,通过访问公司主管内部邮件,威胁该主管。这类行为已经证明,AI 会“越界”,正变得越来越危险。
姚期智认为,有两条思路可以治理AI:一是人类要和AI多交流,从博弈学角度去研究,让AI的行为和人类真正的想法对齐,要让AI更了解人的需求;另一种思路是走一条更可控、更彻底的路径,即实现可证明安全的 AGI。具体来看,即在设计系统时,必须一开始明确AI的行为边界,就像传统算法,先进行严格的数学分析,确保其在理论上不会出问题。
“这一思路令人期待。”姚(yáo)期(qī)智(zhì)指(zhǐ)出(chū),近(jìn)年(nián)来(lái),自(zì)动(dòng)定(dìng)理(lǐ)证(zhèng)明(míng)系(xì)统(tǒng)(Automated Theorem Prover)取(qǔ)得(de)了(le)重(zhòng)大(dà)技(jì)术(shù)进(jìn)展,甚至已经开始采用 Transformer 架构来辅助或主导定理证明过程。这样人类只和可被证明安全的白盒子交流,从而实现更高的安全保障。
不过,姚期智认为,AI安全治理的一些当务之急是要发展AI对齐,以及建立相应的评估方法。“(我们)急需建立如何评估大模型系统,比如到怎样的程度,就能感觉Ta具有危险性等这类评估。”姚期智说。