2025年GDC｜“大模型越普及，AI治理越急迫”

23

2025-02

-23

DeepSeek火爆全球，人人都用上了AI，但在专家看来，在这一情况下，如何解决大模型的安全问题和治理问题也变得更为迫切。

“大模型存在诱导和欺骗行为怎么(me)办(bàn)？”“大(dà)模(mó)型(xíng)失(shī)控(kòng)了(le)怎(zěn)么(me)办(bàn)？”

在(zài)2025 GDC全球(qiú)开(kāi)发(fā)者(zhě)先(xiān)锋(fēng)大(dà)会(huì)工(gōng)作(zuò)坊(fang)“安(ān)全超(chāo)级(jí)智(zhì)能(néng)”上(shàng)，不(bù)少(shǎo)开(kāi)发(fā)者(zhě)和(hé)专(zhuān)业(yè)观(guān)众(zhòng)对(duì)AI安(ān)全提(tí)出(chū)担(dān)忧(yōu)。

2025 GDC全球(qiú)开(kāi)发(fā)者(zhě)先(xiān)锋(fēng)大(dà)会工作坊“安全超级智能”现场。

AI智能安全研究员朱小虎是此次工作坊的负责人，2019年他在上海成立了一个非营利机构——安全人工通用智能研究中心（The center for safe artificial general intelligence），希望能推(tuī)动(dòng)国(guó)内(nèi)安(ān)全AGI的(de)发(fā)展(zhǎn)。2021年(nián)，朱(zhū)小(xiǎo)虎(hǔ)曾(céng)被(bèi)麻(má)省(shěng)理(lǐ)工(gōng)学(xué)院(yuàn)生(shēng)命(mìng)未(wèi)来(lái)研(yán)究(jiū)所(suǒ)邀(yāo)请(qǐng)，以(yǐ)合(hé)作(zuò)学(xué)者(zhě)的(de)身(shēn)份(fèn)专(zhuān)注(zhù)于(yú)AI的(de)风(fēng)险(xiǎn)研(yán)究(jiū)和(hé)通(tōng)用(yòng)人(rén)工(gōng)智(zhì)能(néng)安(ān)全研(yán)究。

“现阶段的人工智能为人工混乱智能”，朱小虎告诉澎湃科技（www.thepaper.cn），在他看来，即便如DeepSeek、马斯克新发布的Grok3这类大模型在深度推理方面表现得非常优秀，但“并不安全。”

“你的AI大模(mó)型(xíng)有(yǒu)可(kě)能会欺骗你。”朱小虎说。大模型具有“欺骗性价值对齐”（Deceptive value alignment）的情况，这种对齐以欺骗的方式获得，且不能反映AI的真实目标或意图的现象被称为“欺骗性价值对齐”。比如在训练阶段、推理阶段，模型对形成的上下文会形成一定的“欺骗性的对齐”，这会影响很多用户比如老人和小孩的个人判断，还有对隐私保护的侵(qīn)犯(fàn)等(děng)，这(zhè)也(yě)是模型不安全的一大方面。

如果想要建立一个安全、可靠、可控且可信的人机（技）协作环境，就必须提出合理应对欺骗性价值对齐的有效措施。

“现阶段只能依靠技术手段去‘堵’而不是‘疏’。”朱小虎说，不过，目前的技术还无法完全解决这些问题，因为投入在AI安全领域的精力、时间、金钱和资源远远不足。这也是大模型落地行业待解的难题之一。

如何让AI变得更安全？2月22日，澎湃科技（www.thepaper.cn）和朱小虎聊了聊。

模型有“欺骗性对齐”的情况，Grok3也不安全

澎湃科技：如何理解AI Safety这一概念？

朱小虎：最早期AI安全分成了两个大类的概念，英文世界它有两个词来表达安全，Safety（安全性）和Security（安全防护、安保）。

Safety的概念比较宽泛，包括常提到的AI伦理方面也算是Safety的分支，它(tā)更(gèng)强(qiáng)调在早期阶段将“安全”考虑清楚，包括后期设计方法、建立相应的保护措施、应用的方式。但Security从技术手段更强调模型的权重怎么保护、如何防止黑客攻击等。Safety更需要大家深入地思考找出实践的路径，目前国内的一线安全厂商他们其实强调在Security上的能力，大家对Safety的概念较为模糊。

澎湃科技：在你看来，现在AI大模型常见的风险有哪些？大模(mó)型(xíng)技(jì)术(shù)最(zuì)薄(báo)弱(ruò)的(de)环(huán)节(jié)、安(ān)全漏(lòu)洞(dòng)在(zài)哪(nǎ)里(lǐ)？

朱(zhū)小(xiǎo)虎(hǔ)：最(zuì)严(yán)重(zhòng)的(de)是(shì)现(xiàn)在(zài)大(dà)模(mó)型(xíng)的(de)“黑(hēi)盒(hé)”特(tè)质(zhì)（当(dāng)人(rén)们(men)输(shū)入(rù)一(yī)个(gè)数(shù)据(jù)，大(dà)模(mó)型(xíng)就(jiù)能(néng)直(zhí)接(jiē)输(shū)出(chū)一(yī)个(gè)答(dá)案，但是它的运作机制却没人知道，我们称之为“黑盒”）。

大模型很多内在机制基于神经网络和深度学习，比如通过梯度下降等训练方式优化，但它内在的连接和权重目前缺乏有效且可规模化的研究方法去理解。这导致在使用大模型技术时，生成的内容往往难以被用户完全理解。

这种模型训练规模达到万亿级别的，它对于单个的研究人员、一个公司来说，都是一个非常棘手的任务。OpenAI花费了大量精力在模型(xíng)调(diào)校(xiào)和(hé)对(duì)齐(qí)（Alignment）领(lǐng)域，利(lì)用(yòng)强(qiáng)化(huà)学(xué)习(xí)使(shǐ)模(mó)型(xíng)行(xíng)为(wèi)符(fú)合(hé)人(rén)类(lèi)价(jià)值(zhí)观(guān)和(hé)伦(lún)理(lǐ)约(yuē)束(shù)，让(ràng)OpenAI能够在大规模推广前确保模型的安全性。微软甚至Meta（原Facebook）等公司也曾推出了类似模型，但因为模型在当时出现了不可控的负面效果后暂停。

大模型本身除了不可解释性之外，架构还容易受到外界干扰。比如，恶意使用或黑客攻击可能导致模型在应用场景中产生不安全的扩散效应。这些问题进一步加剧了大模型在实际应用中的安全风险。

澎湃科技：对企业和用户来说，不安全的模型会有怎样的影响？

朱小虎：“不安全的模型”其实是一个模型的特质，一些研究人员包括Anthropic PBC，（一家(jiā)美(měi)国(guó)的(de)人(rén)工(gōng)智(zhì)能(néng)初(chū)创(chuàng)企(qǐ)业(yè)和(hé)公(gōng)益(yì)公(gōng)司(sī)）也(yě)非(fēi)常(cháng)重(zhòng)视(shì)安(ān)全，他(tā)们(men)在(zài)研(yán)究(jiū)过(guò)程(chéng)中(zhōng)发(fā)现(xiàn)模(mó)型(xíng)具(jù)有(yǒu)“欺(qī)骗(piàn)性(xìng)对(duì)齐(qí)”（Deceptive element）的(de)情(qíng)况(kuàng)。比(bǐ)如在训练阶段、推理阶段，模型对形成的上下文会形成一定的“欺骗性的对齐”，它可以欺骗人。这导致在大规模部署的时候，会影响很多用户比如老人和小孩的个人判断，还有对隐私保护的侵犯等，这也是模型不安全的一大方面。

投入在AI安全领域的精力、时间、金钱和资源远远不足

澎湃科技：在你的观察中，现在大模型哪些做得安全？

朱小虎： 即(jí)便(biàn)马(mǎ)斯(sī)克(kè)刚(gāng)发(fā)布(bù)的(de)Grok3、DeepSeeK也(yě)并(bìng)不(bù)是(shì)百(bǎi)分(fēn)百(bǎi)安(ān)全，它(tā)还(hái)具(jù)有(yǒu)欺(qī)骗(piàn)性(xìng)和(hé)诱(yòu)导(dǎo)性(xìng)。虽(suī)然(rán)这(zhè)类(lèi)大(dà)模(mó)型(xíng)的(de)目(mù)标(biāo)是实现AGI，但模型非常不安全，会衍生出很多问题需要大家解决。不安全的地方在于比如模型可能会被诱导输出一些暴力、危害性信息，甚至一(yī)些(xiē)少(shǎo)儿(ér)不(bù)宜(yi)的(de)内(nèi)容(róng)。这(zhè)是(shì)大(dà)模(mó)型(xíng)本(běn)身(shēn)固(gù)有(yǒu)的(de)问(wèn)题(tí)，所(suǒ)以(yǐ)需(xū)要(yào)大(dà)量(liàng)内(nèi)容(róng)审(shěn)查(chá)和(hé)过(guò)滤(lǜ)，现(xiàn)在(zài)只(zhǐ)能(néng)通(tōng)过(guò)技(jì)术(shù)手(shǒu)段(duàn)“堵(dǔ)”而(ér)不(bù)是(shì)“疏”。

目前的技术还无法完全解决这些问题，因为投入在AI安全领域的精力、时间、金钱和资源远远不足。加州大学伯克利分校的一位核安全专家曾提到，核领域的安全投入(rù)与(yǔ)核(hé)能(néng)力(lì)开(kāi)发(fā)的(de)比(bǐ)例(lì)是(shì)7:1。相(xiāng)比(bǐ)之(zhī)下(xià)，AI安(ān)全需(xū)要(yào)投(tóu)入(rù)更(gèng)多(duō)资(zī)源(yuán)来(lái)确(què)保(bǎo)安(ān)全性(xìng)。

这(zhè)些(xiē)也(yě)是(shì)大(dà)模(mó)型(xíng)落(luò)地(de)行(xíng)业(yè)待(dài)解(jiě)的(de)难(nán)题(tí)之一。技术本身没有善恶，但现在技术让AI产生了价值观，因为训练大模型都是来自人类的数据，不管是正面或是负面，都可能产生危害。

澎湃科技：现在AI深度伪造技术能逼真到什么阶段？普通用户该如何辨别？

朱小虎：深度伪造（DeepFake）近几年确实在持续不断地发展，随着AI技术的增强，它的精细度会逐渐增强。很多时候普通用户比如年纪较大的还有小孩没有办法辨别。对模型企业来说，很多做的模型附带一些水印，这是防范AI深度伪造的技术手段之一，不过这只是初步的技术方案。

澎湃科技：你认为现在谈论AI治理和AI安(ān)全，为(wèi)时过早吗？

朱小虎：之前我认为这个问题并不紧迫，但今年，特别是DeepSeek产生全球影响后，安全问题和治理问题变得非常急迫。过去，大家可能一直在缓慢探索治理和安全的策略，但现在进入了一个新阶段，即开放式的人工智能治理。过去，许多AI技术隐藏在公司或高校背后，例如OpenAI、Google DeepMind、Anthropic等，他们的许多内容(róng)并未公开，主要是防止技术扩散。

但现在，OpenAI和DeepSeek的发展激发了大家对开源生态的渴望，所以出现了许多实验和开源项目。全球的企业和高校都在推动开源AI或AGI的发展，这已成为一个明显的趋势。在这一过程中，需要从技术角度进行革新，构建新的框架或平台。这不是单个公司、群体或政府能够独立完成的，而是需要全社会的参与，从不同层面引入合理的方式，通盘考虑并推进。

澎湃科技：在你看来(lái)，一(yī)个(gè)安(ān)全的大模型应该是怎样的？

朱小虎：目前还没有出现一个非常好的安全模型。这是一个需要磨合的过程，未来可能会有新的研究机构出现来解决这些问题，因为安全性风险将很快成为现实问题。

目前我们主要追求的是需要模型“可证明安全”，这是非常严格的要求，但从长远来看是最可行的路径。现阶段我(wǒ)们(men)都(dōu)是(shì)通(tōng)过(guò)实(shí)验(yàn)和(hé)评(píng)估(gū)不(bù)断(duàn)测(cè)试(shì)和(hé)改(gǎi)进(jìn)，逐(zhú)步(bù)逼(bī)近(jìn)目(mù)标(biāo)。



官方网站-首页

企业动态

2025年GDC｜“大模型越普及，AI治理越急迫”

23

2025-02

-23

返回列表

分享新闻

上一页

2025年上海开发者大会｜“以人为本”大模型评测体系正式发布

下一页

2025年GDC｜AI大模型赋能生命健康行业的实践与挑战