
【导(dǎo)语(yǔ)】日(rì)前(qián),AI公(gōng)司(sī)Anthropic发(fā)布(bù)了(le)一(yī)项(xiàng)针(zhēn)对(duì)其(qí)AI助(zhù)手(shǒu)Claude的(de)70万(wàn)段(duàn)对(duì)话(huà)的(de)系(xì)统(tǒng)性(xìng)价(jià)值(zhí)观(guān)分(fēn)析(xī),首(shǒu)次(cì)公(gōng)开(kāi)了(le)全球(qiú)首(shǒu)个(gè)大(dà)规(guī)模(mó)AI价(jià)值(zhí)观(guān)分(fēn)类(lèi)体(tǐ)系(xì)。研(yán)究(jiū)发(fā)现(xiàn),Claude在(zài)多(duō)数(shù)情(qíng)境(jìng)中(zhōng)很(hěn)好地遵循了“有用、诚实、无害”等价值观,并能根据不同任务灵活调整表达,为AI伦理与安全性研究提供了重要参考。此次研究的发布正值Anthropic推出高级订阅服务Claude Max之际,展示了其在“价值透明度”方面的差异化竞争优势。随着AI模型愈发自主,理解AI价值表达背后的机制并与人类价值体系对齐,将成为新的竞争焦点。

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与(yǔ)安(ān)全性(xìng)研(yán)究(jiū)提(tí)供(gōng)重(zhòng)要(yào)参(cān)考(kǎo)。
日(rì)前(qián),由(yóu)OpenAI前(qián)员(yuán)工(gōng)创(chuàng)办(bàn)的(de)AI公(gōng)司(sī)Anthropic推(tuī)出(chū)一(yī)项(xiàng)研(yán)究(jiū),该(gāi)研(yán)究(jiū)首(shǒu)次(cì)针(zhēn)对(duì)旗(qí)下(xià)AI助(zhù)手(shǒu)Claude的(de)70万(wàn)段(duàn)对(duì)话(huà)开(kāi)展(zhǎn)系(xì)统(tǒng)性(xìng)价(jià)值(zhí)观(guān)分析,并公开全球第一个大规模AI价值观分类体系。
研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话(huà)”,为(wèi)AI伦(lún)理(lǐ)与(yǔ)安(ān)全性(xìng)研(yán)究(jiū)提(tí)供(gōng)重(zhòng)要(yào)参(cān)考(kǎo)。
作(zuò)为(wèi)探(tàn)索(suǒ)AI大(dà)语(yǔ)言(yán)模(mó)型(xíng)内(nèi)部(bù)运(yùn)行(xíng)机(jī)制(zhì)的(de)重(zhòng)要(yào)一(yī)步(bù),该(gāi)研(yán)究(jiū)的(de)发(fā)布(bù)正(zhèng)值(zhí)Anthropic推(tuī)出(chū)高(gāo)级(jí)订(dìng)阅(yuè)服(fú)务(wu)Claude Max之(zhī)际(jì)。当(dāng)前(qián),Anthropic新(xīn)一(yī)轮(lún)融(róng)资(zī)估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。
为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业(yè)性(xìng)”到(dào)“孝(xiào)顺(shùn)”等(děng)3307种(zhǒng)不(bù)重(zhòng)复(fù)的(de)价(jià)值(zhí)表(biǎo)达(dá),涵(hán)盖(gài)多(duō)样(yàng)化(huà)的(de)人(rén)类(lèi)伦(lún)理(lǐ)与(yǔ)行(xíng)为(wèi)导(dǎo)向(xiàng)。
引(yǐn)人(rén)注(zhù)目(mù)的(de)是(shì),Claude在(zài)不(bù)同(tóng)情(qíng)境(jìng)中(zhōng)展(zhǎn)现(xiàn)出(chū)较(jiào)强(qiáng)的(de)价值表达“情景适应度”。例如,在感情建议中,Claude更突出“健康”和“彼此尊重”;涉及历史事件分析,则更强调“准确性”;在哲学讨论中,“谦逊”成为其高频价值表达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观(guān),展(zhǎn)现(xiàn)出不可动摇的伦理底线。
但在极少数互动中,Claude偶尔也会出现和训练目标相悖的表达,诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为,这些异常行为占比极低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。
该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上(shàng)线(xiàn)前(qián)的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。
尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。
“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的(de)研(yán)究(jiū)团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价(jià)值(zhí)表(biǎo)达(dá)背(bèi)后(hòu)的(de)机(jī)制(zhì)、将(jiāng)其(qí)与(yǔ)人(rén)类(lèi)价(jià)值(zhí)体(tǐ)系(xì)“对(duì)齐(qí)”,也(yě)将(jiāng)成(chéng)为(wèi)新(xīn)的(de)AI竞(jìng)争(zhēng)赛(sài)道(dào)。