全球首个AI价值观数据集出炉

22

2025-04

-22

【导(dǎo)语(yǔ)】日(rì)前(qián)，AI公(gōng)司(sī)Anthropic发(fā)布(bù)了(le)一(yī)项(xiàng)针(zhēn)对(duì)其(qí)AI助(zhù)手(shǒu)Claude的(de)70万(wàn)段(duàn)对(duì)话(huà)的(de)系(xì)统(tǒng)性(xìng)价(jià)值(zhí)观(guān)分(fēn)析(xī)，首(shǒu)次(cì)公(gōng)开(kāi)了(le)全球(qiú)首(shǒu)个(gè)大(dà)规(guī)模(mó)AI价(jià)值(zhí)观(guān)分(fēn)类(lèi)体(tǐ)系(xì)。研(yán)究(jiū)发(fā)现(xiàn)，Claude在(zài)多(duō)数(shù)情(qíng)境(jìng)中(zhōng)很(hěn)好地遵循了“有用、诚实、无害”等价值观，并能根据不同任务灵活调整表达，为AI伦理与安全性研究提供了重要参考。此次研究的发布正值Anthropic推出高级订阅服务Claude Max之际，展示了其在“价值透明度”方面的差异化竞争优势。随着AI模型愈发自主，理解AI价值表达背后的机制并与人类价值体系对齐，将成为新的竞争焦点。

全球首个AI价值观数据集出炉

·研究发现，Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观，且能够根据不同任务“看场合说话”，为AI伦理与(yǔ)安(ān)全性(xìng)研(yán)究(jiū)提(tí)供(gōng)重(zhòng)要(yào)参(cān)考(kǎo)。

日(rì)前(qián)，由(yóu)OpenAI前(qián)员(yuán)工(gōng)创(chuàng)办(bàn)的(de)AI公(gōng)司(sī)Anthropic推(tuī)出(chū)一(yī)项(xiàng)研(yán)究(jiū)，该(gāi)研(yán)究(jiū)首(shǒu)次(cì)针(zhēn)对(duì)旗(qí)下(xià)AI助(zhù)手(shǒu)Claude的(de)70万(wàn)段(duàn)对(duì)话(huà)开(kāi)展(zhǎn)系(xì)统(tǒng)性(xìng)价(jià)值(zhí)观(guān)分析，并公开全球第一个大规模AI价值观分类体系。

研究发现，Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观，且能够根据不同任务“看场合说话(huà)”，为(wèi)AI伦(lún)理(lǐ)与(yǔ)安(ān)全性(xìng)研(yán)究(jiū)提(tí)供(gōng)重(zhòng)要(yào)参(cān)考(kǎo)。

作(zuò)为(wèi)探(tàn)索(suǒ)AI大(dà)语(yǔ)言(yán)模(mó)型(xíng)内(nèi)部(bù)运(yùn)行(xíng)机(jī)制(zhì)的(de)重(zhòng)要(yào)一(yī)步(bù)，该(gāi)研(yán)究(jiū)的(de)发(fā)布(bù)正(zhèng)值(zhí)Anthropic推(tuī)出(chū)高(gāo)级(jí)订(dìng)阅(yuè)服(fú)务(wu)Claude Max之(zhī)际(jì)。当(dāng)前(qián)，Anthropic新(xīn)一(yī)轮(lún)融(róng)资(zī)估值615亿美元，背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI，Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断，研究团队从超过30万段匿名对话中筛选出主观性内容，以此将Claude的价值表达分为五大类别：实用型、认知型、社会型、保护型和个体型。最终，研究总共识别出从“专业(yè)性(xìng)”到(dào)“孝(xiào)顺(shùn)”等(děng)3307种(zhǒng)不(bù)重(zhòng)复(fù)的(de)价(jià)值(zhí)表(biǎo)达(dá)，涵(hán)盖(gài)多(duō)样(yàng)化(huà)的(de)人(rén)类(lèi)伦(lún)理(lǐ)与(yǔ)行(xíng)为(wèi)导(dǎo)向(xiàng)。

引(yǐn)人(rén)注(zhù)目(mù)的(de)是(shì)，Claude在(zài)不(bù)同(tóng)情(qíng)境(jìng)中(zhōng)展(zhǎn)现(xiàn)出(chū)较(jiào)强(qiáng)的(de)价值表达“情景适应度”。例如，在感情建议中，Claude更突出“健康”和“彼此尊重”；涉及历史事件分析，则更强调“准确性”；在哲学讨论中，“谦逊”成为其高频价值表达。此外，在6.6%的对话中，Claude会温和“重构”对方的价值认知，在极少数情况下会直接拒绝接受用户的价值观(guān)，展(zhǎn)现(xiàn)出不可动摇的伦理底线。

但在极少数互动中，Claude偶尔也会出现和训练目标相悖的表达，诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为，这些异常行为占比极低，大多与用户试图绕过Claude的安全限制有关。这也说明，该评估方法可作为一种预警机制，帮助AI实验室监测系统是否遭受用户恶意操控，从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设，需警惕无意识偏见对高风险场景的影响。同时，AI的价值观会随任务情境变动，意味着其在金融、法律等行业的部署会更加复杂。更重要的是，真实应用环境下的AI系统监测比上(shàng)线(xiàn)前(qián)的静态测试更能识别伦理风险，能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口，但研究人员承认，目前还无法用于AI模型上线前的评估，且分类过程可能受到AI自身偏见影响。不过，Anthropic的研究团队正尝试对该方法进行改进，以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向，是对齐研究的核心，”Anthropic的(de)研(yán)究(jiū)团队成员Saffron Huang称。随着Claude新增独立研究能力等功能，AI模型也愈发自主。如何理解AI价(jià)值(zhí)表(biǎo)达(dá)背(bèi)后(hòu)的(de)机(jī)制(zhì)、将(jiāng)其(qí)与(yǔ)人(rén)类(lèi)价(jià)值(zhí)体(tǐ)系(xì)“对(duì)齐(qí)”，也(yě)将(jiāng)成(chéng)为(wèi)新(xīn)的(de)AI竞(jìng)争(zhēng)赛(sài)道(dào)。

官方网站-首页

企业动态

全球首个AI价值观数据集出炉

22

2025-04

-22

返回列表

分享新闻

上一页

数据分析培训优选

下一页

外卖消费趋势大数据分析