官方网站-首页官方网站-首页

数据短缺阻碍AI一体机落地,专家提出数据元件治理新路径

18

2025-04

-18

【导语】在人(rén)工(gōng)智(zhì)能(néng)竞(jìng)争(zhēng)日(rì)益(yì)激(jī)烈(liè)的(de)当(dāng)下(xià),数(shù)据(jù)已(yǐ)成(chéng)为(wèi)推(tuī)动(dòng)其(qí)发(fā)展(zhǎn)的(de)关键燃(rán)料(liào)和(hé)动(dòng)力(lì)。然(rán)而(ér),数(shù)据(jù)挑(tiāo)战(zhàn)也(yě)随(suí)之(zhī)而(ér)来(lái),包(bāo)括(kuò)训(xun)练(liàn)数(shù)据(jù)枯(kū)竭(jié)、质(zhì)量(liàng)不(bù)一、隐私安全等问题。在第三届数字化发展大会暨数字经济高峰论坛上,中国计算机学会数据发展委员会主任陆志鹏揭示了当前人工智能面临的数据困境,并提出了基于数据元件的数据治理新方案。他指出,高质量数据集对模型训练至关重要,但构建过程复杂且缺乏统一标准。数据元件作为数据的初级产品,不仅解决了数据确权、安全等核心问题,还促进了数据的流通和应用。陆志鹏的团队通过一系列业务逻辑梳理,形成了一体机解决方案,打破了数据孤岛,为企业数字化转型提供了有力支持。

数据是人工智能的燃料和动力,人工智能竞争在某种意义上进入了“数据决胜”阶段,谁拥有(yǒu)数(shù)据(jù)谁(shuí)就(jiù)占(zhàn)领(lǐng)高(gāo)地(de)。但(dàn)当(dāng)前人工智能发展面临数据挑战,如训练数据枯竭、质量参差不齐、隐私安全难保障、数据确权和计量难等问题。在4月17日举行的第三届数字化发展大会暨数字经济高峰论坛上,CCF(中国计算机学会)数据发展委员会主任陆志鹏对外介绍了其所在团队正在开发的新的数据解决方案,即基于数据元件的数据治理方式。

中国计算机学会数据发展委员会主任陆志鹏。

陆志鹏称,今年DeepSeek爆火,让模型平权,人工智能走进企业、走向社会。市场上推出了一批DeepSeek一体机,一些企业以为把DeepSeek模型部署到服务器上就是一体机,就可以开箱即用,结果客户采购后发现并没有达到说明书上的效果,从而引起法律纠纷。

如何部署有价值的大模型?其中数据起着重要作用。高质量数据集是人工智能模型训练的关键支撑,但构建过程复杂。目前很多数据集的构建集中(zhōng)在(zài)大(dà)模(mó)型(xíng)公(gōng)司(sī),而(ér)大(dà)模(mó)型(xíng)公(gōng)司(sī)往(wǎng)往(wǎng)基(jī)于(yú)自(zì)己(jǐ)的(de)大(dà)模(mó)型(xíng)构(gòu)建(jiàn)数(shù)据(jù)集,导(dǎo)致(zhì)数(shù)据(jù)集通(tōng)用(yòng)性(xìng)不(bù)足(zú),不(bù)同(tóng)数(shù)据(jù)集之(zhī)间(jiān)的(de)架(jià)构(gòu)和(hé)标(biāo)准(zhǔn)也(yě)不(bù)同(tóng),构(gòu)建(jiàn)高(gāo)质(zhì)量(liàng)数(shù)据(jù)集缺(quē)乏(fá)统(tǒng)一(yī)衡(héng)量(liàng)标(biāo)准(zhǔn)。领(lǐng)域数(shù)据(jù)集生(shēng)成(chéng)涉(shè)及(jí)的(de)数(shù)据(jù)海(hǎi)量(liàng)且(qiě)庞(páng)杂(zá),需(xū)要(yào)高(gāo)效(xiào)的(de)数(shù)据(jù)存(cún)储(chǔ)解(jiě)决(jué)方(fāng)案(àn)和(hé)强(qiáng)大(dà)的(de)计(jì)算(suàn)资(zī)源(yuán)来(lái)支(zhī)撑(chēng)数(shù)据(jù)的(de)存(cún)储(chǔ)、治(zhì)理(lǐ)和(hé)生(shēng)成(chéng)。

目(mù)前(qián)随(suí)着(zhe)数(shù)据(jù)的(de)重(zhòng)要(yào)性(xìng)被(bèi)强(qiáng)调(diào),数(shù)据(jù)共(gòng)享(xiǎng)反(fǎn)而(ér)出(chū)现(xiàn)了(le)倒(dào)退(tuì)。2024年(nián),用(yòng)于(yú)模(mó)型(xíng)训(xun)练(liàn)的(de)数(shù)据(jù)中(zhōng),60%是(shì)合(hé)成(chéng)数(shù)据(jù),数(shù)据(jù)质(zhì)量(liàng)影(yǐng)响(xiǎng)大(dà)模(mó)型(xíng)开(kāi)发(fā)效(xiào)率(lǜ),因(yīn)此(cǐ)要(yào)确(què)保(bǎo)合(hé)成(chéng)数(shù)据(jù)的(de)可(kě)靠(kào)性(xìng)、安(ān)全性(xìng)、精(jīng)确(què)性(xìng)。

如何解决数据难题?陆志鹏谈到了基于数据元件的数据治理方式。“数据元件”是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。数据元件同隐私计算、区块链、数联网、数据空间等被确立为国家数据基础建设的主要技术路线。陆志鹏表示,数据元件不是原始数据,而是数据的初级产品,具有安全属性、价值属性、品质属性,可解决数据确权、估值、定价、安全、隐私问题,及数据质量和处理效率问题。数据元件在实现数据风险隔离和安全管控的同时,提升数据价值密度,实现数据资产的产品化流通和规模化应用。

陆志鹏表示,其所在的团队通过梳理包括场景需求分析和数据资源调查、数据归集和治理、领域高质量数据集构建、领域知识库构建、模型微调和训练、模型应用等六大高质量数据构建的业务逻辑,最终形成一体机解决方案,落地经过部署和场景化微调,模型答题逻辑和流畅性提升。此外,基于数据元件的数据治理打消了企业部门间不愿共享数据的顾虑,打破了数据孤岛,支持企业数字化转型。

分享新闻