官方网站-首页官方网站-首页

“大部分数据仍沉睡在服务器,尚未转化为真正的资产”

07

2025-03

-07

“过(guò)去(qù)很(hěn)多(duō)年(nián),我(wǒ)们(men)在(zài)数(shù)据(jù)应(yīng)用(yòng)方(fāng)面(miàn)仍(réng)停(tíng)留(liú)在(zài)做(zuò)一(yī)些(xiē)漂(piào)亮(liàng)的(de)统(tǒng)计(jì)报(bào)表(biǎo)上(shàng),并(bìng)没(méi)有(yǒu)深(shēn)挖(wā)数(shù)据(jù)内(nèi)在(zài)价(jià)值(zhí)。大(dà)部(bù)分(fēn)数(shù)据(jù)仍(réng)沉(chén)睡(shuì)在(zài)云(yún)端(duān)服(fú)务(wu)器(qì)上(shàng),并(bìng)没(méi)有(yǒu)转(zhuǎn)化(huà)为(wèi)企(qǐ)业(yè)真(zhēn)正(zhèng)的(de)资(zī)产(chǎn)。”日(rì)前(qián),在(zài)由(yóu)复(fù)旦(dàn)大(dà)学(xué)校(xiào)友(you)会(huì)创(chuàng)业(yè)创(chuàng)新(xīn)俱(jù)乐(lè)部(bù)主办(bàn)的(de)第(dì)四(sì)届(jiè)创(chuàng)业(yè)创(chuàng)新(xīn)数(shù)字(zì)经(jīng)济(jì)生(shēng)态(tài)论(lùn)坛(tán)上(shàng),复(fù)旦(dàn)大(dà)学(xué)计(jì)算(suàn)机(jī)科(kē)学(xué)技(jì)术(shù)学(xué)院(yuàn)教(jiào)授(shòu)、博(bó)导(dǎo)、上(shàng)海(hǎi)市(shì)数(shù)据(jù)科(kē)学(xué)重(zhòng)点(diǎn)实(shí)验(yàn)室(shì)主任(rèn)肖(xiào)仰(yǎng)华(huá)在(zài)主题(tí)演(yǎn)讲(jiǎng)过(guò)程(chéng)中(zhōng)直(zhí)言(yán),当(dāng)前(qián),数(shù)据(jù)价(jià)值(zhí)变(biàn)现(xiàn)也(yě)面(miàn)临(lín)诸(zhū)多(duō)挑(tiāo)战(zhàn)。

复(fù)旦(dàn)大(dà)学(xué)计(jì)算(suàn)机(jī)科(kē)学(xué)技(jì)术(shù)学(xué)院(yuàn)教(jiào)授(shòu)、博(bó)导(dǎo)、上(shàng)海(hǎi)市(shì)数据科学重点实验室主任肖仰华

肖仰华认为,造成这类现象的困境有多层原因。现阶段数据管理处于多主体状态,“今天可能在生产者手中,明天可能在采集者手中,之后会流通到加工者、使用者、运营(yíng)者(zhě)手(shǒu)中(zhōng)”,这种多方主体的状态,使得数据的确权和数据安全是否可控面临较高要求。

此外,数据运行的环境和生态也前所未有地复杂。肖仰华指出,数据运行的形态极为多样。数据可能运行于传统数据库、关系数据库、云数据库,也可能存在于文件中,甚至可能成为大模型的语料。

随着数据管理的复杂性和多样性增加,肖仰华称,对企业发展统一、标准化的数据管理和操作方法也提出新需求。在数据价值变现层面上,如何唤醒、盘活“沉睡的数据”?

肖仰华认为,人工智能时代,大模型有可能成为盘活沉睡数据资产的“利器”,大模型有利于将数据转化为商业价值。

肖仰华称,大模型之所以被各行各业积极拥抱,是因为它极大地简化了传统的商业变现流程。现在甲方只需提前提供数据,大模型就能自动从数据中学习到领域知识支撑下游应用,从而形成商业价值,无需再与资产方进行复杂的沟通,这种端到端的方式为商业应用带来了极大的便利。

此外,在多模态数据的统一价值变现上,以前收集到的数据库服务器可能是文本格式、图像格式,也可能是语音或表格,各类各样都有。但如今,只要将这些数据统一转换成序列数据,就可以通过大模型进行训练,从而实现统一的数据价值变现方式。

不仅如此,大模型还在数据库的智能化运维方面发挥了重要作用。传统数据库应用系统需要大量人力和资金投入运营,而大模型的自动化运维能力可以显著提高运维效率,解放人力资源。

不过,尽管大模型为释放企业和各类行业数据价值带来了全新机遇,但仍面临诸多挑战。

肖仰华认为,其中一个挑战在于,目前的通用大模型以聊天或开放性任务为主,仍存在“幻觉”现象、专业知识不足以及专业思维能力较弱等。还有大模型在可控性和编辑能力上较弱,无法实现像传统数据库那样精准地删除或更新操作,这在行业应用中带来了较大的挑战。

在私域数据和专业数据的理解上,大模型也有待提升。譬如,不同行业数据具有两个基本特点,其一是专业性强,例如工业传感器数据,如果没有专业背景知识,很难理解数据背后的含义;其二是私域数据的(de)表(biǎo)达(dá)有(yǒu)自(zì)身(shēn)独(dú)特(tè)性(xìng),例(lì)如(rú)不(bù)同(tóng)数(shù)据(jù)库(kù)中对“性别”的编码可能截然不同(如0和1分别代表男和女),这类私域数据编码通用大模型能否直接理解,也是大模型在行业落地时需要解决的关键问题。

肖仰华在演(yǎn)讲(jiǎng)中(zhōng)也(yě)提(tí)到(dào),企(qǐ)业(yè)在(zài)利(lì)用(yòng)大(dà)模(mó)型(xíng)做(zuò)数(shù)据(jù)处(chù)理(lǐ)与(yǔ)价(jià)值(zhí)变(biàn)现(xiàn)相(xiāng)关工(gōng)作(zuò)时(shí),也(yě)需(xū)关注(zhù)成(chéng)本(běn)问(wèn)题(tí),“大(dà)模(mó)型的运行存在成本,因此通常采用大模型蒸馏小模型的方式以降低成本。”大模型主要用于关键场合,或在小模型及人工难以处理的复杂场景中发挥作用,从而优化整体方案的成本。

“我们相信,在大模型和人工智能技术的助力下,数据价值将很快被彻底激活。”肖仰华说。

分享新闻