官方网站-首页官方网站-首页

医疗AI如何选?专用模型识别疾病更准,GPT-4推理能力强但成本高昂

07

2025-04

-07

·研(yán)究(jiū)人(rén)员(yuán)发现,在生物医疗领域,尽管“定制版”垂类模型应用对于医学自然语言处理上仍有优势,但涉及复杂的推理,尤其是医学问答方面,闭源通用大模型GPT-4则更有明显优势。

记者 蒋立冬 AI创意

大模型在生物医疗领域的应用情况如何?哪种模型更加适用?4月6日,《自然·通讯》(Nature Communications)杂志刊登了一项由耶鲁大学医学院的研究人员对大语言模型(LLMs)在生物医学自然语言处理(BioNLP)中的全面评估与应用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下简称“指南”)。在该份指南中(zhōng),研(yán)究(jiū)人(rén)员(yuán)选(xuǎn)择(zé)了(le)12个(gè)来(lái)自(zì) BioNLP 不(bù)同(tóng)应(yīng)用(yòng)领(lǐng)域的(de)数(shù)据(jù)集,评(píng)估(gū)了(le)四(sì)种(zhǒng)具(jù)有(yǒu)代(dài)表(biǎo)性(xìng)的(de)大(dà)模(mó)型(xíng)GPT-3.5、GPT-4、LLaMA 2 和(hé) PMC LLaMA在(zài)零(líng)样(yàng)本(běn)、少(shǎo)样(yàng)本(běn)和(hé)微(wēi)调(diào)设(shè)置(zhì)下(xià)的(de)性(xìng)能(néng)。

生(shēng)物(wù)医(yī)学(xué)自(zì)然(rán)语(yǔ)言(yán)处(chù)理(lǐ)(BioNLP)技(jì)术(shù)是(shì)一(yī)种(zhǒng)将(jiāng)自(zì)然(rán)语(yǔ)言(yán)处(chù)理(lǐ)技(jì)术(shù)应(yīng)用(yòng)于(yú)生(shēng)物(wù)医学领域的交叉学科技术,核心是从大量的生物医学文本比如医学论文、电子病历、基因数据库等中自动提取有用的信息。

研究人员发现,在生物医疗领域,仅靠持续扩充预训练数据并不能显著提升开源(yuán)生(shēng)物(wù)医(yī)学(xué)大(dà)语(yǔ)言(yán)模(mó)型(xíng)的(de)整(zhěng)体(tǐ)表(biǎo)现(xiàn),针(zhēn)对(duì)具(jù)体(tǐ)医(yī)学(xué)任(rèn)务(wu)的(de)微(wēi)调(diào)才(cái)是(shì)关键。比(bǐ)如(rú)生(shēng)物(wù)医(yī)学(xué)领(lǐng)域特(tè)定(dìng)大(dà)模(mó)型(xíng)的(de)代(dài)表(biǎo)PMC -LLaMA,使(shǐ)用(yòng)了(le)32个(gè)A100 GPU对(duì)模(mó)型(xíng)进(jìn)行(xíng)预(yù)训(xun)练(liàn),但(dàn)最(zuì)终(zhōng)评(píng)估(gū)并(bìng)未(wèi)发(fā)现(xiàn)该(gāi)模(mó)型(xíng)的(de)性(xìng)能(néng)有(yǒu)显著提升。PMC -LLaMA是由上海交通大学长聘轨副教授谢伟迪研究团队于2023年4月研发的垂类模型,基座模型使用的是LLaMA 2;研究人员发现,直接微调LLaMA 2可以获得更好或至少相似的性能。通过微调,模型可以针对性地学习医学领域的专业知识和复杂推理要求,从而在信息抽取、医学问答等任务上实现显著性能提升。

研究人员建议,未来在生物医疗应用中,应更多关注如何优化微调策略,以弥补预训练在处理专业医学文本时的不足。“需要一种更有效、更可持续的方法来开发特定于生物医学领域的大语言模型。”研究人员称。

相较于通用大模型,针对生物医疗领域里的“定制版”模型BioBERT和PubMedBERT(注释:Bert是一款由谷歌开发的预训练语言模型),在医学自然语言处理表现更出色。由于经过专业的医学数据训练,BioBERT和PubMedBERT这类“定制版”模型能够更精准地识别疾病名称、基因、化学物质以及理解医学术语,这一点表现比GPT-3.5和GPT-4为代表的通用大型语言模型更好。但涉及较为复杂的推理任务,尤其是医学问答方面,GPT-4则更有明显优势,能够“看懂并能思考”,生成更合理以及准确的回应。

对于生物医药行业普遍关心的大模型幻觉问题,此次研究结果表明,GPT-4在两个数据集上几乎没有出现幻觉问(wèn)题(tí)。在(zài)零(líng)样(yàng)本(běn)条(tiáo)件(jiàn)下(xià),通(tōng)用(yòng)开源模型LLaMA 2则更容易出现幻觉问题,比如输出时常常出现信息不(bù)完(wán)整(zhěng)、格(gé)式(shì)不(bù)一(yī)致(zhì)或(huò)提(tí)示(shì)无(wú)关内(nèi)容(róng)的(de)情(qíng)况(kuàng),它(tā)产(chǎn)生(shēng)的(de)幻(huàn)觉(jué)案(àn)例(lì)约(yuē)占(zhàn)测(cè)试(shì)样(yàng)本(běn)的(de)32%,比(bǐ)例(lì)远(yuǎn)超(chāo)GPT-3.5和(hé)GPT-4。

尽(jǐn)管(guǎn)GPT-4在(zài)众(zhòng)多(duō)评(píng)估(gū)任(rèn)务(wu)中(zhōng)表(biǎo)现(xiàn)优(yōu)异(yì),但(dàn)研(yán)究(jiū)人(rén)员指出,其调用成本相当于GPT-3.5的60至100倍。对于预算有限的实际应用场景,医学机构可能会倾向于选用成本较低且效果可接受的GPT-3.5;而对于准确性要求极高、尤其是医学问答这类依赖复杂推理的任务中,GPT-4可能会是更理想的选择。

分享新闻