医疗AI如何选？专用模型识别疾病更准，GPT-4推理能力强但成本高昂

07

2025-04

-07

·研(yán)究(jiū)人(rén)员(yuán)发现，在生物医疗领域，尽管“定制版”垂类模型应用对于医学自然语言处理上仍有优势，但涉及复杂的推理，尤其是医学问答方面，闭源通用大模型GPT-4则更有明显优势。

记者蒋立冬 AI创意

大模型在生物医疗领域的应用情况如何？哪种模型更加适用？4月6日，《自然·通讯》（Nature Communications）杂志刊登了一项由耶鲁大学医学院的研究人员对大语言模型（LLMs）在生物医学自然语言处理（BioNLP）中的全面评估与应用指南（《Benchmarking large language models for biomedical natural language processing applications and recommendations》，以下简称“指南”）。在该份指南中(zhōng)，研(yán)究(jiū)人(rén)员(yuán)选(xuǎn)择(zé)了(le)12个(gè)来(lái)自(zì) BioNLP 不(bù)同(tóng)应(yīng)用(yòng)领(lǐng)域的(de)数(shù)据(jù)集，评(píng)估(gū)了(le)四(sì)种(zhǒng)具(jù)有(yǒu)代(dài)表(biǎo)性(xìng)的(de)大(dà)模(mó)型(xíng)GPT-3.5、GPT-4、LLaMA 2 和(hé) PMC LLaMA在(zài)零(líng)样(yàng)本(běn)、少(shǎo)样(yàng)本(běn)和(hé)微(wēi)调(diào)设(shè)置(zhì)下(xià)的(de)性(xìng)能(néng)。

生(shēng)物(wù)医(yī)学(xué)自(zì)然(rán)语(yǔ)言(yán)处(chù)理(lǐ)（BioNLP）技(jì)术(shù)是(shì)一(yī)种(zhǒng)将(jiāng)自(zì)然(rán)语(yǔ)言(yán)处(chù)理(lǐ)技(jì)术(shù)应(yīng)用(yòng)于(yú)生(shēng)物(wù)医学领域的交叉学科技术，核心是从大量的生物医学文本比如医学论文、电子病历、基因数据库等中自动提取有用的信息。

研究人员发现，在生物医疗领域，仅靠持续扩充预训练数据并不能显著提升开源(yuán)生(shēng)物(wù)医(yī)学(xué)大(dà)语(yǔ)言(yán)模(mó)型(xíng)的(de)整(zhěng)体(tǐ)表(biǎo)现(xiàn)，针(zhēn)对(duì)具(jù)体(tǐ)医(yī)学(xué)任(rèn)务(wu)的(de)微(wēi)调(diào)才(cái)是(shì)关键。比(bǐ)如(rú)生(shēng)物(wù)医(yī)学(xué)领(lǐng)域特(tè)定(dìng)大(dà)模(mó)型(xíng)的(de)代(dài)表(biǎo)PMC -LLaMA，使(shǐ)用(yòng)了(le)32个(gè)A100 GPU对(duì)模(mó)型(xíng)进(jìn)行(xíng)预(yù)训(xun)练(liàn)，但(dàn)最(zuì)终(zhōng)评(píng)估(gū)并(bìng)未(wèi)发(fā)现(xiàn)该(gāi)模(mó)型(xíng)的(de)性(xìng)能(néng)有(yǒu)显著提升。PMC -LLaMA是由上海交通大学长聘轨副教授谢伟迪研究团队于2023年4月研发的垂类模型，基座模型使用的是LLaMA 2；研究人员发现，直接微调LLaMA 2可以获得更好或至少相似的性能。通过微调，模型可以针对性地学习医学领域的专业知识和复杂推理要求，从而在信息抽取、医学问答等任务上实现显著性能提升。

研究人员建议，未来在生物医疗应用中，应更多关注如何优化微调策略，以弥补预训练在处理专业医学文本时的不足。“需要一种更有效、更可持续的方法来开发特定于生物医学领域的大语言模型。”研究人员称。

相较于通用大模型，针对生物医疗领域里的“定制版”模型BioBERT和PubMedBERT（注释：Bert是一款由谷歌开发的预训练语言模型），在医学自然语言处理表现更出色。由于经过专业的医学数据训练，BioBERT和PubMedBERT这类“定制版”模型能够更精准地识别疾病名称、基因、化学物质以及理解医学术语，这一点表现比GPT-3.5和GPT-4为代表的通用大型语言模型更好。但涉及较为复杂的推理任务，尤其是医学问答方面，GPT-4则更有明显优势，能够“看懂并能思考”，生成更合理以及准确的回应。

对于生物医药行业普遍关心的大模型幻觉问题，此次研究结果表明，GPT-4在两个数据集上几乎没有出现幻觉问(wèn)题(tí)。在(zài)零(líng)样(yàng)本(běn)条(tiáo)件(jiàn)下(xià)，通(tōng)用(yòng)开源模型LLaMA 2则更容易出现幻觉问题，比如输出时常常出现信息不(bù)完(wán)整(zhěng)、格(gé)式(shì)不(bù)一(yī)致(zhì)或(huò)提(tí)示(shì)无(wú)关内(nèi)容(róng)的(de)情(qíng)况(kuàng)，它(tā)产(chǎn)生(shēng)的(de)幻(huàn)觉(jué)案(àn)例(lì)约(yuē)占(zhàn)测(cè)试(shì)样(yàng)本(běn)的(de)32%，比(bǐ)例(lì)远(yuǎn)超(chāo)GPT-3.5和(hé)GPT-4。

尽(jǐn)管(guǎn)GPT-4在(zài)众(zhòng)多(duō)评(píng)估(gū)任(rèn)务(wu)中(zhōng)表(biǎo)现(xiàn)优(yōu)异(yì)，但(dàn)研(yán)究(jiū)人(rén)员指出，其调用成本相当于GPT-3.5的60至100倍。对于预算有限的实际应用场景，医学机构可能会倾向于选用成本较低且效果可接受的GPT-3.5；而对于准确性要求极高、尤其是医学问答这类依赖复杂推理的任务中，GPT-4可能会是更理想的选择。



官方网站-首页

企业动态

医疗AI如何选？专用模型识别疾病更准，GPT-4推理能力强但成本高昂

07

2025-04

-07

返回列表

分享新闻

上一页

今日科普|数据分析师的工作内容

下一页

揭秘数据可视化艺术：从PPT到Excel，打造高效图表数据分析图