中文版 | English Version
BUPT 北邮
1月8日,Nature Medicine刊发题为“A generalist medical language model for disease diagnosis assistance(https://www.nature.com/articles/s41591-024-03416-6;医学通才语言模型,助力疾病辅助诊断)”的研究文章。北京邮电大学网络与交换技术全国重点实验室为本文第一单位,王光宇教授为本文最后通讯作者,杨国兴博士、蒋泽宇博士为共同第一作者,研究工作在张平院士的支持和指导下完成。该研究获得国家自然科学基金、国家重点研发计划项目、新基石科学基金会所设立的科学探索奖项目资助。香港中文大学(深圳)崔曙光院士团队及中科南京信息高铁研究院提供了算力平台支持。
文章中,研究团队提出并验证了当前具有最大规模参数量的生物医学大语言模型 MedFound(176B)。这是一个具有1760亿个参数的通用医学语言模型,在来自不同医学文本和真实世界临床记录的大规模语料库上进行预训练。这些数据包含了海量开源的中英文医学文献、书籍和“真实世界”的电子病历记录,确保模型获得全面的通用生物医学领域知识。该模型可以在多个维度上,如所有常见疾病、开放环境下的罕见疾病及推理能力等方面,突破了多学科知识整合能力和临床诊断思维能力,实现通才诊断。目前,团队已将MedFound开源并发布在Hugging Face,可为全球科研人员、临床医生、及医疗机构提供底层基础大模型服务及全方位的领域知识,将为未来的医疗智能化、个性化医疗和临床决策提供有力的支持。
1
走近MedFound:
目前最大规模参数的生物医学大模型
近年来,预训练语言模型(PLM)尤其是大语言模型(LLM)的出现,极大地推动了自然语言处理(NLP)领域的发展,在多个任务中展现出了少样本(few-shot)和零样本(zero-shot)学习的显著能力,有望解决生物医疗可用性“最后一公里”问题。然而目前仍然缺乏领域专门训练的、可公开获取的LLM模型。在此背景下,王光宇教授带领一支年轻的研究团队精心构建了一个涵盖广泛医学知识和临床经验的语料库,整合了庞大的开源中英文医学文献、专业书籍,以及来自“真实世界”的电子病历记录。利用这一高质量的数据资源,团队在计算平台上实现了大模型的高效分布式训练,支持节点故障容忍、混合精度训练、模型并行等技术,成功地训练出了拥有1760亿参数的大语言模型MedFound。
2
走近MedFound-DX:
多学科通才诊断
众所周知,精准诊断是现代医疗流程的基础和前提。随着大语言模型(LLM)技术的发展,尤其是其在知识整合、文本理解和推理方面的强大能力,为智能医学诊疗的变革提供了新的契机。然而,疾病诊断不仅要求大模型具备广泛的跨学科医学知识,还需要能够进行复杂推理。
团队基于MedFound模型,通过训练优化,打造了医学通才诊断大语言模型MedFound-DX,具备接近专家知识及推理能力,提供跨医疗场景的高效、准确诊断支持。
模型经过了哪些训练?
一起来看!
第一步:临床诊断思维训练,让模型具备诊断逻辑
为了解决大语言模型在诊断任务上缺乏推理能力的问题,团队通过基于自引导策略的思维链方法(Chain of Thought, CoT),让大模型学习医生的推理诊断。通过给大语言模型鼓励分步推理的提示,例如“让我们多思考几步”,引导模型先生成一系列的中间推理步骤,再生成最终答案。研究发现,这样的提示方法有助于提升大语言模型在推理任务上的表现。
让模型学会进行推理。流程有以下几个步骤。(1)初始化和扩展:医生在少量病历数据上标注诊断推理过程,构建种子数据集。模型微调后,在更多病历数据上生成诊断推理过程,得到候选数据。(2)过滤:对生成结果进行筛选,保留正确诊断的推理过程,或在修正诊断后重新生成推理过程,形成新的微调数据集。(3)微调:在扩展后的数据集上进一步微调模型,提升模型的诊断推理能力。
图:MedFound的预训练,微调和偏好对齐流程
第二步:统一的偏好对齐(Preference Alignment)框架,对齐真实世界临床需求
为了进一步优化 MedFound 模型,使其行为与人类意图和医学领域的价值观对齐,团队还引入了统一的偏好对齐(Preference Alignment)框架,将LLM与专业领域的知识体系和临床诊断偏好对齐,确保模型在诊断决策时不仅科学合理,而且符合临床实践中的专家决策逻辑。团队设计的统一偏好学习框架包含两方面:一方面引导模型提升疾病识别的细粒度准确性,另一方面提高模型生成推理过程的信息量、有效性和可信性,降低伤害或误导信息的风险。
图:诊断通用系统的开发与评估示意图
经过上述训练优化,研究团队对模型进行了广泛实验验证,并提出了一个人类评估框架——CLEVER(临床有效推理评估)并纳入八项评估指标,如医学知识、诊断推理和风险管理等能力。经验证,基于MedFound的通才诊断模型在各个专病,包括基本所有常见疾病和罕见疾病上都表现出了卓越的性能,展现出在多学科上进行准确推理的潜力,为解决医疗诊断决策的“最后一公里”困境带来了新的解决思路。
3
模型诊断VS医生临床诊断
对于上述病情描述,医生初步诊断为急性支气管炎,而MedFound模型给出的推理思路强调了患者有反复支气管炎的病史,在模型提示下,医生将诊断结果修正为慢性支气管炎急性加重。
对于上述病情描述,医生在观察到患者实验室检测中促甲状腺激素(TSH)水平升高时,初步诊断为亚临床甲状腺功能减退,而MedFound模型诊断为自身免疫性甲状腺疾病,并强调了之前被忽视的抗甲状腺过氧化物酶抗体水平升高,提示可能存在潜在的自身免疫性甲状腺疾病。因此,医生将诊断结果修正为自身免疫性甲状腺炎。研究结果表明,MedFound模型具备在临床工作流中辅助专家,提升诊断效率和准确度的潜力。
4
面向全球开源
为了验证模型的有效性,团队开展了一系列的消融实验(消融实验, 是一种在深度学习领域常用的研究方法,用于评估模型的不同部分对整体性能的贡献。它的核心思想是通过移除模型的某个部分,观察其性能变化,从而评估该部分的重要性)。实验验证结果支撑了专家评审意见,认为MedFound模型“provide valuable insights into the development of clinical LLMs”。目前,团队已将MedFound开源并发布在Hugging Face,为全球科研人员、临床医生、及医疗机构提供基础大模型服务及全方位的领域知识,预计将为生物医学研究、个性化医疗和临床决策提供有力的支持。
在AI与医学的交汇中
北邮人迎难而上
为医疗从业人员提供数字支持
为传递生命积蓄力量
在科技报国的路上
北邮人始终一往无前、勇攀高峰!
出品:党委宣传部(新闻中心)
制作:北京邮电大学学生记者团
排版:万雅馨
责编:曹雨晨
审核:胡启镔 申晶晶