北京邮电大学成功训练出拥有1760亿参数的大语言模型medfound-云顶4008游戏官网
1月8日,nature medicine刊发题为“a generalist medical language model for disease diagnosis assistance(https://www.nature.com/articles/s41591-024-03416-6;医学通才语言模型,助力疾病辅助诊断)”的研究文章。北京邮电大学为本文第一单位,王光宇教授为本文最后通讯作者,杨国兴博士、蒋泽宇博士为共同第一作者,研究工作在张平院士的支持和指导下完成。该研究获得国家自然科学基金、国家重点研发计划项目、新基石科学基金会所设立的科学探索奖项目资助。香港中文大学(深圳)崔曙光院士团队及中科南京信息高铁研究院提供了算力平台支持。
文章中,研究团队提出并验证了当前具有最大规模参数量的生物医学大语言模型 medfound(176b)。这是一个具有1760亿个参数的通用医学语言模型,在来自不同医学文本和真实世界临床记录的大规模语料库上进行预训练。这些数据包含了海量开源的中英文医学文献、书籍和“真实世界”的电子病历记录,确保模型获得全面的通用生物医学领域知识。该模型可以在多个维度上,如所有常见疾病、开放环境下的罕见疾病及推理能力等方面,突破了多学科知识整合能力和临床诊断思维能力,实现通才诊断。目前,团队已将medfound开源并发布在hugging face,可为全球科研人员、临床医生、及医疗机构提供底层基础大模型服务及全方位的领域知识,将为未来的医疗智能化、个性化医疗和临床决策提供有力的支持。