技术详解

深入探索MAI-DxO如何通过创新的评估框架与系统设计,重新定义AI医疗诊断。

传统AI诊断评估的局限性

长期以来,对语言模型(LM)医疗能力的评估严重依赖静态基准。这些基准通常将病例的所有信息——主诉、病史、体检发现和检查结果——打包成一个完整的“案例简介”,然后要求模型从预设选项中选择一个诊断。这种方法有几个核心缺陷:

  • 脱离现实: 它将复杂的序贯诊断过程简化为了一次性的多项选择题,忽视了医生在现实中如何通过逐步收集证据来缩小鉴别诊断范围。
  • 高估模型能力: 由于所有信息都已提供,模型无需进行信息收集和权衡,这可能掩盖其在实际应用中的弱点,如过早下结论(premature diagnostic closure)、无差别地安排检查或固守早期假设(anchoring bias)。
  • 忽视成本效益: 静态评估通常只关注诊断的准确性,而忽略了在达到这一诊断过程中的医疗成本,这与追求高质量、可持续医疗服务的“三重目标”(Triple Aim)相悖。

为了解决这些问题,我们构建了一个更接近真实临床场景的评估框架。


SDBench:一个更真实的序贯诊断基准

为了模拟真实的诊断流程,我们推出了序贯诊断基准(Sequential Diagnosis Benchmark, SDBench)。该基准将304个来自《新英格兰医学杂志》(NEJM)的复杂临床病理会议(CPC)案例,转化为交互式的诊断挑战。SDBench的核心由四个智能体协作完成,它们共同构成了一个动态的评估环境:

诊断代理 (Diagnostic Agent)

可以是人类医生或AI系统。它从一个简短的病例摘要开始,必须自主决定下一步是提问、要求检查,还是给出最终诊断。

信息守门员 (Gatekeeper)

一个关键的语言模型,它掌握着完整的病例信息但并不会主动提供。只有当诊断代理提出明确的请求时,它才会披露相应的信息。它甚至能为原始病例中未提及的检查合成符合逻辑的、真实的检查结果。

诊断裁判 (Judge)

为了解决同一诊断可能有不同表述的问题,该模型会根据临床实质(核心病种、病因、部位等)对最终诊断进行评分,而不是简单地进行文本匹配。

成本估算器 (Cost Estimator)

该系统将诊断代理请求的检查项目转换为标准的医疗程序编码(CPT codes),并根据真实的美国卫生系统定价表计算累计的医疗费用。

通过这种设计,SDBench不仅评估诊断的准确性,还评估了诊断过程的效率和成本,为我们提供了一个更全面的视角来衡量AI的临床推理能力。


MAI-DxO:模拟虚拟医生团队的AI编排器

仅仅有一个好的基准是不够的,还需要一个能够在该基准上表现出色的AI系统。为此,我们设计了 MAI诊断编排器(MAI Diagnostic Orchestrator, MAI-DxO)。它并非一个单一的模型,而是一个模仿多位医生协作诊疗的智能系统。其核心思想是利用一个强大的语言模型扮演一个虚拟医生小组中的五个不同角色,每个角色都有明确的职责:

  • Dr. Hypothesis (假设生成器): 系统性思考,始终维持一个动态的、概率排序的鉴别诊断列表。
  • Dr. Test-Chooser (检查选择器): 高效决策,专注于选择能最大化区分不同可能性的检查,避免盲目性。
  • Dr. Challenger (挑战者): 避免偏见,主动寻找反面证据,从而避免“锚定效应”。
  • Dr. Stewardship (成本管家): 成本控制,确保了系统在追求准确性的同时,也关注成本,会主动寻找更便宜的替代方案。
  • Dr. Judge (诊断裁判): 精准判断,基于临床实质对最终诊断的质量进行精确评估。

这种多角色协作机制使MAI-DxO能够系统性地思考,高效地决策,同时避免认知偏见并控制成本,最终实现准确性与效率的双重飞跃。