AI医疗器械进入注册申报阶段后,项目团队往往最先关注算法指标。但在注册临床试验中,审评关注的不只是“算法准不准”,更是它能否在明确的预期用途、目标人群、临床流程和使用环境下,形成可审评、可复核、可外推的临床证据。
AI医疗器械进入注册申报阶段后,项目团队往往最先关注算法指标。但在注册临床试验中,审评关注的不只是“算法准不准”,更是它能否在明确的预期用途、目标人群、临床流程和使用环境下,形成可审评、可复核、可外推的临床证据。

图1 AI医疗器械临床试验设计四个关键问题
国家药监局器审中心已发布《人工智能医疗器械注册审查指导原则》,并针对人工智能辅助检测类产品发布临床评价注册审查指导原则。这意味着AI类产品的临床评价正在从“技术验证”进一步走向“场景化证据验证”。对于准备开展注册临床试验的AI医疗器械项目而言,方案设计阶段的关键问题,通常集中在以下四个方面。
AI产品的样本设计不同于普通器械。普通器械更多关注受试者数量是否满足主要评价指标的统计学要求,而AI医疗器械还要进一步回答:样本是否覆盖算法可能遇到的真实数据分布。
例如影像AI产品,样本不仅涉及阳性、阴性病例数量,还涉及病灶大小、病变类型、严重程度、图像质量、扫描设备型号、采集参数、中心来源、阅片医生经验等因素。如果样本主要来自单一中心、单一设备或高度理想化的数据集,即便统计结果较好,也可能难以证明产品在目标使用环境下具备充分的泛化能力。
《医疗器械临床试验设计指导原则》强调,样本量设计需要围绕试验目的、评价指标、比较类型和统计学假设展开。对AI产品来说,这意味着样本量估算不能只算“总例数”,还要同步考虑阳性样本、阴性样本、特殊亚型样本以及关键分层样本是否充足。
方案设计建议
在临床试验启动前,应建立“样本分布矩阵”,至少明确疾病谱、严重程度、采集设备、中心来源、目标人群、影像/数据质量等级等维度,避免试验后期才发现关键亚组不足。
AI辅助检测、辅助诊断类产品常常需要与“金标准”或临床参考标准进行比较。难点在于,很多AI产品面对的并不是简单的二分类判断,而是病灶定位、风险分级、图像分割、异常提示、治疗辅助决策等复杂任务。此时,谁来判定真值、如何形成一致意见、分歧如何处理,都会影响试验结论的可信度。
在部分场景中,病理结果、手术结果、随访结局可以作为较强参考标准;但在影像检测、病变识别、功能测量等场景中,可能需要建立由多名专家、统一判读规则、盲法流程和仲裁机制构成的参考标准体系。
因此,AI产品的金标准设计不能只写“由高级职称医生判定”,还要写清楚医生数量、专业背景、阅片流程、独立性、盲法要求、一致性评价、争议处理和数据留痕方式。否则,即便试验数据量充足,也可能因为参考标准不稳固,削弱整个临床证据链。方案设计建议
对AI辅助检测产品,建议在方案中单独设置“临床参考标准构建”章节,明确参考标准来源、专家组成、判读规则、仲裁流程和质控要求。对于金标准不唯一的产品,应提前论证参考标准的科学性和可接受性。AI医疗器械临床试验的终点设计,最容易出现两个偏差:一是只关注算法离线性能,忽视临床流程中的实际使用效果;二是主要评价指标设置过多,导致统计假设不清晰,试验目的不聚焦。
如果产品定位是“辅助检测”,终点可能需要关注病灶检出率、敏感度、特异度、AUC、假阳性数量、阅片时间、医生使用AI前后的诊断表现等。如果产品定位是“辅助诊断”或“辅助决策”,评价终点就不能停留在图像层面的准确性,还需要结合临床诊疗路径,说明AI输出如何影响医生判断、患者管理或风险分层。
主要终点应与产品说明书中的预期用途保持一致;次要终点可围绕医生效率、诊断一致性、异常提示价值、假阳性负担、可用性和安全性展开。若产品声称“提升医生诊断能力”,就应考虑设置“医生独立判读”与“AI辅助判读”的比较框架,而不是只展示AI单独输出结果。

图2 AI产品临床证据链:从算法输出到注册申报
AI医疗器械的临床风险,往往隐藏在总体结果之下。总体敏感度、总体特异度看似达标,并不代表不同中心、不同设备、不同人群、不同疾病亚型下都表现稳定。对于审评而言,分层分析可以帮助判断算法是否存在特定场景下的性能衰减,也能帮助说明产品适用范围和使用限制。
常见需要关注的分层维度包括:不同临床中心、不同设备型号、不同采集协议、不同病灶大小、不同疾病分期、不同年龄段、不同性别、不同影像质量、不同医生经验层级等。对于训练数据与临床试验数据存在明显差异的产品,还应特别关注目标临床场景与算法开发数据之间的一致性。
在方案设计阶段,应预先定义关键分层因素,而不是试验结束后临时补做探索性分析。对于可能影响算法性能的核心因素,应提前规划样本分布、统计方法和解释策略,避免“总体达标、亚组失衡”的审评风险。| 核查维度 | 方案中需要写清楚 | 常见风险 |
|---|---|---|
样本设计 | 疾病谱、阳性/阴性比例、中心来源、设备型号、图像质量、关键亚组 | 总样本量充足,但关键亚组不足 |
参考标准 | 专家构成、盲法、独立判读、一致性评价、仲裁机制、数据留痕 | 只写专家判读,缺少可复核流程 |
评价终点 | 主要终点、次要终点、安全性指标、临床价值解释 | 终点与预期用途或说明书声称不一致 |
统计分析 | 样本量估算依据、优效/非劣效假设、MRMC或配对设计、缺失值处理 | 统计假设不清晰,试验结束后难解释 |
分层分析 | 中心、设备、人群、病灶亚型、疾病严重程度、图像质量等预设分层 | 总体达标但泛化能力证据不足 |
注册衔接 | 临床报告、说明书限制、风险控制、软件更新和上市后监测衔接 | 临床证据无法自然支撑注册资料 |
AI医疗器械临床试验并不是把算法测试集扩大到医院场景那么简单。它需要同时理解产品技术特征、临床诊疗流程、统计学设计、数据管理、中心执行、伦理合规和注册审评逻辑。
对项目团队而言,越早把临床试验设计前置到产品开发和注册路径判断阶段,越容易降低后期返工风险。尤其是样本分布、金标准构建、主要终点、阅片者设计、分层分析和数据闭环,一旦在方案阶段没有规划清楚,后续即使补充数据,也可能面临周期延长、成本增加或证据解释不足的问题。
德大医学可围绕AI医疗器械注册临床试验提供方案设计、中心筛选、伦理申报、临床监查、数据管理、生物统计、临床试验报告撰写及注册资料衔接支持,帮助项目团队在试验启动前完成关键风险识别,把“算法性能”转化为能够支撑注册申报的临床证据。1. 国家药监局器审中心:《人工智能医疗器械注册审查指导原则》(2022年第8号)
2. 国家药监局器审中心:《人工智能辅助检测医疗器械(软件)临床评价注册审查指导原则》(2023年第38号,长三角分中心转载页面)
3. 国家药监局、国家卫生健康委:《医疗器械临床试验质量管理规范》(2022年第28号)
4. 国家药监局:《医疗器械临床评价技术指导原则等5项技术指导原则》(2021年第73号)
5. FDA:Artificial Intelligence in Software as a Medical Device
6. IMDRF:Software as a Medical Device (SaMD): Clinical Evaluation
适用场景:德大医学官网文章|AI医疗器械临床试验设计专题