AI医疗器械临床试验设计难在哪里？样本、金标准、终点和分层分析都不能忽视_人工智能与数字健康_专业领域

AI医疗器械临床试验设计难在哪里？样本、金标准、终点和分层分析都不能忽视

AI医疗器械进入注册申报阶段后，项目团队往往最先关注算法指标。但在注册临床试验中，审评关注的不只是“算法准不准”，更是它能否在明确的预期用途、目标人群、临床流程和使用环境下，形成可审评、可复核、可外推的临床证据。

介绍

AI医疗器械临床试验设计四个关键问题

图1 AI医疗器械临床试验设计四个关键问题

国家药监局器审中心已发布《人工智能医疗器械注册审查指导原则》，并针对人工智能辅助检测类产品发布临床评价注册审查指导原则。这意味着AI类产品的临床评价正在从“技术验证”进一步走向“场景化证据验证”。对于准备开展注册临床试验的AI医疗器械项目而言，方案设计阶段的关键问题，通常集中在以下四个方面。

样本：不是“越多越好”，而是要能代表真实临床场景

AI产品的样本设计不同于普通器械。普通器械更多关注受试者数量是否满足主要评价指标的统计学要求，而AI医疗器械还要进一步回答：样本是否覆盖算法可能遇到的真实数据分布。

例如影像AI产品，样本不仅涉及阳性、阴性病例数量，还涉及病灶大小、病变类型、严重程度、图像质量、扫描设备型号、采集参数、中心来源、阅片医生经验等因素。如果样本主要来自单一中心、单一设备或高度理想化的数据集，即便统计结果较好，也可能难以证明产品在目标使用环境下具备充分的泛化能力。

《医疗器械临床试验设计指导原则》强调，样本量设计需要围绕试验目的、评价指标、比较类型和统计学假设展开。对AI产品来说，这意味着样本量估算不能只算“总例数”，还要同步考虑阳性样本、阴性样本、特殊亚型样本以及关键分层样本是否充足。

方案设计建议

在临床试验启动前，应建立“样本分布矩阵”，至少明确疾病谱、严重程度、采集设备、中心来源、目标人群、影像/数据质量等级等维度，避免试验后期才发现关键亚组不足。

金标准：不是一句“专家判读”，而是一套可复核的参考标准

AI辅助检测、辅助诊断类产品常常需要与“金标准”或临床参考标准进行比较。难点在于，很多AI产品面对的并不是简单的二分类判断，而是病灶定位、风险分级、图像分割、异常提示、治疗辅助决策等复杂任务。此时，谁来判定真值、如何形成一致意见、分歧如何处理，都会影响试验结论的可信度。

在部分场景中，病理结果、手术结果、随访结局可以作为较强参考标准；但在影像检测、病变识别、功能测量等场景中，可能需要建立由多名专家、统一判读规则、盲法流程和仲裁机制构成的参考标准体系。

因此，AI产品的金标准设计不能只写“由高级职称医生判定”，还要写清楚医生数量、专业背景、阅片流程、独立性、盲法要求、一致性评价、争议处理和数据留痕方式。否则，即便试验数据量充足，也可能因为参考标准不稳固，削弱整个临床证据链。

方案设计建议

对AI辅助检测产品，建议在方案中单独设置“临床参考标准构建”章节，明确参考标准来源、专家组成、判读规则、仲裁流程和质控要求。对于金标准不唯一的产品，应提前论证参考标准的科学性和可接受性。

终点：不能只证明“算法准”，还要证明“临床上有用”

AI医疗器械临床试验的终点设计，最容易出现两个偏差：一是只关注算法离线性能，忽视临床流程中的实际使用效果；二是主要评价指标设置过多，导致统计假设不清晰，试验目的不聚焦。

如果产品定位是“辅助检测”，终点可能需要关注病灶检出率、敏感度、特异度、AUC、假阳性数量、阅片时间、医生使用AI前后的诊断表现等。如果产品定位是“辅助诊断”或“辅助决策”，评价终点就不能停留在图像层面的准确性，还需要结合临床诊疗路径，说明AI输出如何影响医生判断、患者管理或风险分层。

主要终点应与产品说明书中的预期用途保持一致；次要终点可围绕医生效率、诊断一致性、异常提示价值、假阳性负担、可用性和安全性展开。若产品声称“提升医生诊断能力”，就应考虑设置“医生独立判读”与“AI辅助判读”的比较框架，而不是只展示AI单独输出结果。

图2 AI产品临床证据链：从算法输出到注册申报

分层分析：不是附加项，而是证明泛化能力的关键证据

AI医疗器械的临床风险，往往隐藏在总体结果之下。总体敏感度、总体特异度看似达标，并不代表不同中心、不同设备、不同人群、不同疾病亚型下都表现稳定。对于审评而言，分层分析可以帮助判断算法是否存在特定场景下的性能衰减，也能帮助说明产品适用范围和使用限制。

常见需要关注的分层维度包括：不同临床中心、不同设备型号、不同采集协议、不同病灶大小、不同疾病分期、不同年龄段、不同性别、不同影像质量、不同医生经验层级等。对于训练数据与临床试验数据存在明显差异的产品，还应特别关注目标临床场景与算法开发数据之间的一致性。

在方案设计阶段，应预先定义关键分层因素，而不是试验结束后临时补做探索性分析。对于可能影响算法性能的核心因素，应提前规划样本分布、统计方法和解释策略，避免“总体达标、亚组失衡”的审评风险。

AI临床试验方案设计前置核查清单

核查维度	方案中需要写清楚	常见风险
样本设计	疾病谱、阳性/阴性比例、中心来源、设备型号、图像质量、关键亚组	总样本量充足，但关键亚组不足
参考标准	专家构成、盲法、独立判读、一致性评价、仲裁机制、数据留痕	只写专家判读，缺少可复核流程
评价终点	主要终点、次要终点、安全性指标、临床价值解释	终点与预期用途或说明书声称不一致
统计分析	样本量估算依据、优效/非劣效假设、MRMC或配对设计、缺失值处理	统计假设不清晰，试验结束后难解释
分层分析	中心、设备、人群、病灶亚型、疾病严重程度、图像质量等预设分层	总体达标但泛化能力证据不足
注册衔接	临床报告、说明书限制、风险控制、软件更新和上市后监测衔接	临床证据无法自然支撑注册资料

CRO临床试验专业性的价值：把算法问题翻译成注册证据问题

AI医疗器械临床试验并不是把算法测试集扩大到医院场景那么简单。它需要同时理解产品技术特征、临床诊疗流程、统计学设计、数据管理、中心执行、伦理合规和注册审评逻辑。

对项目团队而言，越早把临床试验设计前置到产品开发和注册路径判断阶段，越容易降低后期返工风险。尤其是样本分布、金标准构建、主要终点、阅片者设计、分层分析和数据闭环，一旦在方案阶段没有规划清楚，后续即使补充数据，也可能面临周期延长、成本增加或证据解释不足的问题。

德大医学可围绕AI医疗器械注册临床试验提供方案设计、中心筛选、伦理申报、临床监查、数据管理、生物统计、临床试验报告撰写及注册资料衔接支持，帮助项目团队在试验启动前完成关键风险识别，把“算法性能”转化为能够支撑注册申报的临床证据。

官方来源链接

1. 国家药监局器审中心：《人工智能医疗器械注册审查指导原则》（2022年第8号）

2. 国家药监局器审中心：《人工智能辅助检测医疗器械（软件）临床评价注册审查指导原则》（2023年第38号，长三角分中心转载页面）

3. 国家药监局、国家卫生健康委：《医疗器械临床试验质量管理规范》（2022年第28号）

4. 国家药监局：《医疗器械临床评价技术指导原则等5项技术指导原则》（2021年第73号）

5. FDA：Artificial Intelligence in Software as a Medical Device

6. IMDRF：Software as a Medical Device (SaMD): Clinical Evaluation

适用场景：德大医学官网文章｜AI医疗器械临床试验设计专题