CDE如是说（二） | 患者报告结局测量量表的选择与评价

量表作为PRO测量工具应具有良好的度量性能，应既可靠又有效。

正确选择适用于拟开展的研究项目的用于PRO测量的量表甚为关键，结合科学性和可操作性，建议重点关注以下要点：

1. 量表的适用性：

考察量表的构建，关注其整体概念是否满足量表研发的目的和符合适用人群，研究目标人群应与原 182 研量表的适用人群一致。

2. 规范文件或系统：

是否有规范的量表相关文件或系统，包括但不限于说明文件（特别是量表得分的解释）、用户使用手册、数据收集的标准格式、重要的参考数据（用于设计时的样本量估计）等。

3. 研制过程：

量表的使用目的是否明确定义，研制过程是否严格规范，量表的结构（维度和条目及其赋权）是否合理，发表的结果是否详尽。

4.权威性：

研发成果是否在同行评议期刊公开发布，是否得到较广泛的引用和应用，是否被指南推荐。

5.语言和文化：

量表的有效性验证是否考虑了不同的教育、文化和种族背景；新的语种版本是否经过规范的翻译和回译以及验证。经翻译和/或文化调适后的量表其度量性能应与原研量表相近。

6.验证：

是否通过足够大的样本量进行验证，条目设计和赋值是否合理，是否有足够的信度和效度。

7. 可行性：

量表在使用时的可行性，包括但不限于实施过程的可操作性、使用多个量表时的条目重叠问题等。患者的应答负担过重可以导致缺失和拒绝应答现象增多，降低PRO数据的质量。

增加患者应答负担的因素包括：量表内容太多，内容重复性高，同时选择多个量表且其中某个/些量表意义不大，量表界面设计不便阅读，条目涉及不便回答的隐私，条目设计的不合理等。

一. 在临床研究中使用患者报告结局时，需要考虑到研究方案和研究报告中有关量表的阐述：

使用量表测量的患者报告结局作为关键指标时，应在研究方案中对其进行说明，包括但不限于：选择和使用量表的合理性；必要时简要介绍量表的研发和应用情况，

特别是针对某些应用较少的量表；量表度量性能的评价方法和指标；量表数据的采集与质量控制；量表数据的分析方法；量表使用的详细说明和培训计划等。

临床研究报告中应包括但不限于：量表数据的收集情况（有效应答、缺失等）；报告所使用量表的度量性能（如信度、效度），

并与原研量表比较，当差别比较大时，应分析具体原因和评价对研究结论的潜在影响；量表数据的详尽分析结果以及相应的合理解释。

二. 量表的有效应答

患者在填报量表时可能会出现缺失、消极应答（如在5级Likert条目的应答中固定勾选某一级）等现象，从而使得量表的数据失真，

因此，量表的使用都应设定有效应答的标准，并在量表使用说明书中规定。例如，某量表规定超过15%的条目未应答，或所有条目都勾选某一级（如“非常满意”）被视为该研究对象的无效应答。

在研究方案和统计分析计划中需要详细阐明判断有效应答的标准并阐述理由。如果最终判断为无效应答则与无应答一样视为缺失值处理。

有些情况下，除了考虑整个量表是否有效应答外，量表的某一维度可能被视为关键变量，此时可能会对维度的应答是否有效事先做出规定。

三缺失数据

PRO数据特别是量表测量的数据，出现缺失较为常见。因此，研究的实施过程中加强质量控制，尽可能减少缺失十分必要。

对于提前停止用药的患者，建议在条件允许的情况下继续收集PRO数据以减少信息的丢失。

对于多维度量表中的条目数据，通常会采用填补方法，具体方法优先采用原研量表说明书提供的方法，其次采用文献报道中的主流方法，再次通过当前研究数据的探索性分析确定（通常在探索性研究中完成）。

某些情况下，有可能采用医生评估和患者自评两种量表，如某研究同时采用医生评估的汉密尔顿抑郁量表和患者自评的患者全局改善量表，此时，如果不是两种量表出现相同的缺失，用其中的一种量表的观测数据估计另一种量表的缺失数据或许是更可取的填补方法。

如果不做填补，除了缺失太多被视为无效应答外，需要根据原研量表的规定或事先在方案中定义当条目的分值缺失时的规则处理整个量表和各维度的分值。

四、多重性问题

当PRO被列为主要终点之一或关键次要终点时，会涉及多重性问题，其一般处理原则参见《药物临床试验多重性问题指导原则》。

申办者需要在临床研究方案和统计分析计划中事先规定针对多重性问题所采用的决策策略和多重性调整方法。

PRO使用的量表通常包括多个维度，如果其中某个或某几个维度具有重要临床意义，并在方案中被列为关键次要指标（申报方拟在说明书中声称该特定获益），亦会涉及多重性问题，设计时需考虑整体I类错误的控制。

由于量表的多维度和多条目特性，除了侧重于量表整体得分的分析外，各个维度和条目的分析也是必要的，从广义上讲是涉及多重性问题的，

但只要它们未被列为主要终点或关键次要终点、或者不在说明书中声称特定的获益，无需进行多重性调整。

五、结果的解释

基于量表的PRO的结果解释与其它用来评估治疗获益的终点指标相同，阳性结果需同时具有临床意义和统计意义。

最小临床意义差别（minimum clinical important difference，MCID)通常用于界定临床意义的阈值，例如，使用10分制视觉模拟疼痛量表测量疼痛程度时，

干预前后平均分值下降多少才有临床意义，或较基线平均下降分两组的差值大于多少才有临床意义。

在确定MCID时，应首选相关指南、专家共识等公认的标准；如果没有公认的标准，则需与监管机构及时沟通交流并达成共识，统计方法可能为其提供一定的依据。

采用统计方法估计MCID，常用的有基于分布的方法和基于锚定的方法。基于分布的方法较为简单，有文献报道可以将 0.2、0.5、0.8 分别对应低、中、高效应量进行划分，在不同的研究中选择 0.2、1/3 或 0.5 的效应量为阈值。

该方法的主要缺陷是未考虑患者的观点。基于锚定的方法是根据患者对临床意义的感受设置一个外部的全局性指标（如无改善、轻微改善、显著改善），然后看对应的量表分值的变化量。

通常，全局性指标（等级变量）与量表分值变化量的相关系数至少达到0.3以上才有意义，有研究认为相关系数0.3为低度相关，0.5为高度相关。估计MCID还有其它统计方法，如基于混合线性模型的方法等，可进一步参阅相关文献。

另外，指导原则中关于PRO/ePRO的质量控制一章中特别提到了：

针对相关人员使用 PRO/ePRO测量工具的培训和指导，包括判断量表完整性的方法和标准，数据填写、存储、传输的时间和方式等，使之充分理解使用量表的目的、说明书中的具体内容以及在量表数据收集过程的质量控制环节。

如果经对研究数据的分析发现ePRO量表度量性能与原研量表有较大差距，应考虑ePRO量表在实施中存在的潜在问题，并予以纠正。

以上摘录自《患者报告结局在药物另研究中的应用指导原则（征求意见稿）》

近期监管部门出台的各项政策，为量表在临床研究项目中的应用指明了方向。

随着“以患者为中心”的临床研究理念逐步深入人心，代表患者之声的量表也将迎来属于他的蓬勃发展之势。

捷信深耕行业发展，立足中国，致力于为更多的药物研发企业提供国际品质的，

专业的量表服务。我们始终秉持“联结患者与希望”的理念，使更多患者从中获益。

1538

xincere

2021-11-25