样本量估计的第一步是确定临床试验的目的。确证性临床试验的研究目的主要包括有效性评价和安全性评价两个方面。样本量估计常用有效性指标计算。
临床试验常用的比较类型有优效性、等效性、非劣效性试验。有关这些比较类型的检验假设与统计推断的介绍参见第四章。
临床试验常用的设计类型有平行设计、交叉设计、析因设计、序贯设计和适应性设计等。关于这些设计的介绍参见第三、十六章。
临床试验样本量通常以试验的主要疗效指标来确定,如果需要同时考虑主要疗效指标外的其他指标时(如安全性指标或重要的次要指标),应明确说明其合理性,并且在设计时应针对主要疗效指标和其他指标分别提出统计假设,逐一计算样本量,然后取其中最大值作为最终样本量。
在确证性临床试验中,一般只有一个主要疗效指标,参数的确定主要依据已发表的资料或探索性试验的结果来估算,其中所预期疗效差值还应大于或等于在医学实践中被认为是具有临床意义的差异。需要强调的是,计划中的试验应与前期试验或文献中的试验具有一致的试验设计和目标人群。如果不完全一致,需对相应统计量的估值进行调整。
试验方案中需明确定义主要指标的类型。不同的指标类型通常对应不同的样本量估计方法。常用的指标类型包括定量、定性(如有效和无效)、等级(如痊愈、显效、有效、无效)、生存时间等。
效应量是样本量估计所需的最重要的参数之一,根据不同的指标类型,常见的效应量有:均数差值或标准化均数差值,率差( RD )或率比( RR 、 HR )、比值比( OR ),或相关系数、回归系数等。
效应量的确定应首选本研究的预试验、探索性试验等的结果。若缺乏本研究先前的研究数据,也可以选择公开发表的同类研究结果,并经荟萃分析得到合并效应量作为样本量估计的参数。对于单臂设计或配对双臂设计,若涉及标准对照参数(目标值)的确定,其途径的优先顺序大致为国际标准、国家标准、行业标准(或指南等)、被权威机构认可的企业标准、外部证据(同类研究的综合结果)等。
样本量估计需要考虑的统计特征包括试验的统计分析方法、检验水准、检验效能、单双侧检验和组间样本比例等。
样本量估计方法的选择有赖于统计学检验原理,因此,临床试验统计学分析方法的选择会影响所需样本量大小。需要注意的是,在临床试验设计中,通常采用成熟的统计学方法。
又称Ⅰ类错误概率,即当欲比较的两组间原本不存在差异时,通过假设检验得出两者存在差异的可能性,用 α 表示,常取双侧 α =0.05。对于优效性试验中设定的单侧 α =0.025以及等效性或非劣效性试验中设定的双单侧 α =0.025的情形,其与双侧 α =0.05其实是等价的。对于生物等效性检验,习惯取双侧 α =0.1。
指在特定的 α 水准下,若总体间确实存在差异,该研究能发现此差异的能力,用1- β 表示, β 表示Ⅱ类错误概率。检验效能越高,所需的样本量也越大。一般取 β =0.1或 β =0.2,相应的检验效能为0.9或0.8。在临床试验中,检验效能通常不得低于0.8。
在研究工作中选择单侧检验还是双侧检验要根据研究目的、资料性质及样本特征来确定。一般地,医学研究常使用双侧检验;若选用单侧检验,需在专业上给出充分的理由。如前所述,对于单侧检验水准为 α =0.025的话,其实质仍然是双侧 α =0.05。
在其他条件不变时,各组样本数相同时的检验效率最高,从而所需样本量最小。有时,在安慰剂对照的临床试验中,出于伦理学考虑,可能会设置试验组与对照组的样本比例为2:1或3:1。需要注意的是,试验组与对照组的样本分配比例一般不大于4:1,因为当分配比例大于4:1时,虽然只少量减少对照组样本例数,但可能会明显增大总研究例数,而对试验效率的增加作用有限。
在临床试验过程中,通常要在样本量估计的基础上适度增加样本量,以弥补由于病例的脱落、剔除等原因导致可评价病例数减少的情况。临床试验通常考虑不大于20%的脱落剔除率。例如,若脱落率设为20%,则所需总样本量=估计样本量/(1-20%)。