固定随机化方法(fixed allocation procedure)是按照事先确定的概率将受试者分配到各组中,在整个研究过程中分配概率保持不变。常见的有简单随机化、区组随机化和分层随机化方法。
简单随机化(simple randomization)也称为完全随机化(complete randomization),指除了为获得期望的统计学检验效能而对受试者的数量及组间分配比例有所要求外,对随机化序列不强加任何限制的随机化过程。随机化分组可用SAS统计分析软件提供的plan过程来完成,该过程主要用于产生各种随机化分配设计方案。
例5-1 将20名受试者完全随机地分到2个处理组,可以采用如下程序:
proc plan seed = 123;
factors no = 20;
treatments treat = 20 cyclic(1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2);
output out = out5_1;
run;
proc print data = out5_1;
run;
其中,plan过程用选项seed来指定初始化伪随机数发生器,称为种子数。种子数需为正整数;缺省时或者指定的种子数≤0时,系统会自动读取计算机的日期时间值作为种子数。指定种子数可以使随机数能够重现。factors语句定义因素no表示受试者的编号,因为没有其他因素,所以no必须指定水平数为20,才能产生实验重复次数为20的设计方案。treatments语句可将产生的随机号均匀分到两个组,cyclic选项中的编码1、2分别代表A、B两个试验组,即将在factors中产生的随机数中的前10个分到A组,后10个分到B组。结果如下:
简单随机化的优势是简单易行,但也有缺点。虽然整体来看,各组的受试者分配是按照预期概率的,但在某些局部包括在结束时可能产生分组不均衡。比如上述例子中,1~3号连续3个2组,之后8~10号出现连续3个1组。这种失衡不会导致统计检验无效,但有可能会影响检出两组差异的能力,比如产生协变量失衡。因此,简单随机化在实际中使用较少。
相对于简单随机化,更理想的方法是在给受试者安排顺序时,先把受试者划分成相同或不同的若干区组,同一区组内受试者的性质相同或接近,然后对每个区组内的受试者进行随机分配,这就是区组随机化(block randomization)。这也是在临床试验中最常使用的随机分配方法。
例5-2 将40例受试者按区组随机化的方法分配到4个处理组,区组大小为4。可采用如下SAS程序:
proc plan seed = 456;
factors block = 10 ordered treat = 4;
treatments no = 4 of 40 cyclic(1 2 3 4)4;
output out = out5_2;
run;
proc print data = out5_2;
run;
其中,factors语句定义因素block表示区组,指定ordered方法以产生顺序区组号;因素treat代表4个处理组。treatments语句定义因素no为受试者的编号,总共40个受试者,一次4个将它们顺序编号分配到各个区组中,cyclic选项中的编码1、2、3、4分别代表4个处理组,cyclic括号后的4表示每编号一次,括号内的编号增加4。结果如下:
与简单随机相比,区组随机可以使同一时间段同一区组内的受试者在各治疗组间的分配比例符合预设要求。当受试者基线特征可能随入组时间变化,且完成所有受试者入组所需的时间较长时,区组随机分配有助于减少季节、疾病流行等客观因素对疗效评价的影响,也可减少因方案修订(例如入选标准的修订)所造成的组间受试者比例失衡。
区组随机化要事先确定区组中受试对象的数目,即区组长度,然后在区组内随机分配。区组长度要适当,一方面,区组长度应大于治疗组数,但太大易造成组间分配不均衡;另一方面,区组长度太小则易造成同一区组内受试者分组的可预测性,特别是在开放性研究中。如每一区组为4名受试者,如第一个区组前3名受试者分属B、A、B组,则第四名受试者必属A组。区组越小则越易预测,因此应尽可能避免长度为2的区组。一般区组长度要大于或等于组数,通常取组数的2~3倍,如组数为2,即试验组和对照组,则区组长度可以取4或6。另外也可以采用可变区组来避免区组长度的可预测性。如将30名受试对象随机分配到试验组和对照组,可以安排区组长度分别为4、6、2、4、4、6、4的区组,每个区组内随机分配受试者进入试验组或对照组。当随机分配结束时,如果某区组实际入组的受试者小于该区组长度,则称该区组为碎片区组。如果碎片区组的数量较多,可能破坏随机分配比例和基线均衡性,应尽可能减少或避免碎片区组。
在任何试验中,总希望某些会严重影响结果的因素在各组的分布尽可能均衡。如在前面提到过的中心随机化就是以中心作为层的分层随机化。在用不同药物治疗同一种癌症时,癌症的病理类型和分期,以及其他因素如乳腺癌患者是否已绝经以及病灶范围等势必影响患者的预后。若各组差异很大则会影响到对处理效果的评价,这时可以将这些因素作为层进行分层随机化。
虽然采用某些多元统计方法可以在一定程度上减少各对比组间某些重要因素分布不均衡对处理效果的影响,但降低了统计效率。同时,若样本量很大,根据概率论,各组间各因素分布不会相差很大。但一般临床试验样本量都不会非常大,因而分层随机化有时是必要的。
分层因素需根据不同的疾病而定。如治疗乳腺癌的试验分层可为“有无淋巴结转移”及“年龄”(年龄≥50岁,年龄<50岁)。年龄不仅会影响到术后生存时间,而且与免疫佐剂的疗效有关。同时如以50岁分组则又与是否绝经基本一致。
每个分层因素要进行分级,以便组成层次。如在塞替派治疗乳腺癌的研究中可按照“有无淋巴结转移”及“年龄”分成以下4个层:年龄<50岁,无阳性淋巴结;年龄≥50岁,无阳性淋巴结;年龄<50岁,有阳性淋巴结;年龄≥50岁,有阳性淋巴结。
分层随机化时,受试者入选时首先确定属于哪一层,然后在各层内分别随机分配受试者。随机分配表应事先分层编制。如表5-1为分层区组大小为16的安排。
表5-1 塞替派治疗乳腺癌临床试验的受试者分层随机分配
A:塞替派;B:安慰剂
分层因素不能多,因为因素一多则其组合就很多。若有5个因素,前3个因素各分成两级,后两个因素分成三级,则共有2×2×2×3×3=72个层,会导致较多不完整区组(区组碎片),即会使有些层次受试者数不足。这个问题在小规模的临床试验中尤难解决,但往往正是小规模的试验更需要进行分层,因此要精选分层的因素。
多中心研究中,各中心的受试者选择和试验条件不同可能会得到不同的疗效。为此,可建议将中心作为一个分层因素。
如果分层随机分配所构成的各个层的样本量不能事先确定,而是基于实际入组情况而定,若层内采用简单随机分配,往往无法保证试验组与对照组的实际随机分配比例符合预先设定,并有可能导致组间基线协变量失衡,尤其当某些层的实际入组受试者较少时更易发生,在这种情况下,为保证各层内组间分配比例符合预设及组间基线均衡,可以采用分层区组随机化(即在每个层内采用随机区组分配)。如例5-2中,如果有一个二分类的分层因素——病情严重程度(中度、重度),可以先按区组随机化方法生成随机分配表,然后按入组受试者的分层特征将1个或多个区组安排给该层。比如第一例入组受试者病情严重程度为中度,可以安排第一个区组给病情严重程度中度这一层,受试者按随机号由小到大顺次取号,取1号(no=1);如果第二例受试者病情严重程度也为中度,则在第一个区组内顺次取2号;如果第三例受试者病情严重程度为重度,这时第一个区组已经被病情严重程度中度这一层使用,因此另行安排第二个区组给病情严重程度重度这一层,该受试者取第二个区组的第一个随机号,即5号。如果某一个区组内随机号分配完毕,则需另安排一个新的区组进行随机;但如果同一层里某一区组的随机号没有分配完毕就另外安排新区组,就可能导致碎片区组数量较多,破坏随机分配比例和基线均衡性。