拉曼光谱技术可应用于活体组织中提取生物分子信息并通过光谱的方式来呈现强度信息作为医疗诊断的依据。然后,光谱信息通常是包含多元变量(波数)的数据集和不同的组织分类(正常、良性、异型增生、瘤变和癌症等)。另一方面,每个单独光谱所包含的生物化学信息通常也包含了很多重叠的能带波段。所以,直接通过视觉上直观检视组织病理学上的微小差异来区分正常组织和癌前期或癌症组织并不容易。因此,需要应用多变量数学统计方法来作为有效的分类算法将高维复杂的坐标数据简化至低维可判断的坐标空间进而实现组织特定性的分类。
多变量统计分析涉及有许多个体或对象的多变量的样本测量数据集,一般而言,它有许多不同类型的数学模型例如主成分分析(PCA),线性判别分析(LDA),偏最小二乘法(PLS),方差分析(ANOVA),人工神经网络(ANN)和支持向量机(SVM),这些都广泛地应用于各种癌症病变诊断模型的光谱仪。然而,这些不同的技术都不能完全满足各项临床应用中的需求。因此,我们这里对上述常见的多元统计分析技术做一个简单的介绍。
在研究多变量问题的时候,特征变量(维度)太多会增加计算量和复杂度,而且各变量之间还存在相关性(即统计数据信息在一定程度上有重叠),而主成分分析(principal component analysis,PCA)简单地说就是一个数据降维过程,是解决这类问题的理想工具。它通过正交变换把高维(多变量)数据投射到低维(较少变量)的空间,使得新的数据中不相关的各个维度变量(称为主成分或主元)仍包含原始数据空间最大的信息量作为后续分析的依据。主成分的数量少于或等于原数据空间的维数,这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依此类推。总而言之,主成分分析的目的是减少数据集的维数,同时又保留了数据集中方差差异贡献最大的特征变量。因此,关于如何取舍哪些主成分(实现降维)的方法也有不少,其中一个常见的依据是当某个主元使总方差变大时,则该主成分及其之后的所有主成分全部舍弃。另外一个准则是选取能够使其累积方差达到总方差一定百分比(如90%)的主元。此外,主成分分析过程还把数据矩阵分解出计分(scores)和负荷(loadings),这也可用来作为评估测量样本之间关系的方法,其中通过检查计分(scores)的图表有助于检测潜在异常样本。
线性判别分析(linear discriminant analysis,LDA),简称判别分析,是统计学上的一种分析方法,用于在已知的分类之下遇到有新的样本时,选定一个判别标准,以判定如何将新样本放置于哪一个类别之中。这种方法主要应用于医学的患者疾病分级,以及人脸识别等领域。它的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,线性判别分析和方差分析及回归分析密切相关。同样的,线性判别分析用其他特征或者测量值的线性组合表征某一变量。通常,线性判别分析也和主成分分析相关,因为它们都寻找变量之间的线性组合来更好的表达数据,而判别分析明确的使用了不同类型的差异来建模,相比之下,主成分分析则并不考虑类型上的差异。简言之,线性判别分析的目的是寻找一个判别函数线可以最大化不同组数据之间的差异和最小化同组不同成员数据的差异。因此,新测量的数据样本可以根据已建模好的判别函数线的位置得到判别结果。
偏最小二乘法(partial least squares,PLS)也称最小平方法,是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小,通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。偏最小二乘回归的特点是:①能够在自变量存在严重多重相关性的条件下进行回归建模;②允许在样本点个数少于变量个数的条件下进行回归建模;③偏最小二乘回归在最终模型中将包含原有的所有自变量;④偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的偏最小二乘法噪声);⑤在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系。简略地说,多元偏最小二乘法的基本模型是为了找到关于X和Y的线性分解(如下公式)使得满足潜变量矩阵T和U的协方差最大化。
X = TP - + E
Y = UQ + + F
其中,T和U分别是X和Y在新坐标空间上的潜变量矩阵投影(score),P和Q分别是正交负载矩阵(loading matrices),E和F分别是符合随机正态分布的误差矩阵。在前面我们提到了主成分分析通过提取代表原始光谱信息的一系列主成分来实现多变量光谱数据的降维继而用于组织的病变诊断。偏最小二乘法是主成分分析的扩展,遵循了它的原则但偏最小二乘法更进一步旋转主成分(潜变量)实现最大化的组分离。因此,这个潜变量(latent variables,LVs)可以解释诊断相关的变化而并非数据集里的显著不同。这两种都是重要的降维方法,能通过降维解决变量的共线性问题。但是相比于主成分分析,偏最小二乘是一种有监督的降维方法,从而能更高效地实现降维。而且,偏最小二乘具有通用性,它能够很容易的应用于拉曼光谱的疾病诊断任务。
另一个有效的多变量分析技术——支持向量机(support vector machine,SVM)是基于监督式机器学习的方法,最早由Corinna Cortes和Vapnik等于1995提出,在过去的几十年里,由于它受到很大的关注,支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势,目前广泛地应用于统计分类和回归分析等其他机器学习问题中。所谓支持向量是指那些在间隔区边缘的训练样本点。这里的“机(machine,机器)”实际上是一个算法。在机器学习领域,常把一些算法看作是一个机器。支持向量机与神经网络类似,都是学习型的机制,但与神经网络不同的是SVM使用的是数学方法和优化技术。基本而言,支持向量机来区分属于不同分类的数据原理是建立有一个最大间隔的超平面,在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离(也称为函数间隔)最大化,自然的,平行超平面间的间隔越大,分类器的泛化误差则越小,而这个分类器也称为最大间隔分类器。以图1-4-1二维数据集为例,这里的超平面就是直线,而如图可知存在很多个超平面(例如L1,L2,L3)可以把数据分开,但是只有一个(L2)能够达到最好的分类效果。
图1-4-1 二维数据集超平面图
此外,支持向量机不但可以作为线性分类器,它还可以通过采用核函数把数据映射到高维空间的方法实现非线性分类器。
人工神经网络(artificial neural network,ANN)在工程与学术界也常直接简称为神经网络,是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型或运算模型,神经网络由大量的节点(或称神经元)之间相互连接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接叫做突触(synapse),它代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。比如要计算第i层上的某个神经元所得到的势能等于每一个权重乘以第i-1层上对应的神经元的输出,然后全体求和得到了第i层上的某个神经元所得到的势能,然后势能数值通过该神经元上的激励函数以控制输出大小。人工神经网络的运用包括训练阶段和测试阶段这两个阶段,前者通过训练样本输入进行人工网络的校正也就是对各个层的权重进行校正(learning)建立模型的过程,后者则是用非训练样本空间的数据作为输入来评估测试该人工数据网络数据模型的过程。具有阈值的神经元构成的人工神经网络具有自然界的普遍特性(非线性)的优点使得它具有更好的性能,可以提高容错性和存储容量。一个神经网络通常由多个神经元广泛连接而成决定了系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。总之,它具有生物神经系统的基本特征,在一定程度上反映了人脑功能的若干反映,是对生物系统的某种模拟,具有自适应、自组织、自学习能力等优点。
(黄志伟 林侃 肖传兴)
[1]Anderson TW. An introduction to multivariate statistical analysis. Wiley-Interscience,Hoboken,N. J.,2003
[2]Shao X,Zheng W,Huang Z. Near-infrared autofluorescence spectroscopy for in vivo identification of hyperplastic and adenomatous polyps in the colon. Biosens Bioelectron,2011,30:118-122
[3]Zwielly A,Mordechai S,Sinielnikov I,et al. Advanced statistical techniques applied to comprehensive FTIR spectra on human colonic tissues. Med Phys,2010,37:1047-1055
[4]Grimbergen MC,van Swol CF,van Moorselaar RJ,et al. Raman spectroscopy of bladder tissue in the presence of 5-aminolevulinic acid. J Photochem Photobiol B,2009,95(3):170-176
[5]Teh SK,Zheng W,Ho KY,et al. Diagnostic potential of near-infrared Raman spectroscopy in the stomach:differentiating dysplasia from normal tissue. Br J Cancer,2008,98:457-465
[6]Huang Z,Lui H,McLean DI,et al. Raman spectroscopy in combination with background near-infrared autofluorescence enhances the in vivo assessment of malignant tissues. Photochem Photobiol,2005,81:1219-1226
[7]Gu H,Pan Z,Xi B,et al. Principal component directed partial least squares analysis for combining nuclear magnetic resonance and mass spectrometry data in metabolomics:application to the detection of breast cancer. Anal Chim Acta,2011,686(1-2):57-63
[8]Yamakoshi Y,Ogawa M,Yamakoshi T,et al. Multivariate regression and discreminant calibration models for a novel optical non-invasive blood glucose measurement method named pulse glucometry,Conference proceedings:Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Conference,2009,2009:126-129
[9]Wang CY,Tsai T,Chen HM,et al. PLS-ANN based classification model for oral submucous fibrosis and oral carcinogenesis. Lasers Surg. Med,2003,32:318-326
[10]Ghanate AD,Kothiwale S,Singh SP,et al. Comparative evaluation of spectroscopic models using different multivariate statistical tools in a multicancer scenario. J Biomed Opt,2011,16:025003
[11]Bakker Schut TC,Witjes MJ,Sterenborg HJ,et al. In vivo detection of dysplastic tissue by Raman spectroscopy. Anal Chem,2000,72:6010-6018
[12]Bergholt MS,Zheng W,Lin K,et al. Combining near-infrared-excited autofluorescence and Raman spectroscopy improves in vivo diagnosis of gastric cancer. Biosens Bioelectron,2011,26:4104-4110
[13]Zwick,Velicer. Comparison of five rules for determining the number of components to retain. Psych Bull,1986,v99:432-442
[14]Lambert ZV,Wildt AR,Durand RM. Assessing Sampling Variation Relative to Number-of-Factors Criteria. Educational and Psychological Measurement,1990,50:33-48
[15]Mertens B,Thompson M,Fearn T. Principal component outlier detection and SIMCA:a synthesis. Analyst,1994,119:2777-2784
[16]de Groot PJ,Postma GJ,Melssen WJ,et al. Application of principal component analysis to detect outliers and spectral deviations in near-field surface-enhanced Raman spectra. Anal Chim Acta,2001,446:71-83
[17]Dillon WR,Goldstein M. Multivariate analysis:methods and applications. John Wiley and Sons:New York,1984
[18]Hedegaard M,Krafft C,Ditzel HJ,et al. Discriminating Isogenic Cancer Cells and Identifying Altered Unsaturated Fatty Acid Content as Associated with Metastasis Status,Using K-Means Clustering and Partial Least Squares-Discriminant Analysis of Raman Maps. Anal Chem,2010,82:2797-2802
[19]De Lucia JFC,Gottfried JL,Munson CA,et al. Multivariate analysis of standoff laser-induced breakdown spectroscopy spectra for classification of explosive-containing residues. Appl Opt,2008,47:G112-G121
[20]Vapnik V. Statistical Learning Theory. New York:Wiley-Interscience,1998
[21]Cortes C,Vapnik V. Support vector networks. Mach. Learn,1995,20:273-297
[22]Burges CJC. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery,1998,2:121-167
[23]Hearst MA,Dumais ST,Osman E,et al. Support vector machines. Intelligent Systems and their Applications. 1998,IEEE 13:18-28
[24]Osuna E,Freund R,Girosit F. Training support vector machines:an application to face detection. Computer Vision and Pattern Recognition,1997. Proceedings.,1997 IEEE Computer Society Conference on,1997:130-136
[25]Bonneville M,Meunier J,Bengio Y,et al. Support vector machines for improving the classification of brain PET images. Medical Imaging,1998,3338:264-273
[26]Gniadecka M,Philipsen PA,Sigurdsson S,et al. Melanoma Diagnosis by Raman Spectroscopy and Neural Networks:Structure Alterations in Proteins and Lipids in Intact Cancer Tissue. J Investig Dermatol,2004,122:443-449