呼出气代谢组学与疾病的诊断最新章节_李恩有著

第一节
代谢组学数据预处理的概述

代谢组学研究使用各种分析平台例如气相色谱-质谱法（gas chromatography-mass spectrometry，GC-MS）、核磁共振（nuclear magnetic resonance，NMR）从生物样品中提取代谢物数据。这些分析平台产生了大量复杂的数据。生物体内本身含有大量内源性小分子，而具有特定研究意义的生物标志物只是其中很少的一部分，绝大部分代谢物和研究目的无关，这被称为代谢组学数据的高噪声。代谢组学采集的样本量一般较少，但是得到的数据具有高维度的特点，即代谢物的数目远大于样品个数，使得传统的统计学方法无法进行代谢组学数据分析。代谢组学数据同时具有高变异性，一是不同代谢物质本身的理化性质差异巨大，在同一样本中不同代谢物质的浓度变化范围可达7～9个数量级；二是样本采集于不同的生物，而这些生物个体间也存在各种差异，如最基本的年龄、性别等，这些因素都可能成为影响代谢产物的因素；三是仪器测量容易受各种因素影响，会出现随机测量误差和系统误差。此外，由于各种代谢物质可能存在一定的交互作用，因此存在于同一样本中的代谢物相互作用关系复杂，增加识别这些具有复杂关系的生物标志物的难度。各种代谢物并非独立存在，而是相互之间具有不同程度的相关性，同时由于碎片、加合物和同位素的存在，使得数据结构存在很大的冗余性，需要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。代谢组学数据分布不规则，而且数据具有稀疏性（即有很多值为零），因此，传统的一些线性和参数分析方法此时并不适用。

由于代谢组学各种平台获得的三维原始数据杂乱，不能直接反映模型的代谢特征，在进行统计分析之前需要通过一系列步骤对原始数据进行处理，转换原始数据的计算过程统称为数据预处理。数据预处理步骤主要包括降噪、基线校正、从原始数据中提取代谢峰，峰对齐、缺失值处理、数据的标准化等。通过一系列的操作将原始数据中的所有相关信息提取到一个适合于化学计量分析的数据矩阵中。从这些数据中提取有用的信息转换为一系列的数值，使从仪器中获得的原始数据转换为可用于进一步统计分析的可用数据，最终使无法进行比较的样本之间和代谢物之间可以相互比较。

数据预处理是代谢组学的一个挑战性领域。从代谢组数据的原始数据中提取信息以及根据数据分析结果所得到的结论很大程度上依赖于所选择的数据处理和分析的方法。为了最大化获取代谢组学数据中的信息并根据这些有意义的信息得到生物学意义的推论或者结论，特别是生物学机制和分子过程，代谢组学的数据处理和分析的选择就变得极为关键。数据的预处理阶段，往往微小的改变就会引起后续模式识别结果的较大差异。正确的预处理是必不可少的，并且可能是决定您是否能够从数据中提取重要信息的因素。因此代谢组学数据在统计运算前必须进行数据预处理。

（池春杰）

第一节 代谢组学数据预处理的概述

第一节
代谢组学数据预处理的概述