当前的健康医疗大数据中,很多数据都是高维数据,如图像数据、语言信号数据和基因组等组学数据,这些数据的变量个数远远大于样本量。在给定精度下,准确地对某些变量的函数进行估计,所需计算量会随着变量维度的增加呈指数形式增长,这也就是常说的维度灾难(dimensionality curse,DC)问题。如果能把高维数据的维度降低,并且使数据点的关系与原高维空间里的关系保持不变或近似,就可以对数据进行可视化并直观地观察数据情况。此外,数据经过降维后,如果保留了原有数据的主要信息,用降维后的数据进行机器学习模型的训练和预测,效率也将大大提高。因此,降维的意义就在于克服维度灾难、获取本质特征、节省存储空间、去除噪声并实现数据的可视化。降维方法可以分为线性降维和非线性降维,本章结合具体案例介绍三种降维方法:LASSO、随机森林和弹性网。