购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.4 自动化特征工程

前面已经介绍了特征工程,其中包括特征选择、特征预处理和特征压缩3个大模块,这些处理步骤中往往包含很多的方法,例如如何为数据选择适合的方法,如何通过数据构造新特征,这些问题都是传统特征工程所面临的困境,传统的特征工程效率低下,可移植性差,往往手工建立的特征只适合于特定的问题。因此自动化特征工程则是从数据中自动构建新的候选特征,并选择最佳的特征进行模型的训练,其意义在于可以超越传统特征工程中面临的困境。

4.4.1 什么是自动化特征工程

随着人工智能的发展,人类希望可以通过人工智能,从机械而烦琐的工作中解放出来。有人说,在机器学习的任务中,特征工程占80%,而模型训练只占20%,因此如果让特征工程也实现自动化,则可以在很大程度上提高机器学习的效率。

目前在现实世界中,需要从大量的数据中获取信息,实现分类和预测等问题,仍然依赖于人的经验来完成“特征工程”的工作。特征工程是一项庞大且耗时的工作,其中涉及了特征选择、数据预处理、特征压缩等多方面的机器学习知识,以及需要对此业务工作有一定的了解,但该领域匮乏的人才很难与大数据的快速发展相匹配,因此自动化特征工程就成为了必要的发展趋势,既可以解决人才匮乏的困境,也可以提高实现特征工程的效率等。

特征是从数据中抽取出来对最终结果的预测有帮助的信息,特征工程则是特征在机器学习问题中使其算法和模型可以发挥更好的过程,该过程通常需要数据科学家根据经验找出最佳的特征组合形式,因人的能力有限,所以找到的特征组合往往也不够全面,造成了效果和效率的局限性。而自动化特征工程可以根据数据特征进行自动组合,有效地解决了人为组合特征不全面和耗时的问题。

基于上述背景介绍,特征工程是一个与具体场景绑定的事情,因此自动化特征工程应该是一件根据模型选择数据类型等背景信息并进行自动化的工作。如果把自动化理解为不需要人工参与设计,那么实现自动化的方式多种多样,最简单的方式为遍历搜索,通过计算机遍历所有的可能组合也是一种自动化;通过模型的方法去完成同样是一种自动化,如通过神经网络自动完成图像与文本等的特征工程。

因此,可以把自动化特征工程定义为如何根据具体场景去自动构建流程,而无需人工参与完成特征工程的一种方法。

4.4.2 机器学习和深度学习的特征工程

对于数据挖掘类的问题,如果使用机器学习方法,那么就需要提前做大量的特征工程工作,特征工程是将数据中计算机无法识别的非数字量转化为数字量的过程,所以特征工程的好坏会在很大程度上影响训练的效果。正如前文所述,特征和数据决定了机器学习的上限,而模型和算法只是尽可能逼近这个上限。特征工程属于数据科学的一种,它和机器学习以及深度学习的关系如图4-4所示。

图4-4 数据相关学科关系

如果使用深度学习去解决这个问题的话,那么特征工程就没有那么重要了,其只需要对特征做一些预处理就可以了,因为深度学习可以自动完成传统机器学习算法中需要特征工程才能实现的任务,特别是在图像和声音数据的处理过程中。但是深度学习的模型结构往往都会比较复杂,训练起来较为麻烦;此外,虽然深度学习可以省去特征工程这一个步骤,但也失去了对特征的认识,也就不知道哪些特征相对比较重要。那么如何从这两种方法中进行选择呢?

一方面是查看数据的大小,深度学习在处理较大数据集的时候会具有优势,而机器学习在处理非大样本数据集时会有更好的泛化能力;另一方面是从对结果的可解释性考虑,可解释性指的是输出结果产生的原因,在这一点上,机器学习拥有更好的可解释性。深度学习在图像处理、自然语言处理方面比较有优势,而机器学习在量化系统、推荐系统、广告推荐等方面有优势。 d86CaZr8fEMQGQf6GVbntwOrmdsbEa5qFWfyNc1Fjf2hxwRS+TylsuiM5Qb8F7Nn

点击中间区域
呼出菜单
上一章
目录
下一章
×