在机器学习发展初期,相关研究者都是通过常识、观察或者简单的可视化工作来确定特征工程的内容,并通过Excel或者编程软件编写代码对数据进行特征工程。手工特征工程存在以下问题(见图4-3):
1)效率低下,花费的时间长。“效率低下”都不足以形容手动特征工程的低效。对于手动特征工程,最终每个特征花费将超过十几分钟,因为使用的是传统方法,一次只能建立一个特征。
2)可移植性差,手工建立的特征工程只适合特定问题,例如写了几个小时的代码都不能应用于任何其他问题。
3)手工设计特征受到人类创造力和耐心的限制:我们只能建立能想到的特征,而且用来建立特征的时间也是有限的。
自动化特征工程的意义是通过在一组相关表中使用可应用于所有问题的代码,自动构建数百个有用特征,来超越这些限制。
图4-3 手工特征工程存在的问题