本章我们讨论了处理机器学习问题的一个典型工作流程:我们如何从原始数据中提取信息特征;我们如何使用数据和标签来训练一个机器学习模型;以及我们如何使用最终确定的模型来预测新的数据标签。我们得知把数据拆分成一个训练集和一个测试集是非常重要的,因为这是了解一个模型对新数据点泛化性能的唯一方法。
在软件方面,我们大幅提升了自身的Python技能。我们学习了如何使用NumPy数组存储和操作数据,以及如何使用Matplotlib进行数据可视化。我们讨论了scikit-learn及其很多有用的数据资源。最后,我们还讨论了OpenCV自有的TrainData容器,该容器为OpenCV的C++ API用户提供了一些帮助。
有了这些工具,我们现在就准备实现第一个真正的机器学习模型了!在第3章,我们将重点关注监督学习及其两个主要问题类别:分类和回归。