人 工智能系统处理的是各种各样的数据,例如图像、声音、文字、视频等。数据(data)是信息的载体。如果把机器学习归为两大类,那么主要的工作可以分为:分类和聚类。而分类任务基本上占整个机器学习或者是数据挖掘领域的70%,可见我们遇到的很多问题,都可以用分类的算法进行解决。分类(classification)就是要根据所给数据的不同特点,判断它属于哪个类别。
在这一章,我们学习一个简单的分类任务——对鸢尾花(iris)的两个品种进行分类。鸢尾花的花瓣鲜艳美丽,叶片青翠碧绿,令人赏心悦目。全世界大约有30个品种的鸢尾花,常见的有变色鸢尾(iris versicolor)和山鸢尾(iris setosa)。它们有着形状与色彩相似的花瓣和萼片,花瓣和花萼的位置如图2-1所示。一般来说,变色鸢尾有较大的花瓣,而山鸢尾的花瓣较小(图2-2)。
图2-1 花瓣和花萼
图2-2 变色鸢尾和山鸢尾
以上我们通过对鸢尾花的分类这个例子来了解分类问题中的基本概念和流程。我们想要构建一个简单的人工智能系统,它能够像人类一样区分变色鸢尾和山鸢尾。像这样完成分类任务的人工智能系统,被称为分类器(classifier)。分类器是数据挖掘中对样本进行分类的方法的统称。
图2-3展示了整个系统的流程。当看到一朵鸢尾花时,首先提取它的特征,然后将这些特征输入到训练好的分类器中,分类器就能够根据这些特征做出预测,输出鸢尾花的品种。在接下来的小节中,让我们一步一步地构建出这个系统吧。
图2-3 分类流程