模式识别与智能计算—MATLAB技术实现（第3版）最新章节_杨淑莹著

1.4.4 训练与学习

所谓模式识别中的学习与训练是从训练样品提供的数据中找出某种数学式子的最优解，这个最优解使分类器得到一组参数，按这种参数设计的分类器使人们设计的某种准则达到极值。确定分类决策的具体数学公式是通过分类器设计这个过程确定的。在模式识别学科中一般把这个过程称为训练与学习的过程。

分类的规则是依据训练样品提供信息确定的。分类器设计在训练过程中完成，利用一批训练样品，包括各种类别的样品，由这些样品大致勾画出各类事物在特征空间分布的规律性，为确定使用什么样的数学公式及这些公式中的参数提供信息。一般来说，决定使用什么类型的分类函数是人为决定的。分类器参数的选择或在学习过程得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果，得到性能不同的分类器。数学式子中的参数则往往通过学习来确定，分类器有一种学习过程，如果发现当前采用的分类函数会造成分类错误，那么利用错误提供应如何纠正的信息，就可以使分类函数朝正确的方向前进，这就形成了一种迭代的过程，如果分类函数及其参数使出错的情况越来越少，就可以说是逐渐收敛，学习过程就收到了效果，设计也就可以结束。

训练与学习的过程常常用到以下三个概念：

（1）训练集：是一个已知样品集，在监督学习方法中，用它来开发模式分类器。

在分类实例中，样品库训练集是程序开发人员按照自己的手写数字习惯来书写的数字，因此，会造成对读者手写的数字分类有误的情况，为了尽量避免此类情况发生，我们把每次添加的手写数字放在样品训练集的首位，读者可以尽量多写一些数字以使程序适应其书写式样。

（2）测试集：在设计识别和分类系统时没有用过的独立样品集。

在分类实例中，以读者自己手写的数字作为测试检验，每写一个可以用各种模式识别算法进行检验。这样的好处是在相同的样品特征值下，可以对不同的模式识别算法进行比较，找出最佳适应算法。

（3）系统评价原则：就是判断该模式识别系统能否正确分类，为了更好地对模式识别系统性能进行评价，必须使用一组独立于训练集的测试集对系统进行测试。