神经网络专家Rachel Thomas曾经说过,“接触TensorFlow后,我感觉我还是不够聪明,但有了Keras之后,事情会变得简单一些。”
他所提到的Keras是一个高级别的Python神经网络框架,是能在TensorFlow上运行的一种高级的API框架。Keras拥有丰富的对数据的封装和一些先进的模型的实现,避免了“重复造轮子”。换言之,Keras对于提升开发者的开发效率意义重大。
在图2.1中,左边的K代表Keras,右边的是TensorFlow,表示的就是Keras+TensorFlow。
图2.1 Keras+TensorFlow
“不要重复造轮子”是TensorFlow引入Keras API的最终目的。然而,本书还是以TensorFlow代码编写为主,Keras作为辅助工具而使用,目的是为了简化程序编写,这点请读者一定注意。
本章非常重要,强烈建议读者独立完成每个完整代码和代码段的编写。
深度学习的核心就是模型。建立神经网络模型去拟合目标的形态,就是深度学习的精髓和最重要的部分。
任何一个神经网络的主要设计思想和功能都集中在其模型中。TensorFlow也是如此。
TensorFlow或者其使用的高级API——Keras核心数据结构是model,一种组织网络层的方式。最简单的模型是Sequential模型,它由多个网络层线性堆叠。对于更复杂的结构,应该使用Keras函数式API(本书的重点就是函数式API的编写),其允许构建任意的神经网络图。
为了便于理解和易于上手,首先从Sequential模型开始介绍。一个标准的Sequential模型如下:
可以看到,这里首先创建了一个Sequential模型,之后根据需要逐级向其中添加不同的全连接层,全连接层的作用是进行矩阵计算,而相互之间又通过不同的激活函数进行激活计算(这种没有输入输出值的编程方式,对有经验的程序设计人员来说并不友好,仅供举例)。
对于损失函数的计算,根据不同拟合方式和数据集的特点,需要建立不同的损失函数去最大限度地反馈拟合曲线错误。这里的损失函数采用交叉熵函数(softmax_crossentroy),使得数据计算分布能够最大限度地拟合目标值。如果对此陌生的话,读者只需要记住这些名词和下面的代码编写即可继续往下学习,代码如下:
首先通过模型计算出对应的值。这里内部采用的是前向调用函数,读者知道即可。之后使用tf.reduce_mean计算出损失函数。
模型建立完毕后,就是数据的准备。一份简单而标准的数据,一个简单而具有指导思想的例子往往事半功倍。深度学习中最常用的一个入门例子是iris分类,下面就从这个例子开始介绍,最终使用TensorFlow的Keras模式实现iris鸢尾花分类。
iris数据集是常用的分类实验数据集,由Fisher于1936年收集整理。iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度、花萼宽度、花瓣长度、花瓣宽度4个属性预测鸢尾花(见图2.2)属于Setosa、Versicolour、Virginica这3个种类中的哪一类。
图2.2 鸢尾花
第一步:数据的准备
读者不需要下载这个数据集,一般常用的机器学习工具自带iris数据集,引入数据集的代码如下:
from sklearn.datasets import load_iris data = load_iris()
这里调用的是sklearn数据库中的iris数据集,直接载入即可。
其中的数据又是以key-value值对应存放的,key值如下:
dict_keys([’data’, ’target’,’target_names’,’DESCR’,’feature_names’])
由于本例中需要iris的特征与分类目标,因此这里只需要获取data和target,代码如下:
图2.3 数据打印结果
数据打印结果如图2.3所示。
这里分别打印了前5条数据。可以看到,iris数据集中的特征是分成4个不同特征进行数据记录的,而每条特征又对应一个分类表示。
第二步:数据的处理
下面是数据处理部分,对特征的表示不需要变动。读者可以将分类label打印出来,如图2.4所示。
图2.4 数据处理
图2.5 one-hot处理
这里按数字分成了3类,0、1和2分别代表3种类型。如果按直接计算的思路,可以将数据结果向固定的数字进行拟合,这是一个回归问题。即通过回归曲线去拟合出最终结果。但是本例实际上是一个分类任务,因此需要对其进行分类处理。
分类处理的一个非常简单的方法就是进行One-Hot处理,即将一个序列化数据分到不同的数据领域空间进行表示,如图2.5所示。
具体在程序处理上,读者可以手动实现One-Hot的代码表示,也可以使用Keras自带的分散工具对数据进行处理,代码如下:
iris_target = np.float32(tf.keras.utils.to_categorical(iris_target, num_classes=3))
这里的num_classes分成了3类,使用一行三列表示每个类别。
交叉熵函数与分散化表示的方法超出了本书的讲解范围,这里就不再过多介绍了,读者只需要知道交叉熵函数需要和softmax配合,从分布上向离散空间靠拢即可。
iris_data = tf.data.Dataset.from_tensor_slices(iris_data).batch(50) iris_target = tf.data.Dataset.from_tensor_slices(iris_target).batch(50)
当生成的数据读取到内存中并准备以批量的形式打印时,使用的是tf.data.Dataset.from_tensor_slices函数,并且可以根据具体情况对batch进行设置。tf.data.Dataset函数更多的细节和用法在后面章节中会专门介绍。
第三步:梯度更新函数的写法
梯度更新函数是根据误差的幅度对数据进行更新的方法,代码如下:
grads = tape.gradient(loss_value, model.trainable_variables) opt.apply_gradients(zip(grads, model.trainable_variables))
与前面线性回归例子的差别是,model会对模型内部所有可更新的参数,根据回传误差进行自动的参数更新,而无须人工指定更新模型内的哪些参数,这点请读者注意。至于人为地指定和排除某些参数的方法属于高级程序设计,在后面的章节会提到。
【程序2-1】
最终打印结果如图2.6所示。可以看到,损失值在符合要求的条件下不停地降低,以达到预期目标。
图2.6 打印结果
对于有编程经验的程序设计人员来说,顺序编程过于抽象,同时缺乏自由度,因此在比较高级的程序设计中达不到程序设计的目标。
Keras函数式编程是定义复杂模型(如多输出模型、有向无环图或具有共享层的模型)的方法。
让我们从一个简单的例子开始,程序2-1建立模型的方法时使用顺序编程,即通过逐级添加的方式将数据添加到模型中。这种方式在较低水平的编程上,可以较好地减轻编程的难度,但是在自由度方面有非常大的影响,例如当需要对输入的数据进行重新计算时,顺序编程方法就不合适。
函数式编程方法类似于传统的编程,只需要建立模型导入输出和输出“形式参数”即可。有TensorFlow 1.X编程基础的读者,可以将其看作一种新格式的“占位符”。其代码如下:
下面开始对其进行分析。
1.输入端
首先是Input的形参:
inputs = tf.keras.layers.Input(shape=(4,))
这一点需要从源码上来看,代码如下:
Input函数用于实例化Keras张量,Keras张量是底层后端输入的张量对象,其中增加了某些属性,使其能够通过了解模型的输入和输出来构建Keras模型。
Input函数的参数:
· shape:形状元组(整数),不包括批量大小。例如,shape=(32,)表示预期的输入是32维向量的批次。
· batch_size:可选的,静态批量大小(整数)。
· name:图层的可选名称字符串,在模型中应该是唯一的(不要重复使用相同的名称两次)。如果未提供,则它将自动生成。
· dtype:数据类型,即预期输入的数据格式,一般有float32、float64、int32等类型。
· sparse:一个布尔值,指定是否创建占位符是稀疏的。
· tensor:可选的,现有张量包裹到Input图层中。如果设置,则图层将不会创建占位符张量。
· **kwargs:其他的一些参数。
上面是官方对其参数所做的解释,可以看到,这里的Input函数就是根据设定的维度大小生成一个可供存放对象的张量空间,维度就是shape中设定的维度。
与传统的TensorFlow不同,这里的batch大小并不显式地定义在输入shape中。
举例来说,在后续的学习中会遇到MNIST数据集,即一个手写图片分类的数据集,每张图片的大小用4维来表示:[1,28,28,1]。第1个数字是每个批次的大小,第2个和第3个数字是图片的尺寸大小,第4个数字是图片通道的个数。因此,输入Input中的数据为:
2.中间层
下面每个层的写法与使用顺序模式是不同的:
x = tf.keras.layers.Dense(32, activation='relu')(inputs)
这里每个类被直接定义,之后将值作为类实例化以后的输入值进行输入计算。
x = tf.keras.layers.Dense(32, activation='relu')(inputs) x = tf.keras.layers.Dense(64, activation='relu')(x) predictions = tf.keras.layers.Dense(3, activation='softmax')(x)
可以看到,这里与顺序模型最大的区别在于实例化类以后有对应的输入端,这点比较符合一般程序的编写习惯。
3.输出端
对于输出端不需要额外地表示,直接将计算的最后一个层作为输出端即可:
predictions = tf.keras.layers.Dense(3, activation='softmax')(x)
4.模型的组合方式
模型的组合方式很简单,直接将输入端和输出端在模型类中显式地注明,Keras即可在后台将各个层级通过输入和输出对应的关系连接在一起。
model = tf.keras.Model(inputs=inputs, outputs=predictions)
完整的代码如下:
【程序2-2】
程序2-2的基本架构对照前面的例子没有多少变化,损失函数和梯度更新方法是固定的写法,这里最大的不同在于,使用了model自带的saver函数对数据进行保存。在TensorFlow 2.1中,数据的保存由Keras完成,即将图和对应的参数完整地保存在h5格式中。
前面已经讲过,对于保存的文件,Keras是将所有的信息都保存在h5文件中,这里包含所有模型的结构信息和训练过的参数信息。
new_model = tf.keras.models.load_model('./saver/the_save_model.h5')
tf.keras.models.load_model函数是从给定的地址中载入h5模型,载入完成后会依据存档自动建立一个新的模型。
模型的复用可直接调用模型的predict函数:
new_prediction = new_model.predict(iris_data)
这里直接将iris数据作为预测数据进行输入。全部代码如下:
【程序2-3】
最终结果如图2.7所示。可以看到,计算结果被完整地打印出来。
图2.7 打印结果
在2.1.2小节中,笔者使用了符合传统TensorFlow习惯的梯度更新方式对参数进行更新。然而,这种看起来符合编程习惯的梯度计算和更新方法可能并不符合大多数有机器学习使用经验的读者的习惯。本小节以修改后的iris分类为例讲解标准化TensorFlow的编译方法。
对于大多数机器学习的程序设计人员来说,往往习惯了使用fit函数和compile函数进行数据载入和参数分析,代码如下:
【程序2-4】
下面我们详细分析一下代码。
1.数据的获取
本例使用了sklearn中的iris数据集作为数据来源,之后将target转化成One-Hot的形式进行存储。顺便提一句,TensorFlow本身也带有One-Hot函数,即tf.One-Hot,有兴趣的读者可以自行学习。
数据读取之后的处理在后文讲解,这个问题先放一下,请读者继续按顺序往下阅读。
2.模型的建立和参数更新
这里不准备采用新模型的建立方法,对于读者来说,熟悉函数化编程已经能够应付绝大多数深度学习模型的建立。在后面的章节中,我们会教会读者自定义某些层的方法。
对于梯度的更新,到目前为止的程序设计中都是采用类似回传调用的方式对参数进行更新,这是由程序设计者手动完成的。然而TensorFlow推荐使用自带的梯度更新方法,代码如下:
compile函数是模型适配损失函数和选择优化器的专用函数,而fit函数的作用是把训练参数加载进模型中。下面分别对其进行讲解。
(1)compile
compile函数是配置训练模型的专用编译函数,源码如下:
这里主要介绍其中重要的3个参数:optimizer、loss和metrics。
· optimizer:字符串(优化器名)或者优化器实例。
· loss:字符串(目标函数名)或目标函数。如果模型具有多个输出,可以通过传递损失函数的字典或列表在每个输出上使用不同的损失。模型最小化的损失值将是所有单个损失的总和。
· metrics:在训练和测试期间的模型评估标准,通常会使用metrics=['accuracy']。要为多输出模型的不同输出指定不同的评估标准,还可以传递一个字典,如metrics={'output_a':'accuracy'}。
可以看到,优化器(optimizer)被传入了选定的优化器函数,loss是损失函数,这里也被传入了选定的多分类crossentry函数。metrics用来评估模型的标准,一般用准确率表示。
实际上,compile函数是一个多重回调函数的集合,对于所有的参数来说,实际上就是根据对应函数的“地址”回调对应的函数,并将参数传入。
举一个例子,在上面的编译器中,我们传递的是一个TensorFlow自带的损失函数,而实际上往往由于针对不同的计算和误差需要不同的损失函数,这里自定义一个均方差(MSE)损失函数,代码如下:
这个损失函数接收两个参数,分别是y_true和y_pred,即预测值和真实值的形式参数。之后根据需要计算出真实值和预测值之间的误差。
损失函数名作为地址传递给compile后,即可作为自定义的损失函数在模型中进行编译,代码如下:
至于优化器的自定义实际上也是可以的。但是一般情况下优化器的编写需要比较高的编程技巧以及对模型的理解,这里读者直接使用TensorFlow自带的优化器即可。
(2)fit函数
fit函数的作用是以给定数量的轮次(数据集上的迭代)训练模型。其主要参数有如下4个:
· x:训练数据的NumPy数组(如果模型只有一个输入),或者NumPy数组的列表(如果模型有多个输入)。如果模型中的输入层被命名,也可以传递一个字典,将输入层名称映射到NumPy数组。如果从本地框架张量馈送(例如TensorFlow数据张量)数据,x可以是None(默认)。
· y:目标(标签)数据的NumPy数组(如果模型只有一个输出),或者NumPy数组的列表(如果模型有多个输出)。如果模型中的输出层被命名,也可以传递一个字典,将输出层名称映射到NumPy数组。如果从本地框架张量馈送(例如TensorFlow数据张量)数据,y可以是None(默认)。
· batch_size:整数或None。每次梯度更新的样本数。如果未指定,默认为32。
· epochs:整数。训练模型迭代轮次。一个轮次是在整个x和y上的一轮迭代。注意,与initial_epoch一起,epochs被理解为“最终轮次”。模型并不是训练了epochs轮,而是到第epochs轮停止训练。
fit函数的主要作用是对输入的数据进行修改,如果读者已经成功运行了程序2-4,那么现在可以略微修改其代码,重新运行iris数据集,代码如下:
【程序2-5】
对比程序2-4和程序2-5可以看到,它们最大的不同在于数据读取方式的变化。进行更为细节的比较,在程序2-4中,数据的读取方式和fit函数的载入方式如下:
iris的数据读取被分成两部分:数据特征部分和label分布。label部分使用Keras自带的工具进行离散化处理。
离散化后处理的部分又被tf.data.Dataset API整合成一个新的数据集,并且依batch被切分成多个部分。
此时,fit的处理对象是一个被tf.data.Dataset API处理后的Tensor类型数据,并且在切分的时候依照整合的内容依次被读取。在读取的过程中,由于它是一个Tensor类型的数据,fit内部的batch_size划分不起作用,而使用生成数据的tf中的数据生成器的batch_size划分。如果读者对其还是不能够理解的话,可以使用如下代码打印重新整合后的train_data中的数据看看:
for iris_data,iris_target in train_data
现在回到程序2-5中,取出对应数据读取和载入的部分如下:
可以看到,数据在读取和载入的过程中没有变化,将处理后的数据直接输入fit函数中供模式使用。此时由于是直接对数据进行操作,因此对数据的划分由fit函数负责,fit函数中的batch_size被设定为128。
图2.8 多个数据输入端
在前面内容的学习中,我们采用的是标准化的深度学习流程,即数据的准备与处理,数据的输入与计算,以及最后结果的打印。虽然在真实情况中可能会遇到各种各样的问题,但是基本步骤是不会变的。
这里存在一个非常重要的问题,在模型的计算过程中,如果遇到多个数据输入端,应该怎么处理,如图2.8所示。
以Tensor格式的数据为例,在数据的转化部分就需要对数据进行“打包”处理,即将不同的数据按类型进行打包,如下所示:
输入1,输入2,输入3,标签 -> (输入1,输入2,输入3),标签
注意小括号的位置,这里显式地将数据分成两部分,即输入与标签。而多输入的部分使用小括号打包在一起形成一个整体。
下面还是以iris数据集为例讲解多数据输入的问题。
第一步:数据的获取与处理
从前面的介绍可以知道,iris数据集每行是一个由4个特征组合在一起表示的特征集合,此时可以人为地将其切分,即将长度为4的特征转化成长度为3和长度为1的两个特征集合,代码如下:
打印其中一条数据,如下所示:
5.1 [3.5 1.4 0.2]
可以看到,一行4列的数据被拆分成两组特征。
第二步:模型的建立
接下来就是模型的建立,这里的数据被人为地拆分成两部分,因此在模型的输入端也要能够对应处理两组数据的输入。
可以看到代码中分别建立了input_xs_1和input_xs_2作为数据的接收端接收传递进来的数据,之后通过一个concat重新将数据组合起来,恢复成一条4个特征的集合。
对剩余部分的数据处理没有变化,按前文程序的处理即可。
第三步:数据的组合
切分后的数据需要重新对其进行组合,生成符合模型需求的Tensor数据。这里最关键的是在模型中对输入输出格式的定义,把模式的输入输出格式拆出如下:
input = 【输入1,输入2】,outputs = 输出
因此,在Tensor建立的过程中,也要按模型输入的格式创建对应的数据集,格式如下:
((输入1, 输入2),输出)
注意这里的括号有几重,这里我们采用了两层括号对数据进行包裹,即首先将输入1和输入2包裹成一个输入数据,之后重新打包输出,共同组成一个数据集。转化Tensor数据的代码如下:
一定要注意小括号的层数。
完整代码如下:
【程序2-6】
最终打印结果如图2.9所示。
图2.9 打印结果
对于认真阅读本书的读者来说,这个最终的打印结果应该见过很多次了,这里TensorFlow默认输出了每个循环结束后的loss值,并且按compile函数中设定的内容输出准确率。最后的evaluate函数通过对测试集中的数据进行重新计算,而获取在测试集中的损失值和准确率。本例使用训练数据代替测试数据。
在程序2-6中数据的准备是使用tf.data API完成的,即通过打包的方式将数据输出,也可以直接将输入的数据输入模型中进行训练,代码如下:
【程序2-7】
最终打印结果请读者自行验证,需要注意其中数据的包裹情况。
读者已经知道了多输入单一输出的TensorFlow的写法,在实际编程中有没有可能遇到多输入多输出的情况呢?
事实上是有的。虽然读者可能遇到的情况会很少,但是在必要的时候还是需要设计多输出的神经网络模型进行训练,例如bert模型。
对于多输出模型的写法,实际上也可以仿照2.1.6小节多输入模型中多输入端的写法,将output的数据使用中括号进行包裹。
数据的修正和设计
首先是对数据的修正和设计,数据的输入被平均分成两组,每组有两个特征。这实际上没什么变化。而对于特征的分类,在引入One-Hot处理的分类数据集外,还保留了数据分类本身的真实值做目标的辅助分类计算结果。无论是多输入还是多输出,此时都使用打包的形式将数据重新打包成一个整体的数据集合。
在fit函数中,直接调用打包后的输入数据即可。
model.fit(x = train_data, epochs=500)
完整代码如下:
【程序2-8】
输出结果如图2.10所示。
图2.10 输出结果
限于篇幅,这里只给出一部分结果,相信读者能够理解输出的数据内容。