购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

机器学习的概念很难理解,这在某种程度上是由于 机器学习 这个术语涵盖的主题比较广泛。就本书而言,请将机器学习视为一种识别数据模式的工具,当你向它提供新数据时,它会告诉你新数据拟合效果最好的模式。

浏览有关机器学习的其他相关文献资源时,你会发现机器学习还涵盖了其他许多内容。但其中大多数内容可以分解为一系列决策。以自动驾驶汽车的机器学习系统为例,表面上,这听起来与我们正在研究的机器学习完全不同,但自动驾驶实际上就是一系列决策。一种机器学习算法查看场景并决定如何对场景中的每个物体描框。另一种机器学习算法确定这些框所代表的物体是否能绕过。如果能绕过,第三个算法将决定绕过它们行驶的最佳路线。

为了确定你是否能利用机器学习来帮助Karen,让我们来看看Karen在流程中做出的决策。接到订单后,Karen需要决定是直接将其发送给申请者对应的财务审批人,还是先将其发送给技术审批人。如果订单是针对计算机或者笔记本计算机之类的技术产品,那么她需要将订单发送给技术审批人。如果不是技术产品,则无须发送给技术审批人。如果申请者来自IT部门,那么她无须发送订单给技术审批人。让我们来评估一下Karen的案例是否适合机器学习。

在Karen的案例中,她对每笔订单提问:“我应该发送此申请来获得技术部门的审批吗?”她的决策结果要么是“是”,要么是“否”。在做决定时,她需要考虑的事情如下所示。

在机器学习术语中,Karen的决策被称为 目标变量 ,而她在做出决策时考虑的事物类型被称为 特征 。如果你拥有目标变量和特征,就能用机器学习来做决策。

目标变量分为两种形式:

分类型变量 包含诸如是或否、东南西北等。在本书机器学习相关的工作中,一个重要的区别是,分类型变量仅包含两个类别还是包含两个以上的类别。如果只有两个类别,则称为 二分类目标变量 ;如果具有两个以上的类别,则称为 多分类目标变量 。你会在你的机器学习应用程序中设置不同的参数,具体取决于变量是二分类还是多分类,这在本书后面会详细介绍。

连续型变量 是数值。如果你的机器学习应用程序基于诸如社区、房间数量、到学校的距离等特征来预测房价,那么你的目标变量(房价的预测值)就是一个连续型变量。房屋的价格可以从数万美元到数千万美元不等。

在本书中,特征或许是需要理解的最重要的机器学习概念之一。我们自己在做决策时无时无刻不用到特征。事实上,你在本书将学习到的有关特征的知识可以帮助你更好地理解自己制定决策的过程。

我们再回到Karen的例子,她要决定是否将采购订单发送给IT部门进行批准。Karen在做出决策时考虑的是它的 特征 。Karen在遇到从未见过的产品时可以考虑的是该产品的制造商。如果该制造商只生产IT产品,那么即使她以前从未见过该产品,她仍会认为它很可能是IT产品。

对于人类来说,其他类型的特征可能更难考虑,但对于机器学习应用程序而言,则更容易纳入其决策过程中。例如,你可能想找出哪些客户更愿意接听你的销售团队的营销电话。对于回头客来说,可能很重要的一个特征是营销电话是否符合他们常规购买时间表。如果客户通常每两个月购买一次产品,那么现在距离他上次购买有两个月了吗?使用机器学习来帮助你做出决策,可以将这些类型的模式纳入决策结果(打营销电话还是不打)中。然而,人类很难识别这种模式。

请注意Karen在做决策时考虑的因素(特征)可能分为多个层次。如果不知道某个产品是否是技术产品,她可能会考虑其他信息,例如制造商是谁,以及申请单中还包括其他哪些产品。机器学习的一大优点是你不需要知道所有特征;构建完成机器学习系统后,你会知道哪些特征最重要。如果你认为某个特征会和决策结果相关,请将该特征放入你的数据集。 fRYQhZrowQizkfgiS9Q1NlC08shp5MRDUxvU7gF/dW1jRpZD49FNX9oeIIukbOFF

点击中间区域
呼出菜单
上一章
目录
下一章
×