购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

序言

机器学习是人工智能的一个分支,旨在通过构建和训练计算机算法和模型,使计算机能够从数据中学习并自主进行决策和预测。传统的计算机程序是由开发者编写特定的规则和指令以实现特定的任务。然而,机器学习不同,它依赖数据驱动的学习过程。机器学习算法会分析大量的输入数据,并根据这些数据的模式、趋势和统计特征来提取信息并进行预测。机器学习在许多领域都有广泛的应用,如自然语言处理、图像和语音识别、推荐系统、金融预测、医疗诊断等。它为处理大规模和复杂的数据提供了一种强大的工具和方法,使计算机能够自动从数据中学习和改进,从而实现更准确的预测和决策。

我最初是在硕士研究生阶段接触机器学习的,作为一个自然科学领域的研究生,当时我非常希望学好R语言,从而更好地采集、管理和分析手头的数据。非常幸运,我遇到了Max Kuhn所著的图书 Applied Predictive Modeling ,并被里面的内容深深吸引了。这本书完全超越了R语言的范畴,它所触及的是机器学习的本质——如何通过一套清晰的思路和流程来利用数据创建模型,从而完成预测。当然,有R语言的基础,以及Max Kuhn所开发的caret包,整个机器学习的实现过程变得极其高效。在学习的过程中,我不断地去了解机器学习中的不同概念,同时会参照书上的代码在计算机上实践,这个过程令我受益匪浅。

时至今日,R语言社区中机器学习的工具已经发生了很多新的变化。caret包依然作为通用的机器学习工具被广泛使用,但是其开发者Max Kuhn已经投入到机器学习新框架tidymodels的开发中,以tidyverse为核心的整洁之风正在席卷整个R语言生态。另外,mlr框架也是R语言中比较流行的机器学习框架,2013年首次在CRAN平台上发布,而且其可扩展性不断提升并进行了多次迭代重写,形成了现在的mlr3。

尽管机器学习工具的变化日新月异,但是机器学习的核心概念是稳固的,更加好用的工具使机器学习的实现和教学变得更加便捷,能让学习者可以集中精力关注机器学习本身,而不是如何利用工具去实现。为此,本书面向机器学习实践,并重点介绍了机器学习的基本概念,包括特征工程、重采样、模型表现的衡量、模型筛选、参数调节等,还介绍了比较新的方法来开展模型分析(常被称作“可解释的机器学习”)。同时,本书给出了各种机器学习方法在R语言中的实现方式,所使用的框架包括但不限于caret、tidymodels、mlr、mlr3,并在案例分析中向读者演示了如何利用这些工具完成指定的机器学习任务。通过对本书的学习,读者能够快速了解机器学习的基本概念,并利用R语言来实现机器学习的各个步骤,从而高效地创建模型。

黄天元 zV5k270YH7hKqDORp67UifB3MS+0DZ4Fw/zXksmVwefHEQMdiW32C0fSHo26jhTx

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开