2021中国汽车工程学会年会论文集最新章节_中国汽车工程学会著

机器学习在汽车领域的应用场景及展望

吴远波，王海波，林成靖

纬湃科技投资（中国）有限公司

【摘要】 本文首先从汽车的智能化、网联化趋势入手，阐述了机器学习和智能网联技术的相关性，然后从机器学习的主要分支监督式学习和强化学习进行展开，分别介绍各自在汽车领域的应用场景——电池剩余寿命预测和混动车能耗和排放管理策略，最后提出机器学习在汽车领域的应用前景和展望，该研究有助于深入了解机器学习在汽车领域应用中的优势和局限性，以及其未来的发展趋势。

【关键词】 机器学习，监督式学习，强化学习，智能网联，电池剩余寿命，排放管理

Application Scenarios and Prospects of Machine Learning in Automotive Field

Wu Yuanbo, Wang Haibo, Lin Chengjing

Vitesco Technologies Holding China Co ., Ltd .

Abstract: This article starts with the intelligence and networking in the automotive field,introducing the relevance of machine learning and intelligent networking technology,and then expanding from the main branches of machine learning—supervised learning and reinforcement learning,introducing their application scenarios respectively in the automotive field—battery remaining life prediction and hybrid vehicle energy consumption and emission management strategies,finally putting forward the prospects of machine learning in the automotive field.This research helps to understand the advantages and limitations of machine learning in the automotive field and its future development trends.

Key words: machine learning,supervised learning,reinforcement learning,intelligent networking,remaining battery life,emission management.

引言

汽车新“四化”——智能化、网联化、电动化、共享化，作为汽车工业发展的新引擎，继续推动汽车相关技术的发展。其中的智能化、网联化让汽车能够衍生出更多提高人们生活便利的功能，比如车辆远程控制功能，其可以远程调节车内的温度，提高驾乘人员的舒适性；比如车辆远程刷新功能，可以让整车性能在其整个使用周期内能够被持续优化。通过智能网联，机器学习相关的应用也逐步出现在汽车上面，比如车载语音对话功能，智能辅助驾驶功能 ^[1] 等，机器学习通过智能网联打通云端服务器和整车控制器之间的通道，可以在云端实现机器学习模型的训练，然后利用智能网联技术将训练好的模型下载到车辆端，并在车辆端进行运行以实现特定功能。本文将以机器学习在汽车领域的应用场景作为切入点，介绍相关机器学习知识的同时，也介绍对应的应用案例，并结合这些案例研究机器学习在汽车领域的应用前景及发展趋势。

1 机器学习

机器学习是人工智能的一个子集，是一种数据分析技术，其利用计算机通过数学模型学习数据样本的规律，以此寻找问题的解决方法 ^[2] 。这与利用物理模型来解决问题的思路不同，针对传统的物理模型，需要考虑各种可能条件，并针对每一个潜在的条件进行设计和编程；而机器学习的解决方案立足于数据样本和数学模型，学习的结果主要受数据样本的质量和数量影响。按学习方式进行分类，机器学习包括监督式学习、半监督式学习、无监督式学习以及强化学习，具体如图1所示。其中监督式学习要求提供标注的样本集，半监督式学习要求提供少量标注的样本集，无监督式学习不要求提供标注的样本集，而强化学习则要求提供奖惩反馈机制。从当前方法应用的广泛性出发，本文重点介绍监督式学习和强化学习两种主要机器学习方法。

图1 机器学习分类

2 监督式学习及其应用案例

2.1 监督式学习与高斯过程回归

监督式学习方法会依据所提供数据样本里的输入和输出来训练模型，让模型能够基于新的输入预测输出 ^[3] ，其具体学习流程如图2所示。首先收集原始数据样本并做数据分析，基于分析的结果对数据进行预处理，如数据清洗和特征工程等，确保数据满足后续训练模型的输入要求，提高对预测目标的相关性，并使模型的优化步骤更容易。然后根据学习目的选择具体适当的模型，比如该应用案例——预测电池剩余寿命是个回归问题，供选择的模型方法有神经网络、高斯过程回归等。基于选择的模型，对之进行调参及训练。最后使用训练好的模型根据新的输入对输出进行预测。

图2 监督式学习流程

具体的，本应用案例使用的监督式学习方法是高斯过程回归（Gaussian Process Regression，GPR），其是基于高斯分布的一种数学统计方法，通过高斯过程搭建回归函数，来表征输入和输出的关系 ^[4] 。

2.2 电池剩余寿命预测

2.2.1 传统物理模型

电池的剩余寿命预测，其等效于电池的剩余容量预测，传统物理方法通过电池运行的过程数据估算对应时段电池的实际容量。比如在电池充电工况下，电池从一个荷电状态（State of charge，SOC）到电量充满状态，用其所充的电量和电池SOC的变化量估算电池的实际容量，充电量可以用电流积分法计算得到 ^[5] 。具体见式（1）：

式中， Q 为电池容量（A·h）； I 为充电电流（A）； t 为充电时间（s）； SOC _initial 是充电前电池SOC（%）。

2.2.2 NASA电池数据

本段通过高斯过程回归来估算电池的剩余容量，其中用于训练和测试的数据样本均来自NASA（美国航空航天局），其共享了大量的锂电池退化实验数据 ^[6] 。这些数据基于电池单体试验并做对应参数的数据收集，其试验过程如下：

1）电池单体连续工作，先将电池单体充电至约100% SOC（单体电压约4.2V左右），然后使用范围从0.5A到4A的随机电流序列将其放电到3.2V。

2）每50个随机循环后执行一个既定的充电和放电循环，以提供电池容量的参考基准。这个过程可以通过电流积分法，计算电池从100% SOC放电至3.2V电压时的累计放电电量，并将该累计电量作为电池的当前基准容量。

试验过程中收集的数据参数包括单体电压、电流、温度和时间。共对28个电池单体样本进行了试验和数据收集。

2.2.3 高斯过程回归模型的输入和输出

为了得到电池剩余寿命预测模型，将28组数据中的部分单体数据作为训练样本，将其它单体数据作为测试样本；训练样本用于模型的训练，测试样本用于模型的验证。高斯过程回归需要的特征输入由两部分组成，一部分需要考虑当前的初始电池容量，另一部分由单体电压、电流、温度和时间等参数计算得到。输出由经过随机充放电循环后的参考基准电池容量算得。具体的，回归模型的输入包括 t ₁ 时刻的电池容量，以及电池单体在 t ₁ 到 t 时刻时间间隔内电压、电流、温度在不同范围内的时间统计特征；模型的输出为从 t ₁ 到 t 时刻，电池容量的减少值，具体见表1。

表1中， X 为输入， c 为电池容量， u 是电压、电流、温度在不同范围内的时间统计特征， Y 为电池容量减少值。基于上述输入和输出定义，将数据进行预处理后代入高斯回归模型训练。模型完成训练后，再基于测试样本的数据输入，逐步预测该测试单体未来的电池容量变化，即以该单体当前容量作为初始状态，结合下一试验周期的电压、电流、温度在不同范围内的时间统计特征，预测出该周期的容量衰减值，再以当前容量值减去容量衰减值，作为下次的电池容量初始状态，以此类推。完成预测该单体未来时间内的电池容量变化 ^[7-8] 。

表1 高斯过程回归模型输入和输出

2.2.4 预测结果

实际运算中，以1～8、10～16、18、20～28号单体作为训练样本，以单体9、19作为测试样本。预测结果分别如图3和图4所示，可见预测曲线与实际衰减曲线的趋势基本一致。

图3 电池单体9剩余容量预测曲线

图4 电池单体19剩余容量预测曲线

3 强化学习与其应用案例

3.1 强化学习与近端策略优化

强化学习是一种关于决策和控制的机器学习方法，其基于环境状态而做出行动指示，以取得最大化的预期奖励 ^[9] 。学习过程如图5所示，控制代理通过不断与环境交互，并在这个过程中持续收集环境状态、控制代理输出的动作以及指导学习意图的奖励等样本数据。然后利用该样本数据库进行强化学习，最终得到一个控制模型。

图5 机器学习过程

本应用案例使用的强化学习方法是近端策略优化（Proximal Policy Optimization，PPO），该方法是在策略梯度（Policy Gradient，PG）算法的基础上进行优化，平衡了模型实现的难易程度、采样复杂度、调参复杂度等，是当前强化学习里比较受追捧的一种方法 ^[10] 。

3.2 混动车能耗和排放管理策略

3.2.1 车辆架构和仿真模型

本段强化学习应用的目的是针对柴油机混合动力汽车的油耗和排放，训练一个策略模型实现整车尽可能减少燃油消耗且能让NO _x 排放满足限值的算法。支持该研究的整车架构如图6所示。

图6 P0柴油机整车架构

图6是一辆P0柴油机混动车（Hybrid Electric Vehicle，HEV）的架构，其中电池是48V电池，为电加热载体（Electrical Heated Catalyst，EHC）和电机供电；电动机通过传动带和发动机连接，支持发电机和电机模式；变速器为6速手动变速器。电加热载体可以加热通过该载体的气体，氧化催化器的目的是将发动机尾气中一氧化碳（CO）和碳氢化合物（HC）转化成水（H ₂ O）和二氧化碳（CO ₂ ），选择性催化还原器（Selective Catalytic Reduction，SCR）主要是去除尾气中氮氧化物（NO _x ）。

该应用场景涉及动力总成相关零部件的控制，从安全以及需要重复试验的角度出发，将整车训练和测试过程均放在仿真环境中进行。为此，需搭建一个和上述架构统一的仿真模型，该仿真模型的子系统模型包括整车运动模型，变速器和离合器模型，发动机模型，排气后处理模型，电机模型和48V电池系统模型等 ^[11] 。

3.2.2 强化学习代理控制的自由度

针对该P0柴油机混动车，在车辆怠速或者低速工况时其发动机负荷很小，发动机提供给催化剂的热量会很少，这时可通过电加热载体加热的方式提高排气温度；或者让电机进入发电机模式，增大发动机负荷，来提高排气温度；高排温会让催化器更早地进入高效率转化模式，减少NO _x 排放。当上述两种方式同时实施时，也可能会引起排气温度过高，导致催化器转化效率降低，这时可以停止电加热载体加热或者让电机提供正转矩来降低发动机负荷，降低排气温度。上述过程中，电加热载体的电功耗大小或者发动机负荷的增减影响着油耗（此处需将“电耗”也归入“油耗”里），排气温度影响着催化器对NO _x 的转化效率。综上，为了满足“尽可能减少燃油消耗且让NO _x 排放满足限值”这一技术要求，可以控制的自由度有：电加热载体的功率和电机的转矩。另外，为了增加系统控制的稳定性和鲁棒性，发动机的燃烧模式也作为一个控制自由度。发动机燃烧模式可以影响燃油消耗、NO _x 排放量以及排气温度的变化趋势，具体见表2。针对上述三个控制自由度，传统的物理控制方法有：

表2 发动机模式对油耗、排放、排温影响

对于电机的转矩控制，需考虑发动机负荷变化导致的燃料消耗变化和电池电量变化，同时需要考虑SOC的安全阈值等边界问题。通过试验优化标定，平衡各个需求指标。

对于电加热载体的功率控制，传统的物理控制方法为PID控制，目标是减小实际催化器温度和设定催化器温度之差。

对于发动机模式的控制，在起始阶段，为了提高催化器温度，会选择“高排温，低NO _x 排放，高油耗”的燃烧模式；在催化器温度超过催化器的目标设定温度时，会选择“低排温，高NO _x 排放，低油耗”的燃烧模式。

3.2.3 强化学习状态和奖励

该应用案例中强化学习过程需要的状态信息，主要包括车速，电池SOC，选择性催化器温度，排气温度，NO _x 排放值，CO ₂ 排放值等。

奖励设计方面，针对低油耗的奖励策略设计，可以用CO ₂ 排放值表征油耗，且CO ₂ 排放值越小时，奖励越大；反之越小。针对NO _x 排放满足限值的奖励设计，如果NO _x 的排放累加值除以路程大于目标限值时，减少奖励值；反之增大奖励值。

3.2.4 强化学习结果

训练及试验过程使用的样本数据共有43组，为随机驾驶工况数据，累计2500km。其中，22组参与近端策略优化模型的训练；其它21组用于测试及试验对比，将这21组的速度曲线代入仿真模型，结合训练完成后的近端策略优化模型给出针对三个控制自由度的控制序列，得到对应的CO ₂ 和NO _x 排放数据，将该数据与上述21组原样本排放数据做比较。对比结果如图7所示。

试验过程中，所有数据都为有效数据，即NO _x 排放量都在NO _x 排放限值范围内，这21组中有19组使用强化学习模型控制得到的CO ₂ 排放值小于原样本基础排放值，且从统计结果看较基础排放数据的平均节油率约2.5%左右。

图7 CO ₂ 排放试验结果对比

4 结论

本文分析两个机器学习应用场景：电池剩余寿命预测和混动车能耗和排放管理策略，证明机器学习训练模型在某些方面能够接近或者优于传统方法。从应用目的上看，监督式学习主要用于感知和预测；强化学习用于决策和控制。目前更容易实现应用落地的是监督式学习方法。监督式学习比强化学习更早进入人们的视野，理论更加成熟，比如在路标识别和汽车制造质量管理 ^[12] 上的应用。强化学习主要是一种试错的学习方式，训练过程较为粗暴，一般需要借助仿真系统，如果在实际的应用场景中进行应用推广，强化学习还有很长的路要走。

对比机器学习和传统物理方法，机器学习有优势，也有短板。优势是机器学习模型通过不断训练和学习，会持续迭代；而传统方法一般是产品量产则开发完结。短板是机器学习训练出的模型带有“黑盒”属性，当使用的场景涉及整车安全或者相关法规时，就会遇到壁垒；而传统办法中用到的物理模型，有很好的可解释性，且已经被验证过无数次。

从发展趋势看，云计算、大数据已经在铺开应用，智能网联汽车也几乎成为新车的标配，机器学习的平台和算法理论也在技术巨头们的介入下逐步完善，机器学习在汽车领域的应用有着光明的前景。

参考文献

[1]李健明.基于深度学习的无人驾驶汽车环境感知与控制方法研究[D].西安：长安大学，2019.

[2]何清，李宁，罗文娟，等.大数据下的机器学习算法综述[J].模式识别与人工智能，2014，27（4）：327-336.

[3]HASTIE T,TIBSHIRANI R,FRIEDMAN J.The elements of statistical learning:Data Mining,Inference,and Prediction[M].2nd edit.Berlin:Springer,2009.

[4]CHALUPKA K,WILLIAMS C K I,MURRAY I.A framework for evaluating approximation methods for Gaussian process regression[J].Journal of Machine Learning Research,2012,14(1):333-350.

[5]HUANG S C,TSENG K H,LIANG J W,et al.An Online SOC and SOH Estimation Model for Lithium-Ion Batteries[J].Energies,2017,10,512-530.

[6]SAHA B,GOEBEL K.Battery data set,NASA AMES prognostics data repository[R].

[7]RICHARDSON R R,OSBORNE M A,HOWEY D A. Gaussian process regression for forecasting battery state of health[J].Journal of Power Sources,2017,357:209-219.

[8]LIU D,PANG J,ZHOU J,PENG Y,PECHT M.Prognostics for state of health estimation of lithium-ion batteries based on combination Gaussian process functional regression[J].Microelectronics Reliability,2013,53(6):832-839.

[9]SUTTON R,BARTO A.Reinforcement Learning:An Introduction[M].2nd e.Cambridge:MIT Press,2018.

[10]SCHULMAN J,WOLSKI F,DHARIWAL P,RADFORD A,KLIMOV O.Proximal policy optimization algorithms[J].ArXiv,2017, abs/1707.06347.

[11]HOFSTETTER J,BAUER H,LI W B,WACHTMEISTER G.Energy and Emission Management of Hybrid Electric Vehicles using Reinforcement Learning[J].IF AC-PapersOnLine,2019,52(29):19-24.

[12]徐啸顺，任建，林立，等.基于深度学习机器视觉对于动力总成制造防错应用的研究[J].传动技术，2020，34（1）.