物联网新型智能感知技术及其应用最新章节_向朝参著

第2章
基于群智感知数据的真实污染源识别技术

2.1 引言

随着社会的不断发展和城市化进程的不断加剧，城市的人口和密度在大幅度地提高。据 2011 年统计，我国城市人口已占全国总人口的 51%，这一比重还在继续增长 ^[52] 。同时，众多城市居民遭受越来越多的污染威胁，如环境污染、工厂排放的有害污染物以及具有低放射性的脏弹（Dirty Bomd）等。实时地监控城市污染源对城市的发展和安全非常重要，越来越受到人们的广泛关注 ^[54-55] 。然而，城市规模大和污染事故突发性强，利用传统的无线传感器网络和移动传感器网络实现城市污染源监控的耗费非常大。近年来，随着传感器技术的快速发展，使其制造成本不断降低，越来越多的传感器将集成到智能手机中，如化学污染检测传感器和空气质量检测传感器等 ^[7] 。群智感知网络利用普通用户现有手机中的感知设备，能够很好地解决大规模城市污染源监控成本高这个难题。

基于群智感知网络的城市污染源监控的基本方法如下所述。各个用户利用手机上配备的污染源传感器（或者通过手机蓝牙等方式连接的外置传感器 ^[7] ），在日常行走过程中自动地测量污染物浓度和当前位置（如GPS），然后，通过手机连接的网络将感知数据传送到中心服务器。中心服务器根据大量的感知数据判断污染源是否存在以及估计其相应的位置等参数，并给出预警或者通知相关部门采取应急处理措施 ^[56] 。虽然利用群智感知网络实施城市污染源监控的方法很简单，但要真正实现这个系统并不容易。用户的不可控以及利用不准确的现有感知设备，群智感知数据不可靠和不准确。未经处理和检验的原始感知数据不能直接应用到污染监测中。为了便于进一步地利用这些感知数据，首要任务是解决数据的不可靠问题。获得真实数据是利用群智感知网络构建污染源监控系统的基础。然而，解决这个问题主要面临以下两个方面的挑战：

①现有的方法都需要预先知道用户的感知噪声模型参数 ^[57-58] 。但是，在实际的群智感知网络中，感知用户很难合作来处理感知噪声。几乎不能知道他们的感知噪声模型参数，并且，也很难校正这些感知噪声。由于污染源分布广泛，且出现迅速和不可预测，因此很难已知污染源的真实情况以及相关参数。

②在群智感知网络中，除了受感知数据的噪声影响外，真实污染源的识别精度还受数据残缺程度的影响。例如，不受控制且未经训练的感知用户可能未实时地上报感知数据；不可靠的通信网络丢失感知数据。

为了解决上面两个挑战，本章提出了一种基于群智感知数据的真实污染源识别方法。首先，根据感知数据的感知位置将它们进行聚类，一个类的感知数据对应一个候选污染源；其次，利用最大似然估计方法估计各个候选污染源的参数；最后，基于最大期望方法 ^[59] ，提出了一种真实污染源最优识别算法，从候选污染源中识别出真实的污染源。综上，本章主要有以下 3 个创新点：

①研究和解决了群智感知网络中真实污染源识别问题。与传统真实源识别问题不同，源参数和数据感知误差都未知。针对这个问题，首先联合聚类模型和参数估计，以获得候选污染源和它们的参数估计值，然后利用迭代算法以实现最优的真实污染源识别。

②基于最大期望方法，提出了真实污染源最优识别算法。首先用这些带有噪声的感知数据来估计污染源的存在性，然后利用这个估计结果反过来估计感知噪声。基于不准确和不可靠的感知数据，通过迭代，有效地识别出真实的污染源。

③利用感知用户随机游走的特性，联合感知数据的噪声处理和真实污染源的识别，将在某个污染源处估计的噪声模型参数用到其他污染源的识别中，以提高源识别的整体精度，同时很好地解决了感知数据不完全的问题。

2.2 系统模型

2.2.1 相关工作介绍

近年来，有少量文献研究利用群智感知网络来监控城市大规模环境。例如，文献[30-32]监控城市的空气质量；文献[23-24]利用智能手机的麦克风和GPS传感器来监控城市噪声污染情况。以上这些环境监控系统都主要关注系统的实现，而未考虑感知数据的不准确性和不可靠性问题。而文献[29，60]考虑了感知数据的不准确性和不可靠性问题。文献[60]研究利用群智感知网络感知很难事先建模的偶发事件，如地震。不同于这个研究，污染源的传播模型可以预先已知和建模，可以利用模型来提高污染源识别的精度。文献[29]提出了一种基于群智感知用户的 0-1 观察数据来获取真假判断的方法。这种方法基于一个假设，即每个用户对所有观察对象的可靠性相同。然而，由于该假设在本章的问题中不成立，因此，它不能很好地解决本章的问题。

此外，当前有大量基于传统的无线传感器网络进行污染源监控的研究工作，主要可以分为两类：污染源参数估计和真实污染源识别。污染源参数估计是指假设或者已知污染源存在，估计污染源的位置和强度等参数；真实污染源识别是指在预先未知污染源是否存在的情况下，判断其存在性。

以前大部分工作都是利用无线传感器网络来监控污染源，估计其参数。一类方法利用经典的统计信号处理方法，如最大似然估计（Maximum LikelihoodEstimation，MLE） ^[61-63] 和贝叶斯估计（Bayesian Estimation） ^[64] 。虽然这类方法的计算复杂度高，但能够达到很高的精度。为了解决计算复杂度高的问题，文献[54，56，65-66]提出了一种基于几何三角形的定位估计方法。这种方法在牺牲一定估计精度的代价下，大大降低了计算复杂度。此外，一些滤波算法也被用来进行污染源参数估计，如卡尔曼滤波（Kalman Filter） ^[67] 和粒子滤波（Particle Filter） ^[68] 。本章采用了最大似然估计方法来估计污染源参数，主要是基于以下原因：在群智感知网络中，参数估计是在计算能力非常强大的云中心服务器中执行，可以牺牲计算复杂度来获得高的估计精度。

当前有很多工作在研究传统无线传感器网络中真实污染源识别问题。平均值检测方法（Mean Detector， MD） ^[62-63] 是一种最简单的真实污染源识别方法。它主要以所有感知数据的平均值作为判断依据。如果平均值大于某个阈值，则判断污染源存在；否则，判断污染源不存在。这种方法没有考虑污染源的扩散模型，其识别精度较差。为了解决这个问题，提出了一些基于似然函数（Likelihood Function）的检测方法，包括广义似然比检验法（Generalized Likelihood Ratio Test，GLRT）和修正的广义似然比检验法（Modified Generalized Likelihood RatioTest，MGLRT） ^[61-63] ，以及序贯概率比检验法（Sequential Probability Ratio Test，SPRT） ^[54，65] 。具体地说，与平均值检测法不同的是，它们将假设污染源存在时的最大似然值与假设污染源不存在时的最大似然值之间的比值作为判断依据。虽然这类方法的识别精度很高，但是其判断阈值很难确定，并且对识别精度影响很大 ^[61] 。而且，这类方法所基于的假设在本章问题不成立，即所有传感器的感知噪声模型服从同样的分布。同时，由于污染源都存在和污染源都不存在这两种情况是不可能同时出现的，因此基于这两种情况下的最大似然值的比值进行检测是不能达到真正的最大似然值。与之相反，本章提出了一种真实污染源最优识别方法，它可以通过迭代获得最大似然估计值。本章方法的检测阈值很好确定，且它的变化对识别精度影响很小。

此外，文献[69]考虑无线传感器网络的带宽受限，提出了一种分布式污染源识别算法。文献[70]研究如何部署无线传感器网络以使传感器个数最小，同时满足识别时间和覆盖率的约束条件。文献[55]利用基于小规模实验床（Reduced Scale Testbed）的实际实验，分析和比较了无线传感器网络中几种识别算法的性能。不同于这些工作，本章旨在研究根据不可靠、不准确的群智感知数据，如何准确地识别出真实污染源。

2.2.2 系统模型

本节描述利用群智感知网络监控城市污染源的系统模型。考虑 N 个用户参与群智感知网络中，他们上报关于各个污染源的感知值。作一个合理假设，在某个时刻某个地点的感知值只关于一个污染源。它的合理性在于，大部分传感器只能在有限的范围内感知到污染源。由于污染源个数有限，且分布在一个广阔的区域内，因此，传感器的感知距离与污染源之间的距离可以忽略不计。

令 z _ij 表示第 i 个感知用户关于第 j 个污染源的感知值，包括污染浓度测量值 m _ij 和感知位置 X _ij ，即 z _ij =（ m _ij ， X _ij ）。只考虑污染源在二维空间的扩散，用 C _j 和 X _j 分别表示第 j 个污染源的总强度和位置。根据污染源扩散的反平方定律（Inverse Square Law） ^[65] ，在位置 X _ij （ X _ij ≠ X _j ）处感知到的第 j 个污染源的浓度为

其中，表示 F- 范数的平方，即感知位置 X _ij 与污染源位置 X _j 之间的距离平方。这个扩散模型在污染源监控的研究工作中被大量使用 ^{[56，65，71]} 。同时，本章的方法可适用其他污染源的模型中。

考虑用户手机中低成本的传感器仅具有有限的感知能力，除了如式（2.1）中扩散浓度值外，传感器的感知值还包含随机噪声。根据文献[72-73]，这个随机噪声服从高斯模型。在群智感知网络中，很难使各个用户合作进行传感器校正，用户的感知噪声很难被校正。同时，用户感知设备的多样性，导致很难控制其设备性能。用户的感知噪声模型参数未知且各不相同，用 n _i 表示第 i 个用户感知噪声的随机变量，则有

其中， u _i 和 σ _i 分别表示第 i 个用户感知噪声的均值和均方差。

用 H ₁ 和 H ₀ 分别表示污染源存在和污染源不存在两种情况，第 i 个用户在两种情况下感知到的第 j 个污染源的浓度测量值 m _ij 分别为

根据式（2.1）、式（2.2）、式（2.3）和式（2.4），第 i 个用户在两种情况下的感知值 z _ij 的条件概率密度函数分别为

其中，和分别表示第 j 个污染源不存在（即 H ₀ ）和它存在（即 H ₁ ）两种情况。 ϕ （·）表示标准正态分布的概率密度函数，即。

2.2.3 问题描述

由于群智感知用户不受控制和未经训练，且每个用户可能只上传部分污染源的感知值。如某些用户可能未到达某个污染源附近区域，仅仅在污染源的边缘区域活动或经过，因此，所有感知用户的感知数据集合为

其中， Φ _i 表示第 i 个用户的感知数据集合，即 z _ij ∈ Φ _i 。

感知用户不受控制性和感知数据不准确性，集合 Φ _i 中大量的感知数据既不准确又不可靠。对中心服务器，如何从这些不准确、不可靠的感知数据中识别出真实信息是非常重要的。本章将讨论和解决基于群智感知数据的真实污染源识别问题。其问题描述如下：

真实污染源识别问题：仅仅根据群智感知数据集合 Φ ，在未知污染源参数 Θ 和用户感知噪声参数 Ψ 的情况下，如何估计出污染源的存在性 ϑ ，以使其与感知数据保持一致。其形式化描述如下：

其中， N 和 M 分别表示感知用户的人数和候选污染源的个数。 ν _j 表示第 j 个污染源的存在性， ν _j = 1（或者 0）表示第 j 个污染源存在（或者不存在）。和分别表示污染源存在性 ϑ 、污染源参数 Θ 和用户感知噪声参数 Ψ 的估计值。

2.3 方法概述

为了解决真实污染源识别问题，本章提出了一种基于群智感知数据的真实污染源识别方法，称为PassFit（Participatory Sensing and Filtering for Identifying Truthful Urban Pollution Sources）。 PassFit的含义是指所提方法能够从众多不准确、不可靠的群智感知数据中过滤出（Pass）恰当的（Fit）数据，以识别出真实的污染源。

如图 2.1 所示，PassFit方法主要包括两个部分：聚类和源参数估计，以及真实污染源最优识别。在聚类和源参数估计中，首先通过对所有感知数据进行聚类，以计算候选污染源的个数，然后估计各个候选污染源的参数。在真实污染源最优识别中，基于前面的污染源参数估计值，提出了一种真实污染源最优识别算法，从候选污染源中准确地识别出真实源。具体地说，根据各个用户的感知噪声参数估计值，估计污染源的存在性；反过来，基于源的存在性估计值，重新估计用户的感知噪声参数。这两步交替迭代直至收敛到最优估计，即感知数据的似然值最大。

图2.1 基于群智感知数据的真实污染源识别方法（PassFit）的框架

2.4 聚类和源参数估计

2.4.1 感知数据聚类

在真实污染源识别问题中，仅仅已知群智感知数据集合 Φ ，不知道候选污染源个数，以及哪些感知数据对应同一污染源。根据感知数据的感知位置来聚类，每一个类中的感知值对应同一个候选污染源。其合理性是，每个用户的传感器都只有一定的感知范围，且比较小，如几十米，只有当感知用户到达污染源附近时，用户才能感知到该污染源。对同一个污染源的感知值，其感知位置距离很近。

在PassFit方法中，采用基于互信息的聚类算法（Mutual Information Based Clustering Algorithm） ^[74-75] 对感知数据进行聚类，即互信息（Mutual Information） ^[76] 高的感知数据聚为一类。令 M 表示聚类个数，一个聚类对应一个候选污染源，同时，该类中的感知数据都是关于该污染源的感知值。在本章后面部分，为了叙述简洁，若未特别说明，污染源是指候选污染源，与真实污染源相对。用 ħ _j 和 U _j 分别表示关于第 j 个污染源的感知数据集合和观察到该污染源的用户集合，即 U _j = { i ∣∀ i ， z _ij ∈ ħ _j }， j = 1，2，…， M 。

在每个聚类中，一个感知用户可能感知到某个污染源不只一个的感知值。例如，当一个用户已经得到了一个关于某个污染源的感知值，他可能再走一段距离后又得到一个关于该污染源的感知值。为了便于处理，如式（2.9）所示，仅仅选择污染浓度测量值最大的感知值。其原因是，对同一个感知用户，由于他（她）的感知噪声模型都比较稳定，因此，浓度测量值大的感知值对应的信噪比（Signal- to- Noise Ratio，SNR）也大，从而对似然估计精度的贡献也大 ^[77] 。

其中， Δ _ij 表示第 i 个用户关于第 j 个污染源的感知数据集合，即 Δ _ij ⊂ ħ _j 。

基于上面的处理，得到所有用户的感知数据集合为

2.4.2 污染源参数估计

在PassFit方法中，首先在本小节估计所有候选污染源的参数 Θ ，包括污染源的位置 X _j 和总强度 C _j ；然后在后文中，基于这些参数的估计值，从候选污染源中识别出真实污染源。如果某个污染源被判定为真，则将这些估计值作为这个真实污染源的参数估计值；如果它被判定为假，则这些估计值视为无效。这样处理的原因如下：根据式（2.3）和式（2.4），污染源的参数仅仅与真实污染源有关。真实污染源识别结果对污染源参数的估计影响较小，可以先估计各个候选污染源的参数，再识别出真实的污染源。

本章利用最大似然估计算法 ^[61-63] 来联合估计各个污染源的参数。根据式（2.6），假设所有污染源都存在，其感知数据的似然函数为

最大似然估计算法主要是计算如何使式（2.11）中似然函数最大，形式化描述为。这是一个简单的无约束非线性凸优化问题。当前有很多解决这种优化问题的方法，如拟牛顿方法（Quasi- Newton Methods） ^[78] 等。

2.5 真实污染源最优识别算法

本节提出了一种真实污染源最优识别算法，基于污染源参数的估计值（即）， j = 1，2，…， M }），从候选污染源识别出真实源。首先推导算法设计的理论根据；然后基于推导结果，给出算法的描述。

2.5.1 算法设计的理论推导

本章利用最大期望方法（Expextation Maximization，EM） ^[59] 来识别真实污染源。最大期望方法是一种经典的数理统计方法，以解决残缺数据模型下未知参数的最大似然估计问题。它主要通过两步（即E- step和M- step）交替迭代，最后收敛到最大似然估计值。在E-step，计算似然函数关于隐含变量分布的期望函数；在M-step，计算未知参数的估计值使该期望函数最大。首先形式化描述似然函数；然后基于该似然函数推导E-step和M- step这两步；最后总结前面的理论推导，并得到如下结论：通过交替迭代地估计污染源的存在性和用户的感知噪声参数，本章方法可以实现真实污染源的最优识别。

（1）似然函数的形式化描述

根据全概率公式，第 i 个感知用户关于第 j 个污染源的感知值 z _ij 的概率为

其中，表示第 j 个污染源存在的概率，用 d _j 表示；表示第 j 个污染源不存在的概率，用 1 - d _j 表示。

根据式（2.12），所有用户感知值的似然函数为

其中， Ω 表示一个参数集，即 Ω = { d _j ， u _i ， σ _i ， j = 1，2，…， M ， i = 1，2，…， N }。

式（2.13）中似然函数含有残缺数据，计算它的最大似然值非常困难。而最大期望方法通过增加隐含变量的方式恰好能够解决这个问题。选择合适的隐含变量以适合最大期望方法很关键。在PassFit方法中，选取 Ω 作为未知参数，并定义隐含变量如下：

根据式（2.13），增加了隐含变量 ϑ 后，似然函数变为

（2）E-step推导

在E-step中，已知感知数据集合和未知参数的当前估计值，计算似然函数 L （ Z | Ω ， ϑ ）关于隐含变量 ϑ 的条件概率分布的期望似然函数。以第 t 步迭代为例，根据式（2.5）、式（2.6）和式（2.15），可得期望似然函数为

其中，表示未知参数在第 t 步迭代的估计值，包括和， j = 1，2，…， M ， i = 1，2，…， N 。

表示当已知感知数据集合 Z 和未知参数的当前估计值时，隐含变量 v _j 为真的条件概率分布。它是 j 和 t 的函数，用 Γ （ j ， t ）来表示。根据贝叶斯定理（Bayes’ theorem） ^[79] ，可推导得

其中，表示 p （ v _j = 1）在第 t 步迭代的估计值； F （ j ， t ）表示与的比值。根据式（2.5）和式（2.6），可得

同样地，可得如下：

将式（2.17）、式（2.18）和式（2.19）代入式（2.16），得到期望似然函数为

（3）M-step推导

在M-step中，计算未知参数 Ω 的估计值以使期望似然函数最大，然后以这个估计值作为未知参数新的估计值，即

计算使期望似然函数最大的未知参数值（即，可得

通过解式（2.21）和式（2.22）的方程组，可以得到未知参数的新估计值（包括和， j = 1，2，…， M ， i = 1，2，…， N ）

其中，S _i 表示第 i 个用户感知到的污染源集合， J _i 表示该集合中元素的个数，即。根据上面的推导可知，未知参数的新估计值可基于E-step中得到的 Γ （ j ， t ），根据式（2.23）、式（2.24）和式（2.25）计算得到。

（4）理论推导总结

本小节首先对E-step和M-step两步中推导的结果进行总结，然后得出真实污染源最优识别算法的思想和本质。

根据上面三节的推导，E-step的核心是基于未知参数的估计值，计算隐含变量为真的条件概率 Γ （ j ， t ）；M-step的核心是基于E-step计算的条件概率 Γ （ j ， t ），计算未知参数在下一次迭代中新的估计值。这两步相互交替迭代执行，直至未知参数的估计值收敛。

值得注意的是，由式（2.23）可知，污染源存在概率的新估计值与隐含变量的条件概率 Γ （ j ， t ）相等。所提算法的本质是污染源存在概率估计和用户感知噪声估计之间交替迭代。根据式（2.17），式（2.18）和式（2.19），利用用户感知噪声的估计值（和）来计算污染源存在概率的新估计值；根据式（2.24）和式（2.25），利用这个估计结果来重新计算用户感知噪声的估计值（和）。

式（2.15）中的似然函数是凹函数且可微，根据最大期望方法的收敛条件 ^[80] ，感知数据的似然函数值随着迭代逐步提高直至最大。所提算法可以收敛到最大似然值，从而得到污染源存在性的最优估计值。这个凹函数证明很简单，此处不再详述。

因为污染源的存在状态（用表示）非 1（存在）即 0（不存在），所以，根据污染源存在概率的最优估计值，可以很简单地判断污染源的存在状态。如果，则第 j 个污染源存在，即 = 1；否则，它不存在，即 = 0。

综上，根据上面推导的结果，可得到两个结论：

①所提真实污染源识别算法本质上是一种交替迭代算法。基于用户感知噪声的估计值，估计污染源的存在性；基于这个估计结果，反过来重新估计用户的感知噪声。

②从最大化感知数据的似然值的角度，所提算法可以通过迭代得到污染源存在性的最优估计值。

2.5.2 算法描述

根据上一节的理论推导结论，提出了真实污染源最优识别算法，见表 2.1。算法的输入是污染源的参数估计值和用户的感知数据集合 Z 。它们都由PassFit方法的第一部分（即聚类和源参数估计）计算得到。算法的输出不仅包括污染源存在性的估计值，还包括用户感知噪声的估计值

在算法的第 1 行，用对未知参数 Ω 进行初始化。由于所提算法具有收敛性，因此，这个初始值设置对算法性能影响非常小。在算法的第 2—11 行，迭代地计算以下两步直至收敛：第一步（算法第 3—6 行），基于用户的感知噪声估计值，计算污染源存在概率估计值；第二步（算法第 7—9 行），基于前面的存在概率估计结果，重新估计用户感知噪声。如果连续两次迭代的未知参数估计值的变化小于阈值，则认为迭代收敛。

当未知参数估计值收敛后，在第 12—13 行，将用户感知噪声估计值的收敛值作为用户感知噪声的最终估计值；在第 14—18 行，根据污染源存在概率估计值的收敛值计算污染源存在性的最优估计值。需要说明的是，这个存在判定阈值 τ 一般设置为 0.5，同时，2.8.2 节的实验结果表明，这个判定阈值的设置对算法性能的影响可以忽略不计。在第 19 行，算法返回真实污染源的识别结果和用户感知噪声的估计值。

这个算法具有多项式阶的时间复杂度，即 O （ N · M · K ），其中 N ， M 和 K 分别表示感知用户的人数、污染源的个数以及迭代的次数。另外，所提算法不仅可以准确地识别出真实污染源，还可以估计出用户的感知噪声。在群智感知网络中，预先知道用户的感知噪声几乎是不可能的，本章算法对估计用户的感知噪声非常重要。

表 2.1 真实污染源最优识别算法

续表

2.6 实验性能分析

本节通过仿真实验对PassFit方法的性能进行评估。

2.6.1 实验方法和参数设置

在这个仿真实验中，模拟和仿真了一个较大规模的基于群智感知网络的城市污染源监控系统。 M 个污染源随机地分布在 20 km × 20 km的区域。污染源的强度在 2 × 10 ⁵ 和 6 × 10 ⁵ CPM（Counts Per Minute）之间随机变化。这个设置与低强度的放射性污染源的实际参数一致 ^[54，65] 。每个污染源以概率 p _s 存在，称为污染源的存在概率。传感器的感知范围有限，污染源感知区域的最大半径设置为 150 m，同时，考虑污染源中心危害大，用户不易到达，其最小半径设置为50 m ^[28] 。 N 个用户参与群智感知网络中，每个感知用户以概率 p _u 到达每个污染源的感知区域，并随机选择一个位置进行感知。 p _u 称为用户的感知概率。仅仅通过设置用户的感知概率 p _u 来控制感知数据的个数，对感知用户的移动模型没有作任何假设。感知值包括污染浓度测量值和感知位置。污染浓度测量值包括污染源的浓度扩散值和用户的随机感知噪声。每个用户的感知噪声的均值和均方差分别在 100 到 150 CPM以及 10 到 30 CPM之间随机变化。在真实污染源最优识别算法中，若未特别说明，真实污染源的判定阈值 τ 设置为 0.5。

广义似然比检验法（GLRT） ^{[54，61-63，65]} 是当前识别精度最高的一种方法。这种方法基于一个假设，即所有感知数据的噪声都服从一样的分布。但是，该假设在本章问题中不成立。本书不与这种方法进行比较，而将基于强度估计的检测法（Estimated Intensity Based Detection，EID）作为基本比较对象，以评估所提方法的性能。 EID算法采用与本章相同的方法估计各个污染源的强度，然后基于这个强度估计值来判断污染源是否存在。如果某个污染源的强度估计值大于阈值，则判定它存在，否则它不存在。这个判定阈值设置为 2 × 10 ⁵ CPM，即污染源强度参数设置的下限。

仿真程序用MATLAB实现，并在Intel Core i3 处理器、2 GB RAM的个人计算机上运行。所有仿真结果都是运行 100 次的统计结果。

2.6.2 方法的性能评估

从污染源存在性估计精度和用户感知噪声估计精度两个方面来评估PassFit方法性能。用 4 个指标来比较当前其他方法与所提方法的性能：①真实源识别的假阳性；②真实源识别的假阴性；③感知噪声均值的相对估计误差；④感知噪声均方差的相对估计误差。为了叙述简洁，分别称这 4 个指标为识别假阳性、别假阴性、噪声均值估计误差和噪声均方差估计误差。从以下 5 个不同的方面来评估PassFit方法的 4 个指标性能：

（1）用户感知概率的影响

第一个实验比较PassFit方法和EID算法在用户不同感知概率下的性能。污染源的个数 M 设置为 30，其存在概率 p _s 设置为 0.5。感知用户的人数 N 设置为 60，其感知概率 p _u 在 0.3 到 0.9 之间变化。

如图 2.2、图 2.3、图 2.4 和图 2.5 所示，对不同的感知概率，PassFit方法在4 个指标上都要优于EID算法。较之EID算法，PassFit在识别假阳性、识别假阴性、噪声均值估计误差和噪声均方差估计误差上分别提高了 99%，82%，38%和 70%。

图2.2用户感知概率对识别假阳性的影响

图2.3 用户感知概率对识别假阴性的影响

如图 2.3 所示，当用户感知概率增大时，识别假阴性先降低后增加。这个实验结果表明，过度密集的感知带来大量的不准确和不可靠的感知数据，会降低污染源的识别精度。当用户感知概率适中时，真实污染源的识别精度才最高。

图2.4 用户感知概率对噪声均值估计误差的影响

图2.5 用户感知概率对噪声均方差估计误差的影响

在PassFit方法中，当用户的感知概率降低时，识别假阳性和假阴性缓慢地增加。但是，即使在最差情况下（即感知概率最低时，如 0.3），其识别假阳性和假识别阴性都分别不超过 0.03 和 0.12。这个实验结果表明，PassFit方法即使在用户感知数据非常稀疏的情况下，也能达到很高的识别精度，很好地解决了感知数据不足的问题。其原因是，PassFit方法能够利用对一个污染源的感知值来估计感知噪声模型，然后将这个估计的噪声模型用于识别其他污染源，以提高整体的识别精度。这个优势主要是巧妙地利用了群智感知网络中感知用户随机游走的特性。

（2）感知用户人数的影响

第二个实验评估感知用户人数对识别性能的影响。对实验一的参数设置作以下修改：感知用户的人数从 20 到 90 随机均匀变化，其感知概率设置为0.8。

如图 2.6、图 2.7、图 2.8 和图 2.9 所示，对不同的感知用户人数，PassFit方法在 4 个指标上都要优于EID算法。 PassFit方法比EID算法在识别假阳性、识别假阴性、噪声均值估计误差以及噪声均方差估计误差上分别提高了 99%，79%，29%和 64%。

图2.6 感知用户的人数对识别假阳性的影响

图2.7 感知用户的人数对识别假阴性的影响

图2.8 感知用户的人数对噪声均值估计误差的影响

此外，如图 2.7、图 2.8 和图 2.9 所示，在EID算法中，识别假阴性、噪声均值估计误差和噪声均方差估计误差都随着感知用户人数的增加而增大，而PassFit方法却始终保持比较稳定。其原因是，随着感知用户人数的增加，其感知噪声模型的未知参数（即 u _i 和 σ _i ）个数也在增加，导致EID算法的估计精度降低。与之相反，PassFit方法利用了污染源存在性估计和感知噪声估计之间的交替迭代，有效地减轻了感知用户人数变化对识别性能的影响。

图2.9 感知用户的人数对噪声均方差估计误差的影响

（3）污染源存在概率的影响

第三个实验主要研究污染源存在概率对识别性能的影响。设置存在概率 p _s 在 0.1 和 0.8 之间均匀变化，其他设置同实验一。

如图 2.10、图 2.11、图 2.12 和图 2.13 所示，对不同的污染源存在概率，PassFit方法在 4 个指标上都比EID算法好。与EID算法比较，PassFit方法在识别假阳性、识别假阴性、噪声均值估计误差和噪声均方差估计误差上分别提高了 95%，80%，49%和 66%。

如图 2.10 和图 2.11 所示，当污染源存在概率增加时，PassFit方法的识别假阳性降低，同时识别假阴性提高。但是它的假阴性一直都小于EID算法。此外，如图 2.12 所示，对PassFit方法和EID算法，假阴性增加，它们的噪声均值估计误差都随着污染源存在概率的增加而增加。

（4）算法的收敛性

在这个实验中，研究迭代对识别性能的影响，以验证PassFit方法的收敛性。同时，设置感知用户人数为 30，感知概率为 0.4。

如图 2.14 和图 2.15 所示，随着迭代次数的增加，识别假阳性不断降低，识别假阴性不断增加，直到两者都保持不变。这个实验结果证实了PassFit的收敛性。同时，如图 2.14 和图 2.15 所示，PassFit方法在迭代 10 次以后就收敛了，收敛速率很快。此外，如图 2.15 所示，污染源识别假阴性的性能不是很稳定，其变化方差较大，这主要是因为污染源参数估计性能不稳定影响用户感知噪声估计的性能，从而导致污染源识别假阴性的不稳定。

图2.10 污染源存在概率对识别假阳性的影响

图2.11 污染源存在概率对识别假阴性的影响

图2.12 污染源存在概率对噪声均值估计误差的影响

图2.13 污染源存在概率对噪声均方差估计误差的影响

（5）算法的鲁棒性

为了验证PassFit方法的鲁棒性，与EID算法比较识别阈值对识别精度的影响。对实验一的参数设置作以下修改：设置用户的感知概率为 0.6，并变化PassFit方法和EID算法的识别阈值。为了公平地比较，设置PassFit方法和EID方法的基准阈值分别为 0.5 和 2 × 10 ⁵ 。它们的阈值相对于各自的基准阈值在-60%到 60%之间均匀变化。

图2.14 迭代次数对识别假阳性的影响

图2.15 迭代次数对识别假阴性的影响

如图 2.16 所示，在PassFit方法中，当识别阈值变化时，无论是识别假阳性还是假阴性都几乎保持不变。这个结果表明PassFit方法对识别阈值变化的鲁棒性强。与之相反，如图 2.17 所示，在EID算法中，随着识别阈值的增加，识别假阳性不断降低，同时识别假阴性不断提高。这个结果表明，识别阈值的设置对EID算法的识别精度影响很大。 EID算法对识别阈值变化的鲁棒性很差。更糟糕的是，在EID算法中，根据识别假阳性和假阴性的限制来设定识别阈值是非常困难的。综上，对识别阈值的变化，PassFit方法的鲁棒性强，而EID方法的鲁棒性差。

图2.16 PassFit方法的识别阈值对识别精度的影响

图2.17 EID算法的识别阈值对识别精度的影响

2.7 本章小结

本章针对群智感知数据的不准确性和不可靠性，提出了一种基于群智感知数据的真实污染源识别方法，解决了数据感知质量管理中去伪存真的问题。首先，利用基于互信息的聚类算法对感知数据进行聚类；其次，用最大似然估计算法估计出各个候选污染源的参数；最后，利用最大期望方法的思想，提出了一种真实污染源最优识别算法，基于前面的污染源参数估计值，从众多虚假的污染源中识别出真实的污染源。仿真结果表明，与当前方法比较，所提方法能够大幅度地提高识别假阳性和假阴性的能力。

此外，仿真实验结果还表明，利用本章方法得到的用户感知噪声估计值的精度不是非常高。除污染源存在性估计以外，污染源参数的估计对用户感知噪声估计的精度有影响。下一章将继续探究如何进一步提高用户感知噪声的估计精度。

第2章 基于群智感知数据的真实污染源识别技术