SCI论文 | 无人机高光谱城市内陆水污染动态监测参数反演模型构建及评价方法研究

陈嘉琪1,2,王金玉1,2,冯树龙1,赵子彤1,2,王明佳1,孙词1,南松1,金阳1,*

1,中国科学院长春光学精密机械与物理研究所,吉林长春130033

2.中国科学院大学,北京100049

 

摘要:环境水污染问题变得越来越重要。内河湖泊形成相互联系的水网,水生态系统脆弱,城市水污染问题频发。内陆河化学需氧量(COD)、溶解氧(DO)、总磷(TP)、总氮(TN)和氨氮(NH3-N)是评价内陆河水体健康质量的重要指标。及时准确地反映城市河流健康状况关键指标的动态变化,对调整水处理政策、保障水环境稳定和人民健康具有重要的现实意义。以广西某水库的COD、DO、TP、TN和NH3-N为典型水质参数,建立了一套涵盖无人机高光谱采样和地面光谱校正、光谱数据预处理和建模的标准化流程。将机器学习与统计分析相结合,提出了一种基于不同动态监测参数的无人机高光谱成像反演城市内陆水污染的方法。并对预处理回归算法和降维算法的不同组合进行了比较,得到了水质参数浓度定量估计的统一模型。我们根据均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和决定系数(R2)来评估所提出模型的性能。实验结果表明,我们的模型在RMSE、MAE、MAPE和R2方面优于其他算法。该模型各水质参数的MAPE范围为0.01 ~ 0.12,R2范围为0.84 ~ 0.98。总的来说,本研究为决策者研究水污染的来源和物理机制,建立分级水质评价模型提供了有效的工具。

 

关键词:高光谱成像;无人机,内河,水质监测,模型建立

 

1.引言

由于自然因素和人类活动的影响,许多内陆河的水质已经严重退化,这就需要对水质监测技术进行研究。传统的水质监测采用人工采样检测的方法,监测效率低,耗费大量人力物力。此外,孤立的监测点不能准确地描述整个水域的水质,也不能获得水质的空间分布。这些局限性使其难以满足现代城市治理体系的监测需求。水质遥感作为现有监测系统的辅助,可以获得河流、湖泊的多尺度、多时间信息,帮助跟踪可能的污染源位置。有效监测水质变化对保护城市河流具有重要意义。近年来,基于遥感技术的水质监测模型已广泛应用于化学需氧量(COD)、溶解氧(DO)、总磷(TP)、总氮(TN)和氨氮(NH3-N)等多种水质参数的定量估算[2,3]。文本中的所有缩写都显示在缩写索引中。这些元素的积累导致水体富营养化,浊度变化,总悬浮物含量增加。它们直接导致叶绿素的快速积累,这在很大程度上[4]扰乱了城市河流生态系统。因此,实时、准确地监测水质变化,确定引起水质变化的污染源和机制,是解决城市内陆水污染问题的关键,是保护水环境的基础和重点。近年来,随着遥感技术的快速发展,利用遥感反演水质参数变化已成为水质监测的常用手段。卫星遥感技术可以有效监测大型城市河流,但大多数城市河流宽度小于100米,属于中小河流的范畴。村镇河流的宽度通常小于10米。这些中小河流分布密集,分布广泛,河道淤积严重,流速缓慢,并从周围环境中非法和无计划排放。因此,水质容易恶化,河流污染发生率高。这些条件增加了对高时空分辨率遥感数据的需求。现有的星载遥感监测手段往往不能满足现代城市河湖水环境的监测需求。在分析方面,已经使用了多种方法来监测水质,包括深度学习方法,如经验方法,卷积神经网络(CNN),深度卷积生成和对抗网络,以及贝叶斯神经网络。这些等级的水质大多根据水质参数的浓度而达到比较好的性能。然而,上述研究的空间分辨率相对较差,无法在小范围内监测水质。因此,它不能应用于城市小型内陆水体的水污染监测。一些研究人员,如Bonansea等,利用光谱之间的关系,利用卫星数据通过多项式回归建模来监测水质参数的变化。同样,Gu等人使用两幅GF-5高光谱图像估算长江口叶绿素a浓度和悬沙浓度,预测精度为0.815。然而,这种方法需要很多数据集作为训练数据,才能获得较好的预测结果,导致数据收集周期长,精度有限。WANG等人通过改进传统的CNN研究,利用高光谱遥感和门控递归神经网络(GRNN)预测COD浓度,获得了良好的建模性能。然而,他们的数据是在实验室模拟的,可能没有实际意义。近年来,研究人员利用无人机(UAV)低空遥感技术进行研究,利用无人机对叶绿素a进行监测。Jung Min Ahn利用高光谱图像结合机器学习预测受控制河流中的蓝藻华,取得了较好的效果。综上所述,国内外针对城市内陆水污染无人机高光谱动态监测参数的反演方法研究较少。分析算法效率低下。鉴于此,以广西北海市5个典型水质参数COD、DO、TP、TN和NH3-N为研究对象,通过不同的预处理和回归方法,构建水质参数光谱特征的遥感反演模型。本研究利用无人机高光谱成像系统获取的400 ~ 1000 nm波长范围内的光谱信息,对某水库水体污染指数进行了定量动态监测。我们比较了预处理算法、回归算法和降维算法的不同组合,最后建立了采用统一的水质参数浓度量化模型,对水质参数浓度进行有效的定量估计,从而实现对水库水质污染指标的定量、动态监测。具体研究为:(1)获取400 ~ 1000 nm高光谱图像的光谱数据;(2)通过选择合适的光谱预处理,消除仪器本身和周围环境的干扰;(3)针对不同的监测指标,寻找不同的预处理与回归组合算法,研究过程中模型性能的评价方法;(4)通过主成分分析(PCA)、连续投影算法(SPA)和模拟退火算法(SAA)三种方法,选择最佳波长组合,优化反演模型,提高反演效率。该方法可实现对COD、DO、TP、TN、NH3-N等水质污染指标的快速监测,建立综合分析模型。

 

2. 材料与方法

本研究选取广西某水库作为研究区域。水库位于三河上,是北海水平的集中式饮用水源地,正常库容为1153万m3(图1)。对水库的分析有助于了解北滘水厂的生态环境状况,为城市供水安全提供保障。在水库下坡村、Poxinling、草花岭、坝头、水库5个不同水段的多个点进行高光谱成像(表1),同时在同一水段用微光纤光谱仪采集地面光谱数据。在试验区采用杯式定深水质采样器采集水样。单次实验共设20个采样点,每个采样点采集水样500 mL。样品按国家标准送专业机构检测,以COD、DO、TP、TN、NH3-N检测含量的实测数据作为后续光谱建模的标准。

img1

图1所示抽样水域分布图

 

 

表1.水库流域中心点水质监测

img2

 

无人机高光谱数据采集与预处理

在本研究中,我们使用了杭州高光谱成像技术有限公司(中国杭州)集成的无人机载高光谱成像系统,如图2b所示。系统核心光谱模块由CIOMP自主开发。

img3img4

图2.实验仪器:(a)无人机高光谱成像系统,(b)微型光纤光谱仪。

 

光谱范围400-1000 nm,光谱分辨率优于3 nm,透镜焦距(kowa)为35 mm。该微型光纤光谱仪的光谱范围为200 ~ 1100 nm,光谱分辨率优于1.5 nm。以反射模式采集广西牛尾岭水域的高光谱图像,得到水体的光谱曲线,如图3所示。处理过程如图4所示。

img5

图3。水体光谱反射率曲线

img6

图4.水样数据处理流程

 

2.3 ROI选择与预处理方法

实验时间为白天10:00 ~ 14:00。实验过程中,通过扫描梯度反射率白板获得了高反射率图像,并采集了水库5个不同水域的高光谱图像数据。利用式(1)对储层水反射率进行校正:

img7

式中,IR为校正后的反射率高光谱图像数据,IO为原始水体高光谱图像数据,IW为相同实验环境下的反射率白板高光谱图像数据,IB为相同实验环境下的反射率暗板高光谱图像数据。

利用CIOMP自行研制的微光纤光谱仪,按照式(2)对高光谱图像数据进行校正。

img8

建立了改进的无人机反射率和地面反射率模型,其中n为波段数,m为采样点数,r为原始高光谱反射率。处理后的高光谱图像如图5所示。

img9

图5.研究水域的高光谱图像

 

 

本研究在上述五个区域各选取50个点进行水样采样。在数据点中,随机选择70%作为训练集,剩余30%作为预测集。在分析ROI之前,需要对数据进行预处理,以消除系统噪声和周围环境的影响。本研究采用SNV、MSC、WAVE、MMS和cascade进行预处理。由于颗粒分布不均匀和粒径不同,SNV和MSC可以减小散射对光谱的影响。一些不同预处理方法的效果如图6所示。

img10

img11

 

图6.水数据的光谱曲线:(a)原始数据的光谱曲线,(b) SNV预处理的光谱曲线。(c) MSC预处理后的光谱曲线,(d) SNV MSC预处理后的光谱曲线,(e) MSC SNV预处理后的光谱曲线,(f) WAVE预处理后的光谱曲线,(g) MMS预处理后的光谱曲线。

 

3.分析模型和评价标准

 

3.1. 全谱回归模型的建模方法

 

采用LR、SVR、PLSR和RFR四种回归算法对某水库水体的COD、DO、TN、TP和NH3-N含量及光谱反射率数据进行建模分析。LR用于变量之间关系简单的地方。SVR是通过在数据集中寻找最优曲线或超平面,即最小化训练误差和最大化有效边来进行的。SVR回归使用核函数来处理非线性问题,这使得分离输入样本变得更加容易。它具有较强的非线性拟合能力和鲁棒性,预测时只计算支持向量。这大大减少了计算过程。对于训练数据集D = (x, y),其中xi为n维,yi为标量预测值,引入松弛变量sum来最小化目标函数如下:ξi ξ∗

img12

 

式中:C为罚系数;W和b分别为模型的系数和截距。常用的核函数有高斯核、多项式核和sigmoid核。本文选择高斯核函数进行建模,如式(4)所示:

img13

 

公式中:σ为超参数。PLSR是一种多因变量到多自变量的回归建模方法。最终模型包含了所有原始自变量,具有良好的模型可解释性[22,23]。RFR由多棵回归树组成,林中各决策树之间不存在相关性。

模型的最终输出由森林中的所有决策树决定,具有较强的抗干扰能力和抗过拟合能力。

本研究采用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)来评价回归分析模型的效果。一般来说,RMSE和mae误差越小,R2越接近1,模型的预测性能越好。具体参数计算如下:

img14

RMSE代表了均方根误差,美代表平均绝对值误差,R2代表确定系数,m代表数据点的数量,彝族代表的真正价值的关键指标内容水体数据点,yˆ代表的预测价值关键数据指标COD、做,TN、TP, NH3-N,内容,¯彝族代表的平均价值的真正内容关键指标鳕鱼,做,TN、TP和NH3-N每个数据点集。

全谱建模得到的不同关键指标的COD、DO、TN、TP、NH3-N含量期望值如表2-6所示,水质参数预测值的平均绝对误差百分比如图7所示。

MAPE越小,表明模型的预测效果越好。在上述表格和图表的基础上,结合RMSE和MAE数据,我们发现MSC预处理与RandomForest回归算法相结合建立COD的最佳预测模型,而WAVE预处理与SVR回归算法相结合建立DO的最佳预测模型。MSC SNV预处理与PLS回归算法相结合建立了NH3-N的最佳预测模型,而MSC SNV预处理与RandomForest回归算法相结合建立了TP的最佳预测模型。将MMS预处理与PLS回归算法相结合,建立了TN的最佳预测模型。这些因素都为后续的研究提供了数据输入。

img15

img16

img17

img18

img19

图7.水质参数预测与评价直方图:(a)预测COD的MAPE聚类直方图,(b)预测DO的MAPE聚类直方图,(c)预测NH3-N的MAPE聚类直方图,(d)预测TP的MAPE聚类直方图,(e)预测TN的MAPE聚类直方图。

img20

表3.DO全谱预测结果

img21

表4.NH3-N全谱预测结果

img22

表5.所示TP全谱预测结果

img23

表6所示TN全谱预测结果

img24

 

3.2. 频谱降维

本研究采用的光谱降维方法包括SPA、PCA和SAA。SPA是常用的波长选择方法之一,它可以选择最短的共线波长组合。对于COD参数预测,本研究对各波长组建立了MSC-RFR分析模型,取决定系数最大的波长组合为最佳组合。在本研究中,通过SPA共选择了20个特征波长。通过主成分分析,提取对原始信息贡献最大的主成分,结合相应的主成分载荷系数,选择波长组合。在本研究中,采用PCA算法选择15个特征波长。SAA是一种随机组合优化算法,它不仅考虑最优解,而且考虑在一定极限内的退化解,找到局部最优解,然后得到全局最优解。在本研究中,利用SAA选择20个特征波长,并利用SPA、PCA和SAA选择的最佳波长组合对MSC-RFR模型进行简化。分别建立MSC-SPA-RFR模型、MSC-PCA-RFR模型和MSC-SAA-RFR模型。其他四个水质参数的计算方法相同,其具体性能如表7所示。

表7所示光谱降维分析结果。

 

img25

4.结果与讨论

在第3部分中,我们对COD、TN、TP、NH3-N、DO等指标建立了相应的预处理和全谱回归建模方法,如表2-6所示。从表7可以看出,对于COD,采用MSC方法对水库水的高光谱反射率数据进行预处理,建立MSC- rfr分析模型。采用RMSE、MAE、R2和MAPE对全谱分析模型进行评价。然后,采用3种不同的降维方法对水库水高光谱反射率数据进行降维,分别建立了MSC-SAA-RFR、MSC-SPA-RFR和MSC-SPA-RFR分析模型。实验结果对比表明,MSC-SAA-RFR模型具有较高的R2值和较低的MAPE值,能较好地预测水中COD含量。针对DO,首先建立了WAVE-SVR全光谱分析模型,然后采用3种不同的降维方法对水库水高光谱反射率数据进行光谱降维,分别建立了WAVE-SAA-SVR、WAVE-SPA-SVR和WAVE-PCA-SVR分析模型。对比实验结果表明,WAVE-SAA-SVR模型具有较高的R2值和较低的MAPE值,能较好地预测水中DO含量。针对NH3-N,首先建立了MSC- pls的全光谱分析模型,然后利用3种不同的降维方法对水库水高光谱反射率数据进行光谱降维,建立了MSC SNV-SAA-PLS、MSC SNV-SPA-PLS、MSC snv - pac - pls分析模型。3个实验结果的比较表明,MSC SNV-SAA- PLS模型具有较高的R2值和较低的MAPE值,能够较好地预测水中NH3-N含量。对于TP,首先建立MSC- rfr全光谱分析模型,然后通过3种不同的降维方法对水库水高光谱反射率数据进行光谱降维,分别建立MSC SNV-SAA-RFR、MSC SNV-SPARFR和MSC SNV-PCA-RFR分析模型。对比3种试验结果表明,MSC SNV-SPA-RFR模型具有较高的R2值和较低的MAPE值,能较好地预测水中TP含量。针对TN,首先建立了MMS-PLS全光谱分析模型,然后利用3种不同的降维方法对水库水高光谱反射率数据进行光谱降维,分别建立了MMS-SAA-PLS、MMS-SPA-PLS和MMS-PCA-PLS分析模型。三者的对比实验结果表明,MMS-PCA-PLS模型具有较高的R2值和较低的MAPE值,能够较好地预测水体中TP含量。此外,我们认为评价模型的质量不是由R2和RMSE的单一水平决定的。只有通过对R2、RMSE和MAPE进行综合评价,才能得到更稳健的水质参数分析模型。

 

5.结论

由于城市河流污水检测指标无法在大范围内快速动态监测,本研究采用无人机采集高光谱图像数据,相比卫星采集具有更高的空间分辨率和更少的介质干扰,有效且灵活。结合机器学习和统计分析,研究了基于无人机高光谱成像技术的城市内陆水污染动态监测参数反演方法。同时,从无人机高光谱采样、地面光谱校正、光谱数据预处理、建模等方面建立了一套标准化流程。我们将上述模型组合成一个统一的端到端结构。总的来说,从理论意义上来说,本研究完善了一套系统的数据采集、水样理化分析、光谱预处理、水质参数关键指标数据建模等,为后续研究提供了指导。从应用意义上看,该方法可以实时监测城市河流水质的变化,有利于污染源的跟踪,并通过建立预警系统为城市河流水环境管理提供决策依据。这将最大限度地减少污水对人们生活造成的危害。

然而,这项研究也有一定的局限性。一方面,我们研究的数据是在晴天的上午10点到下午2点之间收集的,不包括一些极端恶劣天气的监测。在后续工作中,我们计划在模型中加入天气等参数因素进行修正,进一步提高分析的稳健性,为全天候监测做好准备。另一方面,我们将在中国和世界其他地区开展实验,进一步验证本研究中水质参数浓度定量方法的有效性,加快水环境智能监测系统的建设。

 

 

 

 

 

 

 

首页标题    新闻    学术前沿    SCI论文 | 无人机高光谱城市内陆水污染动态监测参数反演模型构建及评价方法研究

分享到: