# S5 r- O) w' r

- \* ?: H5 G. H* a# c: u
本文内容来源于《测绘学报》2024年第7期(审图号GS京(2024)1261号)
水深点与等深线协同综合的强化学习方法
% n/ S" N4 u; | 宋子康
,1,2, 贾帅东,1,3, 梁志诚4, 张立华1,3, 梁川1,5
* K6 g9 X- S+ _* z! o 1.海军大连舰艇学院军事海洋与测绘系,辽宁 大连 116018
9 F/ Q) T2 ?& {5 i 2.海图信息中心,天津 300450
" y/ |# ?1 A! A# @9 ^4 b' }9 h 3.海军大连舰艇学院海洋测绘工程军队重点实验室,辽宁 大连 116018
7 x6 V+ K% s3 j0 ^4 \+ f/ x: c, w+ v 4.91001部队,北京 100036
7 ?# Z) y9 z9 w: ?% R 5.91937部队,浙江 舟山 316041
. G/ |9 p) Y! s& U/ a7 X
基金项目
% m6 a( D" _/ {, ^ 国家自然科学基金(41901320;41871369;42071439)
( e5 V) ` Z5 _, H8 e& d
作者简介
% L. g/ [" F# Y1 b7 ?
宋子康(1999—),男,硕士生,主要从事海图制图理论与方法研究。E-mail:496299146@qq.com通讯作者: 贾帅东 E-mail:sky_jsd@163.com
9 p: g; J2 i' r2 m1 O+ @1 ^! W
摘要
9 ^7 f2 l6 u$ R" Q! v" X 针对当前海图中水深点与等深线两要素的自动综合过程相对独立,二者相互影响考虑不够充分,导致结果不够理想的问题,提出一种水深点与等深线协同综合的强化学习方法。首先,获取用于水深点与等深线协同综合的训练样本;然后,构建并训练强化学习模型,挖掘水深点与等深线在综合过程中的相互影响关系;最后,利用训练后的模型,动态自适应调整水深点与等深线的综合策略。试验结果表明,在航海安全保证的可靠性、制图综合结果的图理性、海底地貌表达的准确性及海图要素分布的美观性等方面,强化学习法的性能均要优于当前常见的简单综合法、冲突避免法及协调水深法,更适用于处理水深点与等深线的协同综合问题。
% C% G0 d( \& \ l3 Z/ p5 _; B 关键词
- ]( B X- x8 l0 Z
海图制图; 海底地貌综合; 水深点自动选取; 等深线自动化简; 强化学习
9 E, n0 p9 h1 {8 Z 本文引用格式
0 B* d( {/ F" p1 d( x2 m
宋子康, 贾帅东, 梁志诚, 张立华, 梁川. 水深点与等深线协同综合的强化学习方法
0 t3 ?1 c* J# r& |, @ [J]. 测绘学报, 2024, 53(7): 1345-1354
doi:10.11947/j.AGCS.2024.20230084
+ F7 M \9 P8 Q5 R |1 f+ n2 q( g* T8 [& {+ s* _, y3 u
SONG Zikang, JIA Shuaidong, LIANG Zhicheng, ZHANG Lihua, LIANG Chuan. A reinforcement learning method for collaborative generalization of soundings and depth contours[J]. Acta Geodaetica et Cartographica Sinica, 2024, 53(7): 1345-1354 doi:10.11947/j.AGCS.2024.20230084
' W/ C5 w+ v6 M, z0 y3 U) b 阅读全文
http://xb.chinasmp.com/article/2024/1001-1595/1001-1595-2024-07-1345.shtml水深点与等深线是海图上反映海底地貌高低起伏变化的两类基本要素。围绕水深点、等深线两类海底地貌要素的制图综合,既是海图编绘作业过程中最为烦琐、费时的环节,也是决定海图最终成图质量的关键部分
[1-3]。随着数字化制图技术的推广,不少学者开始探索数字海图制图平台下的海底地貌自动综合
[4]。一方面,在水深自动综合上,文献[5]提出了基于Voronoi图的水深自动选取算法。文献[6]引入地形复杂度提高了水深自动综合结果的精度。文献[7—10]提出的面控水深自动综合理论与方法实现了水深自动选取的工程化应用。文献[11]研究了多尺度表达下水深间距与最浅水深的关系。文献[12]以现有海图水深为控制,提高了水深选取算法性能。另一方面,在等深线自动综合上,文献[13]利用双向缓冲区方法来确保等深线化简的扩浅缩深。文献[14—15]提出基于约束Delaunay三角网的等深线自动化简。文献[16]采用多分辨率网格处理深度信息,实现了多尺度表达下的等深线自动化简。文献[17]从整体上定义等深线复杂度,为等深线自动综合提供了形态量化指标。上述方法在水深点或等深线的单一要素自动综合上取得了较好的效果。然而,若将两类要素自动综合后的结果简单叠加作为最终结果,则可能会出现视觉效果不佳(如图1(a)),甚至信息表达不一致的问题。对此,文献[18]提出了与等深线协调的水深自动选取方法,该方法约定在自动化简等深线后通过优化水深点的自动选取来实现两要素的协调匹配,但可能出现遗漏特征水深(如图1(b)中2.2 m水深应优先选取)。文献[19—20]提出基于多智能体系统的海底地貌协同综合方法,但该方法很难解决两要素表达不一致的图理性错误(如图1(c)中10.1 m水深点与10 m等深线的表达含义冲突)。文献[21]提出了基于弯曲化简的协同综合方法,虽然可以避免图理性错误,但在对等深线深侧弯曲进行化简时,可能出现等深线向浅水区扩展的新问题(如图1(d)所示),违背航海安全保证的基本要求。
图1
, y. {( q0 P' k2 ]0 D! o$ O

f h1 L7 u+ k+ q o 图1 当前协同综合方法存在的问题
( z! J, f) @; y5 p) Q. \ Fig.1 Problems in current methods
综上所述,当前的水深点与等深线协同综合方法很难适用于海底地貌变化平缓、剧烈、复杂等各类情形下的海底地貌综合。其原因主要在于,这些方法很难充分顾及水深点与等深线在综合过程中的相互影响,并作出更为精细化地调整。为此,本文引入强化学习模型来分析并处理两类要素的协同综合问题,其基本思路是通过强化学习中的自学习与自评价方法,对预设指标下的综合任务执行不同的综合动作,并接受结果的质量评估反馈,以此析取两类要素在综合过程中相互影响的协同关系;然后使用训练完毕的强化学习模型,动态优化水深点与等深线的协同综合。
7 O9 {" K0 D: M 1 水深点与等深线协同综合的强化学习
- q5 m7 J5 P0 m5 T3 U7 f: m 1.1 协同综合样本的获取
采用强化学习方法解决水深点与等深线的协同综合问题,首先需要获取一定数量的训练样本。考虑到卷积神经网络在数据感知方面的性能优势
[22-25],将矢量结构的水深点与等深线数据经栅格转换成图像后,可作为协同综合的训练样本输入卷积神经网络,用于后续的机器学习。首先,采用文献[18]中的改进道格拉斯-普克算法,识别等深线上的一段弯曲及其对应的特征点,如图2(a)所示。然后,以识别的特征点为正方形中心点,以l为正方形边长,构造一个用于获取栅格样本的正方形范围,如图2(b)所示。最后,按卷积神经网络标准采样尺寸对采样范围内的等深线与水深点采样,形成栅格图像,如图2(c)所示。
图2
7 D- ^/ B& S8 Z" V2 U( {. \+ T

`$ g* Q+ n6 y: { 图2 弯曲的识别与样本的获取
3 T% z2 K* t0 y! m; P0 m5 Z- ]" R* n
Fig.2 Recognition of bending and acquisition of the sample
7 P8 X) Y' l+ V6 k9 F7 p0 A) }# V 1.2 强化学习模型的构建
以大量的样本数据为基础,构建与水深点、等深线协同综合相适配的强化学习网络模型,模型结构如图3所示。
图3
- t, p: T) {- y4 g6 H4 I 
9 e/ q' F `: F" @& E1 S9 i 图3 网络结构
# ]0 i8 r' i; D- F3 Q* U- L |
Fig.3 Network structure
如图3所示,首先,建立协同综合中的动作空间集合A
(1)
( \1 d6 V) n2 q5 C% k4 x' R( u9 b' \; f( v
式中,a1表示选取水深点,并插入已选水深点集;a2表示删除水深点,并插入已删除水深点集;a3表示删除等深线的一段弯曲;a4表示删除等深线的一个节点;a5表示停止对等深线的化简。
然后,构造协同综合中的指标奖励函数G,可进一步分解为3个部分
(2)
, Q6 |9 y$ j% Z3 i5 J/ ?! o
式中,Ga表示海底地形表达准确性奖励指标;Gb表示图面美观性奖励指标;Gc表示图理性奖励指标。3个分项指标的计算方法
* B( d8 W c' o, R
(3)
2 O2 q# k+ Y6 k; b5 e- H 式中,Φ与η为文献[26]所提的深度保证率指标与深度表达度指标
" p2 U: F+ ^8 T- \
(4)
. n# ^/ a" j! s$ K! S3 u( R
式中,pi和pj表示第i和j个水深点;P为水深点集合;lk表示第k条等深线;L为等深线集合;D(pi,pj)表示水深点pi到水深点pj的图面距离;D(pi,lk)表示水深点pi到等深线lk的图面距离;T1为相邻水深点的距离阈值(通常取水深点注记的图面宽度的2倍);T2为水深点到等深线的距离阈值(通常取水深点注记的图面宽度)
0 X8 r3 U2 z5 ^' q
(5)
R$ p: U7 j, N
式中,st+1(At)表示执行动作At后水深点与等深线要素变化后的下一个状态。st+1(At)∉R表示该状态下水深点与等深线的表达含义出现了图理性错误;反之,st+1(At)∈R时表示未出现图理性错误。
最后,建立如图3所示的网络模型中的两条通道,即估值通道和反馈通道。其中,估值通道表示样本t
时刻的状态s
t通过两个卷积层和一个全连接层,输出一个奖励的估计值
;反馈通道表示对s
t执行动作a
i(a
i∈A
),依据奖励函数G
计算得出的一个奖励的实际值
。反馈通道输出的实际值将作为数据标签对估计值进行修正,引导模型析取出两类要素在综合过程中的影响关系。# I9 w0 i' L" B3 ~; p! B! ^
1.3 强化学习训练过程
将1.1节所生成的样本数据输入1.2节所构建的强化学习模型之中,开始面向水深点与等深线协同综合进行强化学习训练,具体步骤如下(图4)。
图4
. L) i( O8 g0 Z3 T/ T4 M, |

2 p% z! k& E: V7 _ 图4 强化学习训练流程
8 W' h K6 E D p& B0 n
Fig.4 The training procedure of reinforcement learning
步骤1 初始网络,设置随机权重参数。步骤2 从样本库中随机抽取样本进行训练。步骤3 通过网络的估值通道,估计当前状态下,不同动作a
i(i=1,2,3,4,5)对应的奖励

;通过网络的反馈通道,对状态s
t分别执行a
i(i=1,2,3,4,5),计算

。利用

、

之间的误差更新网络权重参数,选择动作

执行,状态进入s
t+1。步骤4 重复步骤3,直到水深点与等深线综合完毕。步骤5 在完成当前样本数据上的全部综合动作后,回到步骤2重新选取样本开始新一轮的训练,直到误差低于预设值或者达到训练次数上限。
1.4 动态调整下的协同综合
通过样本数据驱动下的强化学习训练,协同综合的网络模型得到不断拟合和优化。借助训练后的网络模型调整水深点与等深线自动综合算法,可实现两要素的协同综合。首先,按照1.1节的方法,将待协同综合的数据输入训练完成的强化学习模型中。然后,对于综合过程中的状态s
t,由卷积神经网络估计

并选择最优综合动作a=

。最终,按照动作a对水深点与等深线的综合进行协同调整,直至完成水深点与等深线的协同综合。
2 试验与分析
9 I5 L+ |- [& y 2.1 模型训练与测试
采用1.1节所述方法,设置采样尺寸为128像素×128像素,获取1625个协同综合的训练样本。然后按照4∶1的比例将样本数据分为训练集与验证集。在卷积神经网络中,第一个卷积层、第二个卷积层分别包含32个、64个卷积核,大小均为5×5,步长均为3,使用ReLU激活函数;一个全连接层包含128个神经元,同样使用ReLU激活函数。模型的训练情况如图5所示。
图5
% B4 |6 D. D* h) D$ ?0 ^

' U+ `+ j3 M2 @ r! o
图5 模型训练情况
图5显示了奖励函数G随训练次数变化的曲线,随着训练次数的增多,整体的奖励值逐渐收敛,单个样本的奖励值也趋于稳定,说明模型此时已经得到拟合,训练效果较好。进一步利用测试集数据评估模型的泛化能力,采用平均奖励和均方根误差指标评估模型的拟合情况,结果见表1。由表1可知,训练集和测试集上的平均奖励数值接近,均方根误差数值均相对较小,这说明模型的泛化能力较好。
表1 利用训练集和测试集对模型的评估
& X3 Y: _4 t/ F" a
Tab.1 Assessments of the model based on training and testing data
3 i% o) Y0 M r8 j3 F0 S+ G/ \0 l
6 I5 T8 M$ a6 `$ B' s h 数据集训练集测试集平均奖励0.8730.836均方根误差0.0080.047
9 O1 }* L) H* o7 q9 p _
; ]& d2 a. Z1 F" f' \( h6 ~ 新窗口打开| 下载CSV
2.2 性能对比试验2.2.1 试验设计为了对本文方法的优势性及适用性进行评估,选取海底地形变化平缓、剧烈、复杂的3类典型海区的水深点与等深线进行自动综合试验。试验比对方法包括:①简单综合法,分别独立采用文献[7,14]所提方法选取水深点、化简等深线,直接作为最终的综合结果。②冲突避免法,以简单综合方法的结果为基础,采用文献[21]所提化简冲突避免的方法进一步处理点线冲突,并输出最终的综合结果。③协调选取法,采用文献[14]所提方法化简等深线,然后采用文献[7,18]所提的方法选取与等深线协调的水深点和一般水深点。④强化学习法,以文献[7,14]所提的水深选取算法和等深线化简算法为基础算法,利用训练后的强化学习模型,依据学习得到的协同关系,对基础综合算法进行动态调整。试验所涉及的算法参数设置如下:水深选取算法中深度保证率取95%;等深线化简算法中弯曲高度阈值取14 mm,弯曲面积阈值取4 mm
2,非完整弯曲识别阈值取14 mm;与等深线协调的水深选取算法中,特征点识别阈值取3 mm,凹凸处的协调距离取4 mm,平直处的协调距离取3 mm。为量化比较4种方法,采取以下5项指标对综合结果进行评估:①安全性指标,采用文献[15]提出的三角形检测法来检测水深选取结果是否存有“漏浅”,采用文献[27]所提的等深线扩深长度指标进行评估等深线化简的安全性。②图理性指标,可通过检查综合后的等深线内是否存在不属于其深度范围的水深点进行评估。③准确性指标,采用文献[28]所提出的深度表达度与偏浅量进行量化评估。④美观性指标,采用文献[18]所提出的协调度指标进行量化评估。⑤运行效率指标,采用协同综合的时间消耗进行量化评估。需要说明的是,安全性指标与图理性指标具有一票否决性。2.2.2 海底地形变化平缓海区的试验结果分析从样本库之外的海图C11840中选取海底地形变化平缓海区(图6(a)),进行水深点与等深线协同综合试验,综合前的比例尺为1∶150 000,综合后的比例尺为1∶400 000。4种方法的综合结果如图6(b)—(e)所示,综合结果的评估统计见表2。
图6
3 h. \& L! v( ~) p 
$ G. e2 W3 u* v! P3 [ 图6 海底地形变化平缓海区综合试验
/ I" r$ M+ e9 @. S1 I, M
表2 海底地形变化平缓海区的综合结果评估统计
1 H) \: I( D- t. y
Tab.2 Evaluation and statistics of results on areas with gentle seafloor terrain changes
- V _! }0 s7 l9 X1 L
( y% W* _0 I; K$ v' h, q4 A8 P
综合方法安全性指标图理性指标准确性指标美观性指标运行效率指标扩深长度/cm是否漏浅信息表达是否存在矛盾深度表达度/(%)偏浅量/m协调度/(%)时间消耗/s简单综合法0否是85.791.0266.84.33冲突避免法1.67否否85.421.0472.54.35协调水深法0否否77.342.1286.66.56强化学习法0否否83.141.2178.45.06
! X7 U# Z1 O7 w7 y* \
* C d$ c3 p1 N% o 新窗口打开| 下载CSV
由图6和表2可知,简单综合法出现了水深点和等深线相互矛盾的信息表达,冲突避免法出现了等深线扩深的情况,协调选取法和强化学习法未出现上述问题。其原因在于:①等深线化简后深度区域发生变化,由于简单综合法未考虑等深线与水深点之间的相互影响,导致其在2~5 m等深区选取了5.1 m水深点(图6(b)红色圈记位置),水深点与等深线在此处的信息表达出现了矛盾。②冲突避免法利用弯曲组进行等深线的间接化简,虽然避免了水深点与等深线信息表达的矛盾,但等深线弯曲组内的相邻弯曲是凸向深水区一侧的,间接化简相邻的弯曲会导致等深线深区扩大(图6(c)红色圈记位置)。③协调水深法选取水深时考虑到了水深点的协调度,选取水深只在化简后对应的深度区域内进行,因此可以避免空间信息矛盾的错误。④强化学习法针对水深点选取与等深线化简中可能产生的冲突,调整了相应的自动综合算法的实施,以此避免信息表达相互矛盾的错误。考虑到安全性指标与图理性指标的一票否决性,对协调水深法与强化学习法进行进一步的比较。在准确性指标与美观性指标上,两者差异不大。然而,在运行效率指标上,强化学习法比协调水深法更高效,因为其避免了长耗时的循环运算。2.2.3 海底地形变化剧烈海区的试验结果分析从样本库之外的海图C13731中选取海底地形变化剧烈海区(图7(a)),进行水深点与等深线协同综合试验,综合前的比例尺为1∶30 000,综合后的比例尺为1∶75 000。4种方法的综合结果如图7(b)—(e)所示,综合结果的评估统计见表3。
图7
% U0 H+ g, w& I/ K- a8 p1 T; N

1 C$ d, W& g( [ 图7 海底地形变化剧烈海区综合试验
- k5 ~5 u& [, x) Y4 K% R( T* M# k9 k
表3 海底地形变化剧烈海区的综合结果评估统计
2 }. D' c# w7 Q: r+ K( r( f Tab.3 Evaluation and statistics of results on areas with drastic seafloor terrain changes
- f4 b* I' F* t0 T0 f& W
( G" y1 U8 g) S1 S 综合方法安全性指标图理性指标准确性指标美观性指标运行效率指标扩深长度/cm是否漏浅信息表达是否存在矛盾深度表达度/(%)偏浅量/m协调度/(%)时间消耗/s简单综合法0否是91.920.3157.37.02冲突避免法2.24否否91.890.3162.47.04协调水深法0否否87.630.5584.011.19强化学习法0否否91.610.3286.79.69
' [, U4 B! d: f G
1 h. U3 ?0 y! l 新窗口打开| 下载CSV
由图7和表3可知,在图理性指标方面,简单综合法的综合结果仍然出现了水深点与等深线表达相互矛盾的情况(如图7(b)中红色标记的12.2 m水深与6 m水深),冲突避免法的综合结果仍然出现了违反安全性约束的等深线化简(如图7(c)中红色标记处的等深线),协调水深法与强化学习法未出现此类问题,具体原因与2.2.2节相同。进一步比较协调水深法与强化学习法在准确性、美观性与效率上的差异,可以看出,强化学习法在这3个方面都优于协调水深法。其原因在于:①协调水深法利用协调度量化水深选取因子,但是选取因子对结果精度的考虑欠佳,这导致一部分在准确性方面比较重要的水深点,未得到选取,相比之下,强化学习方法用调整等深线化简的方式,确保特征水深得到选取,因此强化学习法的准确性高于协调水深法;②在局部水深密度较小的区域,协调水深法难以选择出与等深线协调的水深点,容易出现影响美观的要素压盖(图7(d)中橙色圈记位置);③强化学习法充分考虑了点线间的协同关系,通过增加等深线化简的方式避免要素压盖,从而进一步提升了图面的美观性;④同2.2.2节,由于避免了长耗时的循环运算,强化学习法比协调水深法更高效。2.2.4 海底地形变化复杂海区的试验结果分析从样本库之外的海图C11110中选取海底地形变化复杂海区(图8(a)),进行水深点与等深线协同综合试验,综合前的比例尺为1∶150 000,综合后的比例尺为1∶300 000。4种方法的综合结果如图8(b)—(e)所示,综合结果的评估统计见表4。
图8
5 ]# ~% K1 K3 m* \9 F 
* Y: i1 M% ^ n( H6 {+ N' Y 图8 海底地形变化复杂海区综合试验
6 P0 e! D7 j/ g3 J4 R
表4 海底地形变化复杂海区的综合结果评估统计
H7 c2 q. o( _4 S
Tab.4 Evaluation and statistics of results on areas with complex seafloor terrain changes
: X# C, Y- d) J8 p9 s- ~2 a2 {
9 X! l# H! L' d* A# w 综合方法安全性指标图理性指标准确性指标美观性指标运行效率指标扩深长度/cm是否漏浅信息表达是否存在矛盾深度表达度/(%)偏浅量/m协调度/(%)时间消耗/s简单综合法0否是87.802.1358.16.61冲突避免法0.56否否87.122.2558.26.63协调水深法0否否80.293.4580.710.44强化学习法0否否85.742.4984.38.50
7 z" b! k* }4 z' |. `$ \
/ j+ m5 U, X) I8 ]) q 新窗口打开| 下载CSV
由图8和表4可知,在安全性与图理性指标方面,简单综合法与冲突避免法仍然存在问题(如图8(b)红色标记处的水深、图8(c)红色标记处的等深线),协调水深法、强化学习法在安全性与图理正确性两方面有明显优势,具体原因与2.2.2节相同。在准确性方面,除协调水深法外,其他方法的准确性都比较高,原因在于协调水深法在海底地形变化复杂时,难以在保持美观性的同时兼顾准确性。在美观性方面,简单综合法与冲突避免法出现了多处要素压盖(图8(b)、(c)中橙色标记位置),导致美观性评价指标较低;协调水深法由于受到化简后等深线的制约,其综合结果存在水深注记空白区域(如图8(d)中红色区域)、要素间距过小的视觉冲突区域(如图8(d)中橙色区域),因此美观性还有提升空间;强化学习法根据要素间影响关系对水深点与等深线的综合进行优化调整,兼顾了美观性与准确性(一是增加了特征水深的选取(如图8(e)中橙色标记的19 m水深、16.5 m水深),确保对海底地形的准确反映;二是通过调整等深线的化简为水深点留出空间(如图8(e)中橙色标记处水深点附近的等深线)),使得综合结果的制图表现更为美观。在运行效率方面,强化学习法比协调水深法更高效,原因同2.2.2节。
3 结论
本文利用水深点与等深线样本训练强化学习模型,由强化学习模型制定综合算法的优化调整策略,按照优化策略动态调整综合算法的实施,实现了顾及等深线与水深点相互影响的两要素协同综合。通过试验比对分析,得出结论如下。(1)对于海底地形变化平缓、剧烈、复杂等各类海区,强化学习法在航海安全保证的可靠性、制图综合结果的图理性、海底地貌表达的准确性、海图要素分布的美观性等方面的整体性能最优,协调水深法次之,冲突避免法再次之,独立综合法最差;(2)与分要素简单综合法相比,强化学习法、冲突避免法、协调水深法能够有效避免浅点水深位于深水区、深点水深位于浅水区等图理性错误;(3)与冲突避免法相比,强化学习法、协调水深法能够确保等深线化简符合扩浅缩深要求,从而使得海底地貌的综合结果能够满足航海安全保证这一基本要求;(4)与协调水深法相比,强化学习法更高效,采用强化学习法所选取的水深点与化简的等深线在海底地貌表达上精度更高,在海底地形变化剧烈、复杂的海区内海图要素分布的清晰美观性也更高。当然,本文方法中一些参数的数值设定,例如协同综合样本的采样范围和阈值配置,以及不同奖励函数的数值配比等,如何更科学合理地进行设置,仍需进一步深入研究。此外,在未来的研究中,还需要扩大样本库的规模,以便进一步优化模型并确保其具有更强的普适性。
初审:张艳玲( R1 q, p* H9 X/ H- n
复审:宋启凡
4 |0 J- U$ L7 Z" F 终审:金 君
9 b/ X* `. Y" H 资讯
○ & f2 ^, `* e T* A. N