无监督层次表征学习模型及其在遥感影像解译中的应用

项目来源

国家自然科学基金(NSFC)

项目主持人

刘芳

项目受资助机构

西安电子科技大学

项目编号

61871310

立项年度

2018

立项时间

未公开

项目级别

国家级

研究期限

未知 / 未知

受资助金额

16.00万元

学科

信息科学-电子学与信息系统-信息获取与处理

学科代码

F-F01-F0113

基金类别

面上项目

无监督学习 ; SAR影像无监督分割 ; 极不匀质区域地物表示 ; 方向结构滤波器 ; 层次表征学习 ; unsupervised learning ; hierarchical representation learning ; unsupervised Segmentation of SAR Image ; representation of ground objects in extremely uneven regions ; directional structure filter

参与者

李婉；张雅科；崔元浩；黄欣研；骞晓雪；杨苗苗；李鹏芳；庞婷尹；李硕

参与机构

陕西科技大学

项目标书摘要：大场景高分辨SAR影像在语义空间中的区域图的作用下，被划分为混合集聚结构地物像素子空间、结构地物像素子空间和匀质地物像素子空间。针对大场景高分辨率SAR影像存在获取类别标签样本数据难的问题，通过对三个不同结构地物的像素子空间的无监督分割来解决SAR影像的无监督分割。由于极不匀质区域地物表示的复杂性与该区域目标大小和形状的多样性、相邻目标空间拓扑结构的多样性、目标散射特性和相干斑噪声等有密切的关系，与匀质区域和不匀质区域地物表示的复杂性相比，极不匀质区域地物表示的难度更大，导致混合集聚结构地物像素子空间的无监督分割更具有挑战性；因此，本项目拟重点研究极不匀质区域的无监督层次表征学习模型和方法来实现混合集聚结构地物像素子空间的无监督分割，为无监督表征学习探索出一条非深层且可解释的新的研究途径。

Application Abstract: Under the application of the regional map in the semantic space,the large scene and high-resolution SAR images are divided into hybrid aggregated,structural and homogeneous pixel-level subspaces.As it is difficult to obtain the labeled samples for the large scene and high-resolution SAR images,the unsupervised segmentation problem of the large scene and high-resolution SAR images is solved by the unsupervised segmentation of three structure pixel-level subspaces.The complexity of the object representation of the extremely unhomogeneous pixel-level subspace has a close relationship with the diversity of the size and shape of the target in the region,the diversity of spatial topological structures with adjacent targets,the target scattering characteristics and the speckle noise,etc.So compared with the homogeneous and unhomogeneous region,the extremely unhomogeneous region is more difficult to represent,which leads to the unsupervised segmentation of the hybird aggreated structure pixel-level subspace more challenging.Therefore,this project will focus on the unsupervised hierarchical represention learning model and method to realize the unsupervised segemention of the hybird aggregated stucture pixel-level subspace,and explore a new non-deep and interpretable apporach to realize unsupervised representation learning.

项目受资助省

陕西省

项目结题报告(全文)

由于SAR图像中极不匀质区域地物表示的复杂性与该区域目标大小和形状的多样性、相邻目标空间拓扑结构的多样性、目标散射特性和相干斑噪声等有密切的关系。针对SAR图像极不匀质区域地物的复杂形状结构表征难的问题，本项目首先构建了能捕捉方向信息的Ridgelet核函数和Curvelet核函数，并基于这些核函数设计了方向结构滤波器；接着，为了以无监督学习的方式获取初始结构滤波器，该项目利用了素描线段的方向和个数等信息，建立了基于素描方向信息的能量保真目标函数，并提出了相应优化方法。理论分析和实验表明本项目提出的基于素描方向信息的能量保真模型和优化方法在无需样本标签的条件下，能更好地求解出那些与原始影像块中蕴含的复杂地物结构尽量匹配的初始结构滤波器。在此基础上，针对目标形状边界的建模问题，本项目提出了以素描线段为单位构建能包含边界信息在内的几何结构块，设计了几何结构块中描述边界邻域内像素值之间约束关系的函数，建立了基于几何结构块约束关系的结构能量保真模型，并提出了相应优化方法。理论分析和实验表明与强调重构块与原始影像块的整体Frobenius范数最小化不同，本项目提出的模型在关注它们之间整体Frobenius范数较小化的同时，还充分考虑了目标形状边界的建模问题。最后，在语义空间和像素空间信息交互框架下，针对混合地物结构像素子空间的无监督分割问题，本项目提出了一种基于素描方向统计信息和特征学习的两阶段聚类的混合像素子空间分割方法，该方法将人工设计的特征和学习得到的特征通过两阶段聚类有机地结合起来，使得分割性能得到较大提升。

排序方式：时间相关性
显示方式：列表摘要

1.基于注意力机制和深度多尺度融合网络的语义分割研究

关键词：
多尺度融合;注意力机制;边缘感知;多任务学习;遥感图像分割;三维点云分割

李艾瑾
指导老师：西安电子科技大学焦李成
0年
学位论文

随着传感技术的蓬勃发展,可获得的二维图像、视频以及三维数据等日益增加。面对海量的数据,从中捕捉相关的知识或语义,进行场景理解。现实生活中,这样的需求愈发增多。场景理解作为计算机视觉领域的核心问题,其发展备受关注。语义分割作为一种高层视觉任务,为场景理解打开新的视野。语义分割在自动驾驶、地质勘察、人脸识别等场景有重要的应用价值。虽然深度神经网络,计算机视觉等相关领域技术的应用给语义分割任务带来突破性的进展。但仍存在多尺度物体、小物体分割精度低,物体边缘分割模糊等挑战。针对这些挑战,本文结合多尺度融合、注意力机制以及多任务学习对遥感图像、三维点云的语义分割展开研究。本文主要研究内容如下:1.提出了一种基于边缘感知和多尺度融合网络的遥感图像语义分割。针对直接融合高低层特征中存在的语义鸿沟,即高低层特征包含不同语义级别的信息,而导致地面物体边缘定位不准的问题。本文提出一种基于边缘感知和多尺度融合网络,该网络通过边缘感知模块,自底向上地从多尺度特征中逐步获取地面物体的边缘信息。它强调有用的边界信息,在高层特征的指导下消除低层次特征中的噪声信息,以此获得更完整、更精细的物体边缘。通过在公共遥感Potsdam、Vaihingen和Massachusetts建筑物数据集上进行整体精度和F1分数指标的评估,验证了本章模型的有效性和可行性。2.提出了一种基于多任务注意学习网络的遥感图像语义分割。针对物体的主体轮廓和边缘部分在计算视觉特性上存在显著的差异,本文提出一种基于多任务注意学习网络。该网络将物体边缘信息与主体信息解耦,提出边界损失来监督边界预测任务,进而针对性地学习边界信息。并且,该网络提出一种自适应权重多任务学习模块,来平衡语义分割任务和边缘检测任务。这使得两个任务之间更好地交互,互相补充,提高了分割性能和网络泛化能力。通过在公共遥感Potsdam、Vaihingen和Massachusetts建筑物数据集上进行整体精度和F1分数指标的评估,验证了本章模型的有效性和可行性。3.提出了一种基于空间-通道注意网络的三维点云语义分割。三维点云分割中多采用简单聚合方式来捕捉复杂的局部关系,导致点云上下文信息提取不充分。针对这一问题,提出一种基于空间-通道注意力网络。该网络构建点云的空间注意力模块和通道注意力模块。不仅通过空间注意力模块考虑了局部区域内点之间的相关性,通过通道注意力模块从高层抽取语义信息作为指导,对底层特征信息进行加权,获得更精细的分割。通过在公共点云数据集US3D和S3DIS上进行整体精度和平均交并比指标的评估,验证了本章模型的有效性和可行性。

...

2.基于多尺度神经网络与注意力机制的图像分割研究

关键词：
编码器-解码器网络;注意力机制;离散小波变换;遥感影像分割

冯雨歆
指导老师：西安电子科技大学屈嵘
0年
学位论文

本文主要研究基于多尺度神经网络与注意力机制的遥感影像分割问题。随着与遥感相关的技术不断提高,遥感信息的获取也愈加精确。因此当前遥感影像朝着高分辨率、多细节,地物信息愈加丰富的方向发展。而对于遥感影像的分割任务而言,无论是研究需要还是实际应用,都期望得到更加精细的分割结果。因此提高遥感影像的分割结果,使其轮廓细节等更加精确是一个非常有意义的研究方向。另一方面,神经网络分割模型往往需要上采样以及下采样来进行特征提取与分辨率恢复,但却会因此丢失信息;此外,具有跳跃连接的分割模型也会造成特征之间语义差异、融合效果不理想等问题。基于高分辨率遥感图像的特点以及分割神经网络所存在的问题,本论文从多尺度神经网络以及注意力机制的应用等方面对遥感影像分割进行了研究,并在多个高分辨率遥感影像数据上进行多个对比实验仿真与验证。综上所述,本论文的主要研究工作为以下三个方面:（1）针对编码器-解码器网络结构中下采样操作与上采样操作不能充分利用图片低层与高层特征信息的问题,提出了一种基于小波编码器-解码器网络的遥感影像分割方法。以离散小波变换为理论基础设计DWT与IDWT模块来代替UNet编码器解码器模型中的上采样与下采样操作。通过DWT将得到的低频分量用于编码器下一阶段提取高阶特征,而高频分量则通过跳跃连接传输到解码器与解码器所提取的特征进行融合,然后通过IDWT来恢复特征图的分辨率。这种方法能够充分利用图片低层与高层特征信息。在不同数据集上分别与多种现有遥感影像分割网络进行对比实验,表明该方法的分割精度与视觉效果优于对比实验方法,具有有效性。（2）针对编解码器网络结构中的跳跃连接直接将编码器中提取的特征图叠加到相应解码器的局限,提出了一种基于编解码通道-空间注意力机制的遥感影像分割方法。在编解码网络模型的跳跃连接中增加了通道-空间注意力机制,在该注意力机制当中,让解码器的高层语义信息通过通道-空间注意力机制对编码器进行指导与优化,从而使得编码器能更好地提取图像的特征,减少编码器与解码器的语义鸿沟,让通过跳跃连接的特征融合更加充分有效,提高了分割效果。在不同数据集上分别与多种现有基于注意力机制的遥感影像分割网络进行对比实验,表明该方法取得了有效的分割结果。（3）在上述工作的基础上,综合运用离散小波变换与注意力机制,提出了一种基于小波通道与特征融合注意力的遥感影像分割方法。将离散小波变换与通道注意力机制相结合,针对DWT所得到的不同频率的特征,设计了高频和低频小波通道注意力模块,使得模型可以有着重的利用高分辨率遥感图像多尺度多分辨率的特征。此外,还设计了特征融合注意力模块,使得经过高频小波注意力模块的特征与经过解码器恢复分辨率的特征在融合阶段更加有效,有助于解码器利用不同特征,从而更好地进行下一步的恢复分辨率的操作。在不同数据集上分别与多种网络模型与前两章方法进行综合对比和横向对比,实验证明,该方法综合并优化了前两种方法,具有更好的分割结果。综上所述,本论文分别从编码器-解码器网络结构的采样操作、高层与低层语义特征的连接方式和特征融合等方面进行了研究与实验,通过对离散小波变换、注意力机制等的运用,从不同角度改进了编解码分割网络的结构,提升了遥感影像的分割结果,具有一定的现实意义。

...

3.基于特征金字塔和注意力机制的目标检测与视频跟踪

关键词：
目标检测;目标跟踪;卷积神经网络;特征金字塔;注意力机制

李小雪
指导老师：西安电子科技大学屈嵘
0年
学位论文

随着计算机视觉技术的不断发展,目标检测与跟踪技术广泛应用于城市规划、自动驾驶、人机交互等领域,无论在科学研究还是实际生活应用中都有着十分重大的价值。近年来,在深度学习的背景下,自然图像和遥感图像的检测与视频跟踪技术都得到了进一步的发展。本文对现有的目标检测与目标跟踪方法的国内外研究现状以及未来的发展情况进行了理论分析,分别阐明了遥感图像目标检测任务和自然图像单目标跟踪任务存在的难点,并针对其目前面临的问题进行了优化改进,主要内容有以下三个方面:1.针对遥感图像场景广阔、目标小而尺寸差距大,导致检测性能低下的问题,提出一种基于特征金字塔和注意力机制融合的遥感图像目标检测方法。该方法首先在原始网络Faster R-CNN的基础上,通过搭建特征金字塔,将高层特征图中的语义信息有效传递到低层特征图,提高网络对不同尺度目标特征的敏感度;其次,在主干网络特征提取阶段,加入注意力机制模块,从通道域上获取特征之间的依赖关系,增强网络的特征提取能力,减少背景对模型的干扰。最后,提出了一个结合遥感图像GSD信息的以目标为中心的切图方式,并在数据集RSSRAI上进行了对比实验。结果表明,提出的方法能有效地对不同尺度的目标进行检测,与其他算法相比有优越性。2.针对（1）中网络具有特征不平衡、目标框回归位置不精确而影响检测效果的问题,提出一种基于双向特征金字塔网络和Ciou-Loss的遥感图像目标检测方法。该方法在（1）中网络的基础上,在金字塔模型中额外增加了一个支路,用于将浅层特征图中的空间位置特征有效地传递到深层网络。并在网络的训练中,以Ciou-Loss为基础设计了多任务损失函数。同时在检测中,使用Softer-NMS和Giou-NMS对检测框中的冗余框进行抑制。另外针对于场景类目标,进行了有效的后处理。最后,在数据集RSSRAI上的消融实验表明,改进后方法的检测效果有着明显的提升。3.针对孪生网络对自然场景下目标遮挡、背景干扰和目标形变等现象应对能力不足的问题,提出一种基于注意力机制和高斯混合模型的单目标跟踪方法。该方法在Siam RPN++网络的区域建议生成模块中增加了注意力机制。并根据通道注意力和空间注意力的不同特性,分别将它们加入到分类和回归任务之前,使得孪生网络在特征提取过程中能够关注到目标的显著特征。另外,基于高斯混合模型设计了一个模型更新机制,有效地解决了模型漂移问题,提高了算法的鲁棒性。最后,在OTB100和VOT2019数据集上进行定性和定量分析,表明本方法具有更好的准确度和成功率。

...

4.基于多尺度融合网络的影像分割

关键词：
卷积神经网路;多尺度;提升小波;亚像素卷积;可变形池化;特征融合;目标分割

贾美霞
指导老师：西安电子科技大学焦李成
0年
学位论文

随着深度学习的发展,大规模的遥感影像和自然影像数据集让图像分割算法在更多领域得到应用,但是样本的多样性也给分割算法带来了一定的挑战,其中如何解决跨尺度特征融合以及多尺度目标分割一直都是学术研究的热点。考虑到现有基于深度学习的图像分割算法存在的问题,本文针对目标分割的难点,从特征提取网络、高分辨图像恢复、几何特征学习等方面提出了改进方法。主要研究内容如下:1、提出一种基于自适应提升小波融合网络的多尺度影像分割方法,主要用于解决自然影像中目标尺寸大小不同的问题,同时为神经网络加入可解释的特征信息。利用能够给出完全空间域解释的提升小波构建自适应小波多分辨网络,提取不同尺度的图像高低频信息,让图像的轮廓特征更加明显。网络可以在保证颜色、亮度、纹理、几何形状等信息不损失的同时增加轮廓信息,提升分割效果。在COCO2017分割数据集上进行实验,结果表明本方法相比与MNC、Mask R-CNN、Polar Mask、PANet等模型,分割精度提升了1.3%～53.6%。2、提出一种基于亚像素卷积网络的弱小目标分割方法,主要用于解决图像分割中小目标分割不理想的问题。亚像素卷积网络是一个超分辨率网络,可以将尺寸小的模糊图像上采样到精细图像,插值函数被隐藏的包含在亚像素卷积的周期筛选过程中,减少网络的人工痕迹。通道重组操作可以使网络学习到一个更好的从低分辨率到高分辨率的映射,学习到一个更可信的区域细节信息,从而达到提高重建正确率,减少内存消耗,增加网络运行效率的目的。在COCO2017和i SAID数据集上,本方法与Mask Lab、PANet、Mask R-CNN等相比分割精度提高了4%～72%。3、提出一种基于深度可变形特征学习网络的影像分割方法,主要用于解决分割网络对图像几何形变适应性差的问题,让网络具备更强的形变建模能力。网络的感受野包括更多的前景区域,增强了网络的定位能力,学习目标的空间变形。采用的判别性注意力机制使得网络在具备学习空间形变能力的同时也具备了区分采样点重要性的能力,自适应地给更加具备判别性的采样点分配更高的权重,让网络获得自适应物体形态变化的特征表达能力,从而提升物体检测和分割的精度。在COCO2017和Cityscapes数据集上,本方法与Mask Lab、Polar Mask、DWT、DIN、Mask R-CNN等相比,分割精度提高了2.6%～60.1%。综上所述,本文对于图像实例分割方法进行研究,实验结果证明了提出方法的有效性,说明研究成果具有一定的实际意义。

...

5.基于注意力机制和多尺度几何网络的融合目标跟踪

关键词：
目标跟踪;孪生网络;多尺度几何;注意力机制

马睿妍
指导老师：西安电子科技大学焦李成
0年
学位论文

随着当代科学技术日新月异的发展,目标跟踪已经渗透到人们的日常生产生活中。单目标跟踪任务通常会给出视频序列初始帧中某一特定目标的大小与位置,由算法对后续帧中该目标进行跟踪。近些年基于相关滤波与基于深度孪生网络的目标跟踪算法是发展热点,它们在速度与精度上都取得了很高的成绩,但相似物体干扰、目标遮挡等经典问题仍然需要更好的解决方法。基于区域建议的孪生跟踪网络易受背景中相似物体的干扰,这类跟踪器存在判别性不足的问题。基于目标分割的孪生跟踪网络的尺度估计结果仍需进一步精细化。同时孪生跟踪网络的结构导致初始帧中先验图像块质量会对结果产生影响。针对上述问题,本文主要做了以下三个方面的改进:首先,针对基于区域建议的深度孪生网络跟踪器在相似物体、背景干扰等情况下判别能力差的问题,提出了一种基于注意力机制与多层特征的融合目标跟踪网络,设计了一个种通道压缩注意力模块,提升了通道间的相关性,并可以有效地获得图像的空间注意力分布,从而提升目标候选区域的重要性。同时融合了网络不同层次的特征,将其与图像注意力分布相结合,提升了网络的准确性与判别能力。通过实验验证,提出的基于注意力机制与多层特征的融合目标跟踪网络相对于基于区域建议的孪生跟踪网络,在OTB2015数据集上的成功率和准确率分别提高了1.4%和2.3%,在OTB2013数据集上的成功率和准确率分别提高了1.8%和1.3%,同时针对相似物体、背景干扰等情况跟踪性能有明显提升;其次,针对基于目标分割的孪生网络的尺度估计结果不够精细的问题,提出了一种基于目标分割与多尺度几何特征的融合目标跟踪网络。利用图像剪切波变换得到多尺度的图像边缘轮廓纹理特征,将该多尺度几何特征与孪生网络融合,提升了网络对目标的特征表达,从而能够更加准确地预测目标边界框,得到更加精细的目标尺度估计结果。通过实验验证,提出的基于目标分割与多尺度几何特征的融合目标跟踪网络相对于基于目标分割的孪生网络,在OTB2015数据集上的成功率和准确率分别提高了1.2%和3.0%,在OTB2013数据集上的成功率和准确率分别提高了1.6%和4.0%,可以更加准确地对目标进行尺度估计,有效地提升跟踪器性能;最后,针对深度孪生网络跟踪器性能受先验图像块质量影响的问题,提出了一种基于尺度不变特征变换与多尺度几何注意力的融合目标跟踪网络。基于尺度不变特征变换的运动模型可以改善镜头晃动时先验图像块不包含目标的问题,有效预先定位目标下一帧可能出现位置,提高了先验图像块中目标存在的概率。同时将其与上述两个网络结构相结合,利用注意力机制提升网络判别能力,利用图像多尺度几何特征精细目标尺度估计。通过实验验证,提出的基于尺度不变特征变换与多尺度几何注意力的融合目标跟踪网络相对于基于区域建议的孪生跟踪网络,在OTB2015数据集上的成功率和准确率分别提高了2.5%和3.1%,在OTB2013数据集上的成功率和准确率分别提高了2.8%和2.3%,可以改善先验图像块质量对跟踪结果的影响,有效地提升跟踪器性能。

...

6.基于多尺度特征融合和视觉注意力机制的遥感图像目标检测

关键词：
计算机视觉;目标检测;多尺度特征融合;视觉注意力机制

周金柳
指导老师：西安电子科技大学屈嵘
0年
学位论文

目标检测是计算机视觉领域的经典任务之一,在无人车驾驶、交通管控、农业、军事等方面都有很广阔的应用空间。目标检测算法可以分为基于手工设计特征的传统目标检测方法和基于深度学习自动提取特征的目标检测方法,目前后者又分为基于回归的单阶段算法和基于候选区域的两阶段算法。在遥感图像目标检测领域,主要面对的挑战包括背景信息杂乱、目标尺度差距大、小目标多、目标有形变等。因此,本文针对这些挑战进行了研究探索,主要研究成果如下:1、针对遥感图像背景信息多、干扰多的特点,提出了一种基于残差通道注意力网络的遥感图像目标检测方法,引入了残差通道注意力机制,结合多尺度特征融合模块,通过权重参数空间对原来的通道进行加权,提高重要的目标区域通道的权重,提高检测模型对遥感图像的检测效果。2、针对遥感图像目标尺度差距大、小目标多的特点,提出了一种基于多尺度特征融合网络的遥感图像目标检测方法,使用了多尺度特征融合的方法,将包含有丰富语义特征的深层特征和包含有很多细节的浅层特征结合起来,并添加了空间通道注意力模块,使网络能更好地学习到小目标的特征,提升了检测模型的检测效果。3、针对遥感图像小目标多、发生形变的情况,提出了一种基于可变形全卷积网络的遥感图像目标检测方法,在基于全卷积网络的遥感图像目标检测方法搭载了可变形卷积和可变形池化,提高对目标进行特征提取时的精确程度,使网络能更多地学习到目标的特征,减少对无用的背景信息的学习。4、在遥感图像数据集NWPU VHR-10数据集、UCAS-AOD数据集上进行了充分的实验,实验结果显示,本文中提出的算法相对于基线模型和经典算法,在NWPU VHR-10数据集、UCAS-AOD数据集上都有很好的表现,验证了上述算法的可行性和有效性。

...

7.基于空间金字塔和注意力机制融合网络的影像语义分割

关键词：
影像语义分割;注意力机制;空间金字塔;边缘再识别

李英萍
指导老师：西安电子科技大学屈嵘
0年
学位论文

本文主要研究的是影像语义分割中存在的场景信息复杂、尺寸差异明显、形状变化多样的问题。近年来,由于成像设备的不断迭代更新,所获得的影像中包含的信息越来越丰富。因此,如何筛选影像信息、提高同一区域不同尺寸目标的分割精度、优化不同形状目标的边缘细节,都是影像语义分割任务中的难点。本文提出了一种基于通道注意力机制、空间金字塔、边缘再识别的融合网络结构,在基本不增加参数量的前提下,显著提高了遥感影像和自然影像语义分割网络的精度。主要工作内容如下:1、针对场景中的冗余特征对关键特征产生负作用的问题,本文提出了一种基于注意力机制神经网络的影像语义分割方法。该方法通过将通道注意力机制与空间注意力机制结合,构造了基于双注意力机制的神经网络。该网络首先使用Res Net101作为特征提取的骨干网络,提取影像中丰富的语义信息,然后使用双注意力机制对提取出来的特征进行信息的组合,并强化关系紧密的特征信息,抑制关系疏远的特征信息,最后使用组合过后的特征进行语义分割。该方法弥补了由卷积神经网络所提取的特征权重分配不均匀且信息主次关系模糊的不足,有效提高了遥感和自然影像的语义分割精度,从而验证了通道注意力机制的可行性。2、针对影像中目标尺寸差别较大的问题,本文提出了一种基于混合池化空间金字塔和注意力机制融合网络的影像语义分割方法。该方法首先使用条形池化对离散信息和带状信息进行聚合调整,同时使用全局平均池化对全局信息进行聚合后,再将两者转换后进行特征融合,然后将浅层网络和深层网络提取的特征进行融合,最后使用具有不同空洞率的空洞卷积空间金字塔模块,对融合特征进行多尺度多分辨率的变换。该模型能够有效改善遥感影像和自然影像中尺寸差别较大目标的语义分割效果,同时解决了条状目标分割效果较差的问题,从而验证了混合池化空间金字塔的可行性。3、针对目标边缘细节分割困难的问题,本文提出了一种基于边缘再识别神经网络的影像语义分割方法。该方法首先借鉴了计算机图形学中渲染的原理和非均匀采样的机制,对边缘的点进行非均匀采样,获取目标分割边缘的不确定点。然后对浅层特征和卷积神经网络粗分割后的语义分割图进行特征提取,利用两种特征对不确定的点依据渲染原理再次进行分割。最后使用分割后的不确定点对粗分割后的语义分割结果进行更新,得到细节修改后的语义分割图。该模型明显改善了遥感影像和自然影像中目标边缘细节的分割效果,从而验证了边缘再识别方法的可行性。

...

8.基于深度轮廓波网络和显著注意力的视频目标跟踪

关键词：
轮廓波变换;注意力机制;相关滤波;孪生网络;目标跟踪

高艳洁
指导老师：西安电子科技大学焦李成
0年
学位论文

在计算机视觉领域中,目标跟踪是一项被广泛应用的基本任务,这些应用包括视频监控、人机交互、军事攻击等等。近年来,在不同的场景需求下,设计开发出了许多目标跟踪的方法,并且在不同的大型数据集上经过了测试。尽管如此,由于实际应用中存在的复杂性和多变性,该任务仍然是计算机视觉领域中的一个挑战,有许多尚未解决的问题。视频目标跟踪有多个分支,本文主要研究单目标跟踪问题。单目标跟踪可分为特征提取和目标识别两个步骤,其中目标识别包括了目标的定位和状态估计。本文在目前跟踪算法的两大主流框架的基础上,采用非下采样轮廓波变换和显著注意力机制来增强特征表达,从而在目标识别的不同子任务中提供更好地判别依据。本文的贡献主要是以下几个方面:1.针对跟踪目标的外观会在经过很多连续帧后发生改变,包括视角的变化、照明变化、旋转等问题,提出了一种基于深度轮廓波网络的目标跟踪算法。采用非下采样轮廓波变换结构提取多尺度、多方向的图像信息,采用加权融合的方式有效地增强了目标的特征表达。在此基础上,设计了一种深度轮廓波网络,可以具有提取特征的通用性。将提取后的特征经过相关滤波器得到位置响应,经实验表明,相比于其他相关滤波算法,本文的方法不仅能更好地应对目标的运动变化,在背景干扰下的定位也更为准确。相较于基线算法而言,在OTB2013数据集的成功率上提升了1.2%,在VOT2018数据集的期望平均重叠率上提升了0.8%。2.针对上述方法用多尺度搜索策略得到的包围框不够准确的问题,提出了一种基于显著注意力与孪生网络的目标跟踪算法,通过在大规模数据集上训练的深度结构来提取候选感兴趣区域的特征。本文采用一种优化空间注意力计算量的十字交叉注意力方法,通过对互相关操作加权提升判别力,并且利用基于压缩激励的注意力机制对相关后的特征图增加通道维度的关注,有利于精细化分割。经实验表明,相比于其他孪生网络算法,本文的方法可以更精确地估计目标状态,并且有更直观的视觉效果。相较于基线算法,本章算法在OTB2015数据集的成功率上提升了1.9%,在VOT2018数据集的期望平均重叠率上提升了1.66%。3.提出了一种基于深度轮廓波网络和显著注意力的目标跟踪算法,结合以上两点改进以及分析孪生网络存在的问题,采用一种可以适应目标外观变化进行模板更新的网络结构。该网络结构具有两个分支,主干网络采用深度轮廓波网络提取特征,分别利用残差注意力进行分类特征的增强,及最大化交并比预测网络进行状态估计。经过在OTB2013、OTB2015和VOT2018数据集上的实验,验证了本文的方法的准确性和稳定性。在OTB2013上的成功率达到了0.674,在OTB2015上的成功率达到了0.669,在VOT2018的期望平均重叠率上达到了0.3863。

...

9.基于改进GAN的零样本细粒度图像分类研究

关键词：
零样本分类;细粒度图像分类;生成式对抗网络;注意力机制;多尺度降维结构

陈亚楠
指导老师：西安电子科技大学屈嵘
0年
学位论文

近年来,受益于深度学习技术的快速发展,监督分类方法取得了长足的进步。然而,监督分类方法有非常大的弊端,就是需要大量人工标注的训练数据,需要耗费大量的人力成本,并且学习的模型无法有效迁移到没有标注图像的场景下。零样本分类（也被称为零样本学习）的提出,则有效解决了上述问题,其旨在让模型具有识别从未见过的数据类别的能力。目前对于零样本分类的研究中仍存在很多不足,对于零样本分类中的细粒度图像分类,由于细粒度图像具有“类内差异大,类间差异小”的特点,使其标注和分类都非常困难。为了解决上述问题,本文利用生成式对抗网络（Generative Adversarial Network,GAN）作为核心技术,并在此基础上做一系列的改进,对零样本细粒度图像分类进行研究。研究中为了增大输入生成器的未见类文本特征中有用信息的比例而减小无用信息的比例,从而提高零样本细粒度图像分类的准确率,本文做了如下几项工作:（1）提出了一种基于注意力生成式对抗网络的零样本细粒度图像分类的方法,将未见类的有噪声的文本特征作为输入,在生成器中使用注意力机制,通过网络的不断学习对文本特征向量进行重标定,加强对文本特征的有用信息的关注,而忽略文本特征的无用信息,从而提高零样本细粒度图像分类的准确率。该方法与14种对比算法相比具有竞争力。其相比于基础算法GAZSL,本方法利用SCS和SCE两种数据分割方法在CUB数据集上分别提高了0.96和1.16个百分点,在NAB数据集上分别提高了4.2和0.38个百分点;相比于近年来新出的6种先进算法,本方法利用SCE数据分割方法在CUB数据集上的分类结果是最优的。（2）提出了一种基于多尺度生成式对抗网络的零样本细粒度图像分类的方法,根据多尺度模型原理,在生成器中加载多尺度降维结构,对输入生成器中的文本特征向量进行多尺度的降噪处理,即降维操作,之后再充分地融合不同尺度的文本特征,该融合文本特征拥有比例更大且更丰富的有效特征,而且含有比例较小的噪声,从而提高零样本细粒度图像分类的准确率。该方法与14种对比算法相比具有竞争力。其相比于基础算法GAZSL,本方法利用SCS和SCE两种数据分割方法在CUB数据集上分别提高了1.44和1.83个百分点,在NAB数据集上分别提高了3.87和0.63个百分点。（3）提出了一种基于注意力多尺度生成式对抗网络的零样本细粒度图像分类的方法,在生成器中对多尺度降维后的文本特征分别使用注意力机制,综合了注意力机制与多尺度降维结构的优势,更加有效地提高了零样本细粒度图像分类的准确率。该方法与14种对比算法相比具有竞争力。其相比于基础算法GAZSL,本方法利用SCS和SCE两种数据分割方法在CUB数据集上分别提高了1.48和2.47个百分点,在NAB数据集上分别提高了4.17和0.67个百分点;相比于近年来新出的6种先进算法,本方法利用SCE数据分割方法在CUB数据集上的分类结果是最优的。综上所述,本文针对零样本分类中的细粒度图像分类这一难题,进行了系统的研究。本文主体利用生成式对抗网络的方法,在其基础上验证了使用注意力机制、多尺度降维结构以及两者的结合结构的有效性,并进一步提出了基于注意力多尺度生成式对抗网络的零样本细粒度图像分类的方法。实验表明,本文的三种方法利用SCS和SCE两种数据分割方法,在CUB、NAB数据集上均取得了较好的结果,证明了本文所提方法的有效性和可行性。

...

10.基于多尺度深度融合网络和注意力机制的遥感影像分割

关键词：
遥感影像分割;三维点云;边缘注意力机制;全卷积深度评估网络;空洞卷积;多尺度嵌套深度融合网络

连彦超
指导老师：西安电子科技大学屈嵘
0年
学位论文

随着遥感技术的快速发展,遥感影像数据形式越来越多样化,其所包含的信息也越来越丰富,具有重要的研究价值。而遥感影像分割作为遥感影像处理中重要的一项技术,已经被广泛应用于军用侦察、地质勘测、地图重建以及地质灾害预防等领域。近年来基于深度学习的遥感影像分割方法取得了一定的突破,但仍然存在目标边缘分割不连续及部分目标预测得分不精确等问题,本文针对这些难点问题,从网络结构设计方面做出了相应的改进以提高分割的精确率,并从二维图像的研究拓展至三维点云影像的研究,本文的主要研究内容如下:1、提出了一种基于边缘注意力和深度评估网络的图像实例分割方法。针对主流网络架构在实现图像实例分割任务中存在不精确边界框和实例边缘分割不完整的问题,设计了一种全卷积深度评估网络用以精确检测目标和有监督的边缘注意力模块用以加强目标边缘特征。并在全卷积深度评估网络中加入了评估分支,用以学习目标特征与预测边界框之间的联系,为分割任务提供了一个高质量的边界框。边缘注意力模块通过加强边缘特征及抑制背景噪声从而得到了更好的边缘分割效果,进而提高了整体实例分割的精度。对于网络模型结构的设计给出了详细的分析,并在实验中验证了各模块的有效性。在遥感影像数据集iSAID及自然影像数据集MS COCO上的对比实验均说明了提出方法的可行性与鲁棒性,使用该方法可以获得更好的分割效果。2、提出了一种基于精细上采样和多尺度空洞卷积网络的图像语义分割方法。编码器-解码器网络结构已经被广泛应用于图像语义分割任务,但其在下采样过程中会导致特征信息丢失。针对这个问题,通过使用多尺度空洞卷积网络维持了深层特征图的空间分辨率,且聚合了具有不同感受野大小的特征图,获得了更加全面的语义特征信息。并使用了一种精细的上采样结构网络,对于分割网络模型输出结果中评分较低的不确定像素点进行进一步特征学习及精细地分割,从而提高了整体图像分割的精度。并在遥感影像数据集US3D及自然影像数据集Cityscapes上进行了对比实验并可视化了各模型的分割结果,所提出的方法对比于各基准网络在两个数据集上均取得了最优的性能表现,验证了该方法的有效性与鲁棒性。3、提出了一种基于多尺度嵌套深度融合网络的三维点云影像分割方法。为了更加充分地提取并利用点云的浅层及深层语义特征,效仿编码器-解码器网络结构,设计了一种以PointNet++为基础的多尺度嵌套深度融合网络。在各点集聚合模块后均使用了特征传播模块。为了缩小语义鸿沟现象,使用长短跳跃连接将具有不同层级特征的特征图进行聚合。针对三维点云影像中数据极不平衡的问题,设计了一种变权的交叉熵损失函数。并使用栅格地图的方法对网络模型预测结果中的误分类进行纠正。对于网络模型结构的设计给出了详细的分析。最后在城市遥感数据集US3D上进行了对比实验,对网络结构进行了消融实验,实验结果表明所提出的方法要优于同类型方法。

...

排序方式：时间相关性
显示方式：列表摘要