无监督层次表征学习模型及其在遥感影像解译中的应用

项目来源

国家自然科学基金(NSFC)

项目主持人

刘芳

项目受资助机构

西安电子科技大学

立项年度

2018

立项时间

未公开

项目编号

61871310

项目级别

国家级

研究期限

未知 / 未知

受资助金额

16.00万元

学科

信息科学-电子学与信息系统-信息获取与处理

学科代码

F-F01-F0113

基金类别

面上项目

无监督学习 ; SAR影像无监督分割 ; 极不匀质区域地物表示 ; 方向结构滤波器 ; 层次表征学习 ; unsupervised learning ; hierarchical representation learning ; unsupervised Segmentation of SAR Image ; representation of ground objects in extremely uneven regions ; directional structure filter

参与者

李婉；张雅科；崔元浩；黄欣研；骞晓雪；杨苗苗；李鹏芳；庞婷尹；李硕

参与机构

陕西科技大学

项目标书摘要：大场景高分辨SAR影像在语义空间中的区域图的作用下，被划分为混合集聚结构地物像素子空间、结构地物像素子空间和匀质地物像素子空间。针对大场景高分辨率SAR影像存在获取类别标签样本数据难的问题，通过对三个不同结构地物的像素子空间的无监督分割来解决SAR影像的无监督分割。由于极不匀质区域地物表示的复杂性与该区域目标大小和形状的多样性、相邻目标空间拓扑结构的多样性、目标散射特性和相干斑噪声等有密切的关系，与匀质区域和不匀质区域地物表示的复杂性相比，极不匀质区域地物表示的难度更大，导致混合集聚结构地物像素子空间的无监督分割更具有挑战性；因此，本项目拟重点研究极不匀质区域的无监督层次表征学习模型和方法来实现混合集聚结构地物像素子空间的无监督分割，为无监督表征学习探索出一条非深层且可解释的新的研究途径。

Application Abstract: Under the application of the regional map in the semantic space,the large scene and high-resolution SAR images are divided into hybrid aggregated,structural and homogeneous pixel-level subspaces.As it is difficult to obtain the labeled samples for the large scene and high-resolution SAR images,the unsupervised segmentation problem of the large scene and high-resolution SAR images is solved by the unsupervised segmentation of three structure pixel-level subspaces.The complexity of the object representation of the extremely unhomogeneous pixel-level subspace has a close relationship with the diversity of the size and shape of the target in the region,the diversity of spatial topological structures with adjacent targets,the target scattering characteristics and the speckle noise,etc.So compared with the homogeneous and unhomogeneous region,the extremely unhomogeneous region is more difficult to represent,which leads to the unsupervised segmentation of the hybird aggreated structure pixel-level subspace more challenging.Therefore,this project will focus on the unsupervised hierarchical represention learning model and method to realize the unsupervised segemention of the hybird aggregated stucture pixel-level subspace,and explore a new non-deep and interpretable apporach to realize unsupervised representation learning.

项目受资助省

陕西省

项目结题报告(全文)

由于SAR图像中极不匀质区域地物表示的复杂性与该区域目标大小和形状的多样性、相邻目标空间拓扑结构的多样性、目标散射特性和相干斑噪声等有密切的关系。针对SAR图像极不匀质区域地物的复杂形状结构表征难的问题，本项目首先构建了能捕捉方向信息的Ridgelet核函数和Curvelet核函数，并基于这些核函数设计了方向结构滤波器；接着，为了以无监督学习的方式获取初始结构滤波器，该项目利用了素描线段的方向和个数等信息，建立了基于素描方向信息的能量保真目标函数，并提出了相应优化方法。理论分析和实验表明本项目提出的基于素描方向信息的能量保真模型和优化方法在无需样本标签的条件下，能更好地求解出那些与原始影像块中蕴含的复杂地物结构尽量匹配的初始结构滤波器。在此基础上，针对目标形状边界的建模问题，本项目提出了以素描线段为单位构建能包含边界信息在内的几何结构块，设计了几何结构块中描述边界邻域内像素值之间约束关系的函数，建立了基于几何结构块约束关系的结构能量保真模型，并提出了相应优化方法。理论分析和实验表明与强调重构块与原始影像块的整体Frobenius范数最小化不同，本项目提出的模型在关注它们之间整体Frobenius范数较小化的同时，还充分考虑了目标形状边界的建模问题。最后，在语义空间和像素空间信息交互框架下，针对混合地物结构像素子空间的无监督分割问题，本项目提出了一种基于素描方向统计信息和特征学习的两阶段聚类的混合像素子空间分割方法，该方法将人工设计的特征和学习得到的特征通过两阶段聚类有机地结合起来，使得分割性能得到较大提升。

排序方式：时间相关性
显示方式：列表摘要

1.Accelerated Variance Reduction Stochastic ADMM for Large-Scale Machine Learning

关键词：
Stochastic optimization; ADMM; variance reduction; momentumacceleration; strongly convex and non-strongly convex; smooth andnon-smooth;ALTERNATING DIRECTION METHOD; DUAL COORDINATE ASCENT; CONVERGENCE;MULTIPLIERS; ALGORITHMS; DESCENT

Liu, Yuanyuan;Shang, Fanhua;Liu, Hongying;Kong, Lin;Jiao, Licheng;Lin, Zhouchen
《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》
2021年
43卷
12期
期刊

Recently, many stochastic variance reduced alternating direction methods of multipliers (ADMMs) (e.g., SAG-ADMM and SVRG-ADMM) have made exciting progress such as linear convergence rate for strongly convex (SC) problems. However, their best-known convergence rate for non-strongly convex (non-SC) problems is O(1/T) as opposed to O(1/T-2) of accelerated deterministic algorithms, where T is the number of iterations. Thus, there remains a gap in the convergence rates of existing stochastic ADMM and deterministic algorithms. To bridge this gap, we introduce a new momentum acceleration trick into stochastic variance reduced ADMM, and propose a novel accelerated SVRG-ADMM method (called ASVRG-ADMM) for the machine learning problems with the constraint Ax + By = c. Then we design a linearized proximal update rule and a simple proximal one for the two classes of ADMM-style problems with B = tau I and B not equal tau I, respectively, where I is an identity matrix and tau is an arbitrary bounded constant. Note that our linearized proximal update rule can avoid solving sub-problems iteratively. Moreover, we prove that ASVRG-ADMM converges linearly for SC problems. In particular, ASVRG-ADMM improves the convergence rate from O(1/T) to O(1/T-2) for non-SC problems. Finally, we apply ASVRG-ADMM to various machine learning problems, e.g., graph-guided fused Lasso, graph-guided logistic regression, graph-guided SVM, generalized graph-guided fused Lasso and multi-task learning, and show that ASVRG-ADMM consistently converges faster than the state-of-the-art methods.

...

2.基于注意力机制和深度多尺度融合网络的语义分割研究

关键词：
多尺度融合;注意力机制;边缘感知;多任务学习;遥感图像分割;三维点云分割

李艾瑾
指导老师：西安电子科技大学焦李成
0年
学位论文

随着传感技术的蓬勃发展,可获得的二维图像、视频以及三维数据等日益增加。面对海量的数据,从中捕捉相关的知识或语义,进行场景理解。现实生活中,这样的需求愈发增多。场景理解作为计算机视觉领域的核心问题,其发展备受关注。语义分割作为一种高层视觉任务,为场景理解打开新的视野。语义分割在自动驾驶、地质勘察、人脸识别等场景有重要的应用价值。虽然深度神经网络,计算机视觉等相关领域技术的应用给语义分割任务带来突破性的进展。但仍存在多尺度物体、小物体分割精度低,物体边缘分割模糊等挑战。针对这些挑战,本文结合多尺度融合、注意力机制以及多任务学习对遥感图像、三维点云的语义分割展开研究。本文主要研究内容如下:1.提出了一种基于边缘感知和多尺度融合网络的遥感图像语义分割。针对直接融合高低层特征中存在的语义鸿沟,即高低层特征包含不同语义级别的信息,而导致地面物体边缘定位不准的问题。本文提出一种基于边缘感知和多尺度融合网络,该网络通过边缘感知模块,自底向上地从多尺度特征中逐步获取地面物体的边缘信息。它强调有用的边界信息,在高层特征的指导下消除低层次特征中的噪声信息,以此获得更完整、更精细的物体边缘。通过在公共遥感Potsdam、Vaihingen和Massachusetts建筑物数据集上进行整体精度和F1分数指标的评估,验证了本章模型的有效性和可行性。2.提出了一种基于多任务注意学习网络的遥感图像语义分割。针对物体的主体轮廓和边缘部分在计算视觉特性上存在显著的差异,本文提出一种基于多任务注意学习网络。该网络将物体边缘信息与主体信息解耦,提出边界损失来监督边界预测任务,进而针对性地学习边界信息。并且,该网络提出一种自适应权重多任务学习模块,来平衡语义分割任务和边缘检测任务。这使得两个任务之间更好地交互,互相补充,提高了分割性能和网络泛化能力。通过在公共遥感Potsdam、Vaihingen和Massachusetts建筑物数据集上进行整体精度和F1分数指标的评估,验证了本章模型的有效性和可行性。3.提出了一种基于空间-通道注意网络的三维点云语义分割。三维点云分割中多采用简单聚合方式来捕捉复杂的局部关系,导致点云上下文信息提取不充分。针对这一问题,提出一种基于空间-通道注意力网络。该网络构建点云的空间注意力模块和通道注意力模块。不仅通过空间注意力模块考虑了局部区域内点之间的相关性,通过通道注意力模块从高层抽取语义信息作为指导,对底层特征信息进行加权,获得更精细的分割。通过在公共点云数据集US3D和S3DIS上进行整体精度和平均交并比指标的评估,验证了本章模型的有效性和可行性。

...

3.基于多尺度神经网络与注意力机制的图像分割研究

关键词：
编码器-解码器网络;注意力机制;离散小波变换;遥感影像分割

冯雨歆
指导老师：西安电子科技大学屈嵘
0年
学位论文

本文主要研究基于多尺度神经网络与注意力机制的遥感影像分割问题。随着与遥感相关的技术不断提高,遥感信息的获取也愈加精确。因此当前遥感影像朝着高分辨率、多细节,地物信息愈加丰富的方向发展。而对于遥感影像的分割任务而言,无论是研究需要还是实际应用,都期望得到更加精细的分割结果。因此提高遥感影像的分割结果,使其轮廓细节等更加精确是一个非常有意义的研究方向。另一方面,神经网络分割模型往往需要上采样以及下采样来进行特征提取与分辨率恢复,但却会因此丢失信息;此外,具有跳跃连接的分割模型也会造成特征之间语义差异、融合效果不理想等问题。基于高分辨率遥感图像的特点以及分割神经网络所存在的问题,本论文从多尺度神经网络以及注意力机制的应用等方面对遥感影像分割进行了研究,并在多个高分辨率遥感影像数据上进行多个对比实验仿真与验证。综上所述,本论文的主要研究工作为以下三个方面:（1）针对编码器-解码器网络结构中下采样操作与上采样操作不能充分利用图片低层与高层特征信息的问题,提出了一种基于小波编码器-解码器网络的遥感影像分割方法。以离散小波变换为理论基础设计DWT与IDWT模块来代替UNet编码器解码器模型中的上采样与下采样操作。通过DWT将得到的低频分量用于编码器下一阶段提取高阶特征,而高频分量则通过跳跃连接传输到解码器与解码器所提取的特征进行融合,然后通过IDWT来恢复特征图的分辨率。这种方法能够充分利用图片低层与高层特征信息。在不同数据集上分别与多种现有遥感影像分割网络进行对比实验,表明该方法的分割精度与视觉效果优于对比实验方法,具有有效性。（2）针对编解码器网络结构中的跳跃连接直接将编码器中提取的特征图叠加到相应解码器的局限,提出了一种基于编解码通道-空间注意力机制的遥感影像分割方法。在编解码网络模型的跳跃连接中增加了通道-空间注意力机制,在该注意力机制当中,让解码器的高层语义信息通过通道-空间注意力机制对编码器进行指导与优化,从而使得编码器能更好地提取图像的特征,减少编码器与解码器的语义鸿沟,让通过跳跃连接的特征融合更加充分有效,提高了分割效果。在不同数据集上分别与多种现有基于注意力机制的遥感影像分割网络进行对比实验,表明该方法取得了有效的分割结果。（3）在上述工作的基础上,综合运用离散小波变换与注意力机制,提出了一种基于小波通道与特征融合注意力的遥感影像分割方法。将离散小波变换与通道注意力机制相结合,针对DWT所得到的不同频率的特征,设计了高频和低频小波通道注意力模块,使得模型可以有着重的利用高分辨率遥感图像多尺度多分辨率的特征。此外,还设计了特征融合注意力模块,使得经过高频小波注意力模块的特征与经过解码器恢复分辨率的特征在融合阶段更加有效,有助于解码器利用不同特征,从而更好地进行下一步的恢复分辨率的操作。在不同数据集上分别与多种网络模型与前两章方法进行综合对比和横向对比,实验证明,该方法综合并优化了前两种方法,具有更好的分割结果。综上所述,本论文分别从编码器-解码器网络结构的采样操作、高层与低层语义特征的连接方式和特征融合等方面进行了研究与实验,通过对离散小波变换、注意力机制等的运用,从不同角度改进了编解码分割网络的结构,提升了遥感影像的分割结果,具有一定的现实意义。

...

4.基于多尺度-多方向 Transformer的图像识别

关键词：
Transformer;多尺度;多方向;特征表示;图像识别

杨育婷;李玲玲;刘旭;焦李成;刘芳;马文萍
《计算机学报》
2024年
卷
期
期刊

有效的特征表示对深度学习模型的表征能力和图像识别性能至关重要。多尺度特征表示方法能够捕捉不同尺度的丰富信息，从而有助于提高深度学习模型的图像识别性能。然而，当前的多尺度深度学习方法仍存在对图像方向特征建模不明确的局限，导致对具有方向性目标的误识别。为了更好地表示图像中蕴含的多方向特征，本文提出了一种基于多尺度-多方向Transformer的网络框架（MSMDFormer）。该框架首先设计了一种多方向编码器，能够捕获并增强多个方向特征。在此基础上，本文联合不同尺度的Gabor 表征与多头注意力，设计了一种多尺度多方向Transformer编码器，以有效地聚合图像的多尺度和多方向特征。最后，该框架对卷积特征和多尺度-多方向特征进行融合，然后将融合特征用于图像识别。实验结果表明，MSMDFormer 在CIFAR10、CIFAR100和SVHN数据集上分别取得了95.65%、77.46%和96.87%的整体准确率，在与19种基准方法的对比中显示出具有竞争力的图像分类性能。与11种图像分割基准方法相比，MSMDFormer 在ADE20K数据集上展现出0.33%至6.58%mIoU的性能增益。综上所述，本文提出的MSMDFormer在深度学习图像识别任务中展现了卓越的特征表示能力，具有广泛的应用前景。另外，探索更有效的方向特征表示方法将成为未来研究的重要方向。

...

5.Multiresolution Interpretable Contourlet Graph Network for Image Classification

关键词：
Image resolution; Feature extraction; Transforms; Visualization;Convolution; Signal resolution; Convolutional neural networks;Contourlet transform (CT); graph convolutional networks (GCNs); graphrepresentation learning; multidirectional and multiscale representation;multiscale geometric analysis (MGA)

Chen, Jie;Jiao, Licheng;Liu, Xu;Liu, Fang;Li, Lingling;Yang, Shuyuan
《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》
2023年
卷
期
期刊

Modeling contextual relationships in images as graph inference is an interesting and promising research topic. However, existing approaches only perform graph modeling of entities, ignoring the intrinsic geometric features of images. To overcome this problem, a novel multiresolution interpretable contourlet graph network (MICGNet) is proposed in this article. MICGNet delicately balances graph representation learning with the multiscale and multidirectional features of images, where contourlet is used to capture the hyperplanar directional singularities of images and multilevel sparse contourlet coefficients are encoded into graph for further graph representation learning. This process provides interpretable theoretical support for optimizing the model structure. Specifically, first, the superpixel-based region graph is constructed. Then, the region graph is applied to code the nonsubsampled contourlet transform (NSCT) coefficients of the image, which are considered as node features. Considering the statistical properties of the NSCT coefficients, we calculate the node similarity, i.e., the adjacency matrix, using Mahalanobis distance. Next, graph convolutional networks (GCNs) are employed to further learn more abstract multilevel NSCT-enhanced graph representations. Finally, the learnable graph assignment matrix is designed to get the geometric association representations, which accomplish the assignment of graph representations to grid feature maps. We conduct comparative experiments on six publicly available datasets, and the experimental analysis shows that MICGNet is significantly more effective and efficient than other algorithms of recent years.

...

6.基于特征金字塔和注意力机制的目标检测与视频跟踪

关键词：
目标检测;目标跟踪;卷积神经网络;特征金字塔;注意力机制

李小雪
指导老师：西安电子科技大学屈嵘
0年
学位论文

随着计算机视觉技术的不断发展,目标检测与跟踪技术广泛应用于城市规划、自动驾驶、人机交互等领域,无论在科学研究还是实际生活应用中都有着十分重大的价值。近年来,在深度学习的背景下,自然图像和遥感图像的检测与视频跟踪技术都得到了进一步的发展。本文对现有的目标检测与目标跟踪方法的国内外研究现状以及未来的发展情况进行了理论分析,分别阐明了遥感图像目标检测任务和自然图像单目标跟踪任务存在的难点,并针对其目前面临的问题进行了优化改进,主要内容有以下三个方面:1.针对遥感图像场景广阔、目标小而尺寸差距大,导致检测性能低下的问题,提出一种基于特征金字塔和注意力机制融合的遥感图像目标检测方法。该方法首先在原始网络Faster R-CNN的基础上,通过搭建特征金字塔,将高层特征图中的语义信息有效传递到低层特征图,提高网络对不同尺度目标特征的敏感度;其次,在主干网络特征提取阶段,加入注意力机制模块,从通道域上获取特征之间的依赖关系,增强网络的特征提取能力,减少背景对模型的干扰。最后,提出了一个结合遥感图像GSD信息的以目标为中心的切图方式,并在数据集RSSRAI上进行了对比实验。结果表明,提出的方法能有效地对不同尺度的目标进行检测,与其他算法相比有优越性。2.针对（1）中网络具有特征不平衡、目标框回归位置不精确而影响检测效果的问题,提出一种基于双向特征金字塔网络和Ciou-Loss的遥感图像目标检测方法。该方法在（1）中网络的基础上,在金字塔模型中额外增加了一个支路,用于将浅层特征图中的空间位置特征有效地传递到深层网络。并在网络的训练中,以Ciou-Loss为基础设计了多任务损失函数。同时在检测中,使用Softer-NMS和Giou-NMS对检测框中的冗余框进行抑制。另外针对于场景类目标,进行了有效的后处理。最后,在数据集RSSRAI上的消融实验表明,改进后方法的检测效果有着明显的提升。3.针对孪生网络对自然场景下目标遮挡、背景干扰和目标形变等现象应对能力不足的问题,提出一种基于注意力机制和高斯混合模型的单目标跟踪方法。该方法在Siam RPN++网络的区域建议生成模块中增加了注意力机制。并根据通道注意力和空间注意力的不同特性,分别将它们加入到分类和回归任务之前,使得孪生网络在特征提取过程中能够关注到目标的显著特征。另外,基于高斯混合模型设计了一个模型更新机制,有效地解决了模型漂移问题,提高了算法的鲁棒性。最后,在OTB100和VOT2019数据集上进行定性和定量分析,表明本方法具有更好的准确度和成功率。

...

7.基于多尺度融合网络的影像分割

关键词：
卷积神经网路;多尺度;提升小波;亚像素卷积;可变形池化;特征融合;目标分割

贾美霞
指导老师：西安电子科技大学焦李成
0年
学位论文

随着深度学习的发展,大规模的遥感影像和自然影像数据集让图像分割算法在更多领域得到应用,但是样本的多样性也给分割算法带来了一定的挑战,其中如何解决跨尺度特征融合以及多尺度目标分割一直都是学术研究的热点。考虑到现有基于深度学习的图像分割算法存在的问题,本文针对目标分割的难点,从特征提取网络、高分辨图像恢复、几何特征学习等方面提出了改进方法。主要研究内容如下:1、提出一种基于自适应提升小波融合网络的多尺度影像分割方法,主要用于解决自然影像中目标尺寸大小不同的问题,同时为神经网络加入可解释的特征信息。利用能够给出完全空间域解释的提升小波构建自适应小波多分辨网络,提取不同尺度的图像高低频信息,让图像的轮廓特征更加明显。网络可以在保证颜色、亮度、纹理、几何形状等信息不损失的同时增加轮廓信息,提升分割效果。在COCO2017分割数据集上进行实验,结果表明本方法相比与MNC、Mask R-CNN、Polar Mask、PANet等模型,分割精度提升了1.3%～53.6%。2、提出一种基于亚像素卷积网络的弱小目标分割方法,主要用于解决图像分割中小目标分割不理想的问题。亚像素卷积网络是一个超分辨率网络,可以将尺寸小的模糊图像上采样到精细图像,插值函数被隐藏的包含在亚像素卷积的周期筛选过程中,减少网络的人工痕迹。通道重组操作可以使网络学习到一个更好的从低分辨率到高分辨率的映射,学习到一个更可信的区域细节信息,从而达到提高重建正确率,减少内存消耗,增加网络运行效率的目的。在COCO2017和i SAID数据集上,本方法与Mask Lab、PANet、Mask R-CNN等相比分割精度提高了4%～72%。3、提出一种基于深度可变形特征学习网络的影像分割方法,主要用于解决分割网络对图像几何形变适应性差的问题,让网络具备更强的形变建模能力。网络的感受野包括更多的前景区域,增强了网络的定位能力,学习目标的空间变形。采用的判别性注意力机制使得网络在具备学习空间形变能力的同时也具备了区分采样点重要性的能力,自适应地给更加具备判别性的采样点分配更高的权重,让网络获得自适应物体形态变化的特征表达能力,从而提升物体检测和分割的精度。在COCO2017和Cityscapes数据集上,本方法与Mask Lab、Polar Mask、DWT、DIN、Mask R-CNN等相比,分割精度提高了2.6%～60.1%。综上所述,本文对于图像实例分割方法进行研究,实验结果证明了提出方法的有效性,说明研究成果具有一定的实际意义。

...

8.基于注意力机制和多尺度几何网络的融合目标跟踪

关键词：
目标跟踪;孪生网络;多尺度几何;注意力机制

马睿妍
指导老师：西安电子科技大学焦李成
0年
学位论文

随着当代科学技术日新月异的发展,目标跟踪已经渗透到人们的日常生产生活中。单目标跟踪任务通常会给出视频序列初始帧中某一特定目标的大小与位置,由算法对后续帧中该目标进行跟踪。近些年基于相关滤波与基于深度孪生网络的目标跟踪算法是发展热点,它们在速度与精度上都取得了很高的成绩,但相似物体干扰、目标遮挡等经典问题仍然需要更好的解决方法。基于区域建议的孪生跟踪网络易受背景中相似物体的干扰,这类跟踪器存在判别性不足的问题。基于目标分割的孪生跟踪网络的尺度估计结果仍需进一步精细化。同时孪生跟踪网络的结构导致初始帧中先验图像块质量会对结果产生影响。针对上述问题,本文主要做了以下三个方面的改进:首先,针对基于区域建议的深度孪生网络跟踪器在相似物体、背景干扰等情况下判别能力差的问题,提出了一种基于注意力机制与多层特征的融合目标跟踪网络,设计了一个种通道压缩注意力模块,提升了通道间的相关性,并可以有效地获得图像的空间注意力分布,从而提升目标候选区域的重要性。同时融合了网络不同层次的特征,将其与图像注意力分布相结合,提升了网络的准确性与判别能力。通过实验验证,提出的基于注意力机制与多层特征的融合目标跟踪网络相对于基于区域建议的孪生跟踪网络,在OTB2015数据集上的成功率和准确率分别提高了1.4%和2.3%,在OTB2013数据集上的成功率和准确率分别提高了1.8%和1.3%,同时针对相似物体、背景干扰等情况跟踪性能有明显提升;其次,针对基于目标分割的孪生网络的尺度估计结果不够精细的问题,提出了一种基于目标分割与多尺度几何特征的融合目标跟踪网络。利用图像剪切波变换得到多尺度的图像边缘轮廓纹理特征,将该多尺度几何特征与孪生网络融合,提升了网络对目标的特征表达,从而能够更加准确地预测目标边界框,得到更加精细的目标尺度估计结果。通过实验验证,提出的基于目标分割与多尺度几何特征的融合目标跟踪网络相对于基于目标分割的孪生网络,在OTB2015数据集上的成功率和准确率分别提高了1.2%和3.0%,在OTB2013数据集上的成功率和准确率分别提高了1.6%和4.0%,可以更加准确地对目标进行尺度估计,有效地提升跟踪器性能;最后,针对深度孪生网络跟踪器性能受先验图像块质量影响的问题,提出了一种基于尺度不变特征变换与多尺度几何注意力的融合目标跟踪网络。基于尺度不变特征变换的运动模型可以改善镜头晃动时先验图像块不包含目标的问题,有效预先定位目标下一帧可能出现位置,提高了先验图像块中目标存在的概率。同时将其与上述两个网络结构相结合,利用注意力机制提升网络判别能力,利用图像多尺度几何特征精细目标尺度估计。通过实验验证,提出的基于尺度不变特征变换与多尺度几何注意力的融合目标跟踪网络相对于基于区域建议的孪生跟踪网络,在OTB2015数据集上的成功率和准确率分别提高了2.5%和3.1%,在OTB2013数据集上的成功率和准确率分别提高了2.8%和2.3%,可以改善先验图像块质量对跟踪结果的影响,有效地提升跟踪器性能。

...

9.基于多尺度特征融合和视觉注意力机制的遥感图像目标检测

关键词：
计算机视觉;目标检测;多尺度特征融合;视觉注意力机制

周金柳
指导老师：西安电子科技大学屈嵘
0年
学位论文

目标检测是计算机视觉领域的经典任务之一,在无人车驾驶、交通管控、农业、军事等方面都有很广阔的应用空间。目标检测算法可以分为基于手工设计特征的传统目标检测方法和基于深度学习自动提取特征的目标检测方法,目前后者又分为基于回归的单阶段算法和基于候选区域的两阶段算法。在遥感图像目标检测领域,主要面对的挑战包括背景信息杂乱、目标尺度差距大、小目标多、目标有形变等。因此,本文针对这些挑战进行了研究探索,主要研究成果如下:1、针对遥感图像背景信息多、干扰多的特点,提出了一种基于残差通道注意力网络的遥感图像目标检测方法,引入了残差通道注意力机制,结合多尺度特征融合模块,通过权重参数空间对原来的通道进行加权,提高重要的目标区域通道的权重,提高检测模型对遥感图像的检测效果。2、针对遥感图像目标尺度差距大、小目标多的特点,提出了一种基于多尺度特征融合网络的遥感图像目标检测方法,使用了多尺度特征融合的方法,将包含有丰富语义特征的深层特征和包含有很多细节的浅层特征结合起来,并添加了空间通道注意力模块,使网络能更好地学习到小目标的特征,提升了检测模型的检测效果。3、针对遥感图像小目标多、发生形变的情况,提出了一种基于可变形全卷积网络的遥感图像目标检测方法,在基于全卷积网络的遥感图像目标检测方法搭载了可变形卷积和可变形池化,提高对目标进行特征提取时的精确程度,使网络能更多地学习到目标的特征,减少对无用的背景信息的学习。4、在遥感图像数据集NWPU VHR-10数据集、UCAS-AOD数据集上进行了充分的实验,实验结果显示,本文中提出的算法相对于基线模型和经典算法,在NWPU VHR-10数据集、UCAS-AOD数据集上都有很好的表现,验证了上述算法的可行性和有效性。

...

10.基于空间金字塔和注意力机制融合网络的影像语义分割

关键词：
影像语义分割;注意力机制;空间金字塔;边缘再识别

李英萍
指导老师：西安电子科技大学屈嵘
0年
学位论文

本文主要研究的是影像语义分割中存在的场景信息复杂、尺寸差异明显、形状变化多样的问题。近年来,由于成像设备的不断迭代更新,所获得的影像中包含的信息越来越丰富。因此,如何筛选影像信息、提高同一区域不同尺寸目标的分割精度、优化不同形状目标的边缘细节,都是影像语义分割任务中的难点。本文提出了一种基于通道注意力机制、空间金字塔、边缘再识别的融合网络结构,在基本不增加参数量的前提下,显著提高了遥感影像和自然影像语义分割网络的精度。主要工作内容如下:1、针对场景中的冗余特征对关键特征产生负作用的问题,本文提出了一种基于注意力机制神经网络的影像语义分割方法。该方法通过将通道注意力机制与空间注意力机制结合,构造了基于双注意力机制的神经网络。该网络首先使用Res Net101作为特征提取的骨干网络,提取影像中丰富的语义信息,然后使用双注意力机制对提取出来的特征进行信息的组合,并强化关系紧密的特征信息,抑制关系疏远的特征信息,最后使用组合过后的特征进行语义分割。该方法弥补了由卷积神经网络所提取的特征权重分配不均匀且信息主次关系模糊的不足,有效提高了遥感和自然影像的语义分割精度,从而验证了通道注意力机制的可行性。2、针对影像中目标尺寸差别较大的问题,本文提出了一种基于混合池化空间金字塔和注意力机制融合网络的影像语义分割方法。该方法首先使用条形池化对离散信息和带状信息进行聚合调整,同时使用全局平均池化对全局信息进行聚合后,再将两者转换后进行特征融合,然后将浅层网络和深层网络提取的特征进行融合,最后使用具有不同空洞率的空洞卷积空间金字塔模块,对融合特征进行多尺度多分辨率的变换。该模型能够有效改善遥感影像和自然影像中尺寸差别较大目标的语义分割效果,同时解决了条状目标分割效果较差的问题,从而验证了混合池化空间金字塔的可行性。3、针对目标边缘细节分割困难的问题,本文提出了一种基于边缘再识别神经网络的影像语义分割方法。该方法首先借鉴了计算机图形学中渲染的原理和非均匀采样的机制,对边缘的点进行非均匀采样,获取目标分割边缘的不确定点。然后对浅层特征和卷积神经网络粗分割后的语义分割图进行特征提取,利用两种特征对不确定的点依据渲染原理再次进行分割。最后使用分割后的不确定点对粗分割后的语义分割结果进行更新,得到细节修改后的语义分割图。该模型明显改善了遥感影像和自然影像中目标边缘细节的分割效果,从而验证了边缘再识别方法的可行性。

...

排序方式：时间相关性
显示方式：列表摘要