面向高分辨SAR图像分类的量子深度神经网络研究
项目来源
项目主持人
项目受资助机构
项目编号
立项年度
立项时间
项目级别
研究期限
受资助金额
学科
学科代码
基金类别
关键词
参与者
参与机构
项目受资助省
项目结题报告(全文)
1.Double feature selection algorithm based on low-rank sparse non-negative matrix factorization
- 关键词:
- Feature Selection;Matrix algebra;Geometry;Feature selection algorithm;Geometric structure;Local geometric structures;Nonnegative matrix factorization;Self-representation;Sparse non-negative matrix factorizations;Sparse representation;Unsupervised feature selection
- Shang, Ronghua;Song, Jiuzheng;Jiao, Licheng;Li, Yangyang
- 《International Journal of Machine Learning and Cybernetics》
- 2020年
- 11卷
- 8期
- 期刊
Recently, many feature selection algorithms based on non-negative matrix factorization have been proposed. However, many of these algorithms only consider unilateral information about global or local geometric structure normally. To this end, this paper proposes a new feature selection algorithm called double feature selection algorithm based on low-rank sparse non-negative matrix factorization (NMF-LRSR). Firstly, to reduce the dimensions effectively, NMF-LRSR uses non-negative matrix factorization as the framework to further reduce the dimension of the feature selection which is originally a dimension reduction problem. Secondly, the low-rank sparse representation with the self-representation is used to construct the graph, so both the global and intrinsic geometric structure information of the data could be taken into account in the process of feature selection, which makes full use of the information and makes the feature selection more accurate. In addition, the double feature selection theory is used to this paper, which makes the result of feature selection more accurate. NMF-LRSR is tested on the baseline and the other six algorithms in the literature and evaluated them on 11 publicly available benchmark datasets. Experimental results show that NMF-LRSR is more effective than the other six feature selection algorithms.
...
© 2020, Springer-Verlag GmbH Germany, part of Springer Nature.2.A Two-Branch Network Combined with Robust Principal Component Analysis for Hyperspectral Image Classification
- 关键词:
- Classification (of information);Deep learning;Neural networks;Principal component analysis;Image analysis;Spectroscopy;Image denoising;Extraction;Convolution;Image classification;Branch structure;Convolutional neural network;Deep learning;Features extraction;Hyperspectral image classification;Low-rank representations;Robust principal component analysis;Subspace estimation;Two-branch structure
- Mu, Caihong;Zeng, Qize;Liu, Yi;Qu, Yi
- 《IEEE Geoscience and Remote Sensing Letters》
- 2021年
- 18卷
- 12期
- 期刊
Noise in hyperspectral images (HSIs) may degrade the HSI classification result. Robust principal component analysis (RPCA) is an excellent method to obtain low-rank (LR) representation of data and is widely used in image denoising and also in HSI classification. However, data are drawn as a union from multiple subspaces in HSIs, so LR subspace estimation (LRSE) is necessary when using RPCA, which is complicated and time-consuming. To solve this problem, this letter proposes a novel LR-based method for HSI classification called two-branch network combined with RPCA, which combines RPCA with a neural network. Specifically, both the LR component and the sparse component are preserved and used for feature extraction in two independent convolutional branches. This way, we can avoid information loss without using accurate LRSE. A concatenate operation and a pointwise convolution are then adopted to realize the feature fusion. Finally, fused features are constructed to indicate the ground truth of each pixel in the classification process. The proposed method constructs a convenient model for HSI classification by discarding the LRSE and combining denoising, feature extraction, feature fusion, and classification into an end-to-end network. The experimental results on three data sets demonstrate that the proposed method outperforms many state-of-the-art methods including ones based on LR representation and ones based on deep learning. In addition, it maintains good classification performance for the cases of small samples and class imbalance.© 2004-2012 IEEE....3.基于像素注意力的遥感图像四倍超分辨率重建
- 关键词:
- 遥感图像 超分辨率重建 像素注意力 基金资助:陕西省重点研发计划项目(No.2019ZDLGY09-05); 国家自然科学基金(No.61772399); 专辑:工程科技Ⅱ辑 信息科技 专题:工业通用技术及设备 自动化技术 DOI:10.27389/d.cnki.gxadu.2022.003126 分类号:TP751 导师:李阳阳 手机阅读
- 0年
- 卷
- 期
- 期刊
遥感进行远程的数据采集,获取大范围的区域信息。遥感图像在农业领域可进行植物观测,在气象领域可进行天气预报,在地质领域可进行环境探查,在各种领域都可以发挥作用。近年来,遥感图像的空间分辨率获得了提高,图像涵盖更多信息,每个像素点代表的地面区域更大。相对地,遥感图像中的对象变得更密集、更难以判别。在保证高空间分辨率的同时,从硬件的角度来提升成像分辨率较困难,不仅研发成本高昂,数据的传输成本也会增加。本文旨在通过神经网络的方法将硬件采集到的低成像分辨率遥感图像生成为更清晰的图像。本文主要工作可以分为以下三个部分。第一,将现有的网络模型,用于单图像超分辨率的增强深度残差网络(Enhanced Deep Residual Networks for Single Image Super-Resolution,EDSR),应用于遥感图像的四倍超分辨率重建。针对于连续的上采样操作在进行四倍放大时无法有效提取特征的现象,采用残差网络来间隔上采样操作。将深度残差模块作为上采样的一部分,将两次上采样用残差网络进行分隔,先学习更复杂的非线性映射后再进行放大。实验结果表明,将深度残差模块作为上采样模块的一部分后,在相同参数量下可以提高遥感图像四倍放大时的重建效果。第二,对于四倍放大时图像细节模糊的问题,将用于单图像超分辨率的增强深度残差网络与卷积块注意模块(Convolutional Block Attention Module,CBAM)进行结合提出基于像素注意力的遥感图像重建网络。该网络结合了通道和空间两种注意力方法,将深度残差提取出的特征先在通道维度进行加权平均,再在空间维度进行加权平均,自适应的学习两种权重。实验结果表明,与用于单图像超分辨率的增强深度残差网络相比,该网络可重建出更好的细节。第三,根据遥感图像中色彩越杂乱的区域重建越困难的现象,本文提出了一种可以模拟方差关系的、二阶的聚合像素注意力模块。不同于采用空间维度的池化层进行聚合的传统方式,本文通过计算特征像素与周围像素之间的方差来聚合注意力。根据方差的公式推导,采用两个特征逐像素相乘的方式可以自适应的表示出图像的二阶关系。因此采用特征逐像素相乘来代替池化层进行聚合,可以根据色彩的方差关注色彩更杂乱的区域。实验结果表明,在遥感图像的四倍超分辨率重建中,该方法获得的图像更容易辨识出较小的对象。此外,本文探索了在较早的层中引入高阶表示对重建效果的影响,以及与增强上采样结合后的效果。
...4.基于全卷积网络和半监督学习的极化SAR图像分类
- 关键词:
- 极化SAR;全卷积网络;注意力机制;边缘检测;对抗训练;半监督学习
- 邢若婷
- 指导老师:西安电子科技大学 李阳阳
- 0年
- 学位论文
极化SAR(Polarimetric SAR,Pol SAR)图像是由地物目标对极化波束的后向散射而形成的高分辨遥感影像,在地质勘探、植被生长评估、城市规划及海洋监测等方面都有很广泛的应用。极化SAR图像分类是极化信息处理和地物目标解译的重要环节之一,近来,得益于深度学习技术的发展,出现许多解决极化SAR图像分类问题的新思路和新模型。全卷积网络的编解码网络结构非常适合极化SAR图像分类,但由于网络固有的缺陷以及问题本身的特殊性,还存在一些有待解决的问题。极化SAR图像难以获得大量有标签数据,半监督分类方法成为目前的研究热点之一。基于全卷积网络和半监督学习,本文提出了几种准确率高、效率高的极化SAR图像分类方法,具体内容如下:(1)针对极化SAR图像的高维特征的有效编码表示问题和上采样解码丢失细节特征造成的分类模糊问题,第二章提出了一种基于特征注意和特征改善全卷积网络的极化SAR图像分类方法。该方法在网络中引入了两种注意力机制模型和一种残差修正模型,其中双重特征注意模型从极化SAR图像的高维特征中自适应地获取更加鲁棒的特征编码,融合特征注意模型能够获取不同阶段的融合特征的一致性,并结合特征改善模型重建一致性的细节特征。本方法增强了全卷积网络的特征表示和特征重建这两部分的功能,实验验证能够显著提升极化SAR图像的分类准确率。(2)针对各个类别的边缘区域的分类不够精细和分类区域一致性不强的问题,第三章提出了一种基于边缘感知双分支全卷积网络的极化SAR图像分类方法。该方法在第二章全卷积网络的结构基础上添加了边缘感知网络,进而形成双分支全卷积网络,同步训练两个分支可以达到约束分类区域边缘、增强区域一致性的目的。本方法对类别边缘的分类更加精细从而增强了分类区域一致性,实验验证能够有效地提升极化SAR图像的分类准确率。(3)针对极化SAR图像分类中的小样本问题,第四章提出了一种基于对抗训练的半监督极化SAR图像分类方法。该方法在第二章全卷积网络的结构基础上添加了判别网络,两者采用对抗训练的方式逐渐修正分类结果和真实标签之间的高阶不一致,使预测结果更接近真实值。此外该方法合理地定义了无标签样本的分类损失,采用判别网络的预测置信度自动标注无标签样本并动态地扩大训练集,使大量无标签样本信息获得有效利用。实验验证本方法仅利用少量的有标签样本也能一定程度地提升极化SAR图像的分类准确率。
...5.基于改进粒子群算法的超参数优化问题的研究
- 关键词:
- 超参数优化;离散粒子群算法;密母算法;SAR图像分类;卷积神经网络
- 李甜甜
- 指导老师:西安电子科技大学 李阳阳
- 0年
- 学位论文
随着云计算、移动互联网的快速发展,大数据时代正在来临,数据对任何行业都至关重要。在数据决定研究问题上限的基础上,如何高效地利用算法去逼近这个上限是所有科研人员关注的问题。机器学习方法可以快速、有效地从海量数据中获取潜在信息,在这方面表现较为突出的是深度学习方法,它在海量数据面前表现出了强大的运算能力。在使用机器学习算法前,需要事先配置好模型的超参数,在同一问题上,不同超参数配置的模型的表现能力往往差别较大。在大型机器学习算法兴起之前,人们大多依靠经验手动的对模型的超参数进行调整,但随着模型日益复杂,这种方法显然已不能满足需求。基于此,本文围绕超参数优化问题展开研究,提出了基于改进粒子群算法的超参数优化方法。本文主要工作如下:(1)提出了一种基于离散二进制粒子群算法的超参数优化方法,简称BPSO。该方法模拟自然界中鸟群觅食的行为,并采用启发式的搜索思想来寻找最优解。经典的粒子群算法多适用于连续空间的优化问题,而常用的机器学习模型的超参数多为离散变量,本文结合超参数属性特点,提出了BPSO算法。在BPSO算法中,采用二进制编码方式对粒子位置进行编码,并结合粒子速度信息搜索超参数。实验证明,不管是对四个基准测试函数还是对神经网络、随机森林模型,本方法的处理结果优于遗传算法和随机搜索方法。(2)提出了一种基于密母算法的超参数优化方法,简称MA。考虑到上文BPSO算法在优化超参数时,可能出现陷入局部最优点的情况,提出了MA算法。相较于基本的进化方法,密母算法在进化过程中加入了局部搜索策略,提高了算法的搜索能力,从而有效避免解陷入局部最优,MA算法中的局部搜索使用了上文提出的BPSO方法。为了验证算法的有效性,将本算法与上文使用的超参数优化方法在四个测试函数和MINIST手写体数据集上进行实验比较。实验证明不管是算法收敛速度还是得到的最优值,本章提出的方法表现都较为理想,优化的模型也最为稳定。(3)针对现有合成孔径雷达(Synthetic Aperture Radar,SAR)图像分类任务都是依靠手动进行参数调整的现状,将超参数优化的思想应用到SAR图像分类中,提出了一种基于量子粒子群算法的超参数优化方法。该方法优化用于处理SAR图像分类任务的卷积神经网络的超参数,并通过分类准确率来评估算法性能。实验表明,经过手动调参和超参优化的卷积网络在SAR图像分类问题上表现相差较大,经过超参优化后的卷积网络的泛化能力更强,SAR图像分类的准确率更高。
...6.基于深度学习与模型融合的SAR图像变化检测
- 关键词:
- 变化检测 SAR图像 神经网络 多尺度 模型融合 遗传算法 网络优化 基金资助:国家自然科学基金Nos.61772399,面向高分辨SAR图像分类的量子深度神经网络研究,2018/01-2021/12; 国家自然科学基金,U1701267; 专辑:信息科技 专题:电信技术 自动化技术 DOI:10.27389/d.cnki.gxadu.2019.000757 分类号:TN957.52TP18 导师:李阳阳 手机阅读
- 0年
- 卷
- 期
- 期刊
遥感图像的变化检测是指通过合适的算法分析同一地区不同时相的两幅图像,找出其中变化的区域。由于合成孔径雷达(Synthetic Aperture Radar,SAR)图像不受光照、天气等条件影响的优势,已经在环境检测、灾害评估、城市规划与监测等领域得到了广泛的应用。本文主要对一些原有的SAR图像的变化检测方法进行研究分析并对其改进。同时结合新理论提出一些新的方法来提高变化检测精度。本文主要内容如下:1.由于不同算子生成的差异图具有不同的优缺点,本文对差值法、对数比值法、均值比值法产生的3种差异图进行优势互补。不同于以往人工选取策略将其融合的方法,该算法将3幅差异图作为不同的特征图像输入到多通道卷积神经网络。然后卷积神经网络将自动学习并提取各个差异图的不同特征。该算法通过选择不同差异图的像素及其邻域空间像素生成训练样本训练卷积网络,然后由训练好的网络预测测试样本的变化类与不变类。2.针对边缘检测精度低的问题本文提出了一种多尺度模型融合算法。该部分首先提出了一种新的差异图生成算法:通过将比值算子差异图进行伽马变换然后得到一种新的差异图,该变换与对数变换都能使图像的对比度增强,新的差异图比对数差异图整体偏亮。通过FLICM算法对几种差异图分析对比证明了我们差异图的有效性。因为变化检测结果中边缘细节处错误率较高,针对该问题本文提出了一种算法,将生成样本的滑窗尺寸变为1,即生成样本时仅利用四幅差异图的像素信息,不提取邻域信息。然后利用多层感知机进行分类。由于不利用邻域信息该方法噪声较大,但带来的优势是该算法对边缘等异质区域检测效果好,检测结果边缘清晰。最后将该模型与算法1的模型采用加权融合。融合后的模型细节处检测精度得到了提升。3.神经网络中超参数众多,针对神经网络结构优化和超参数选择困难问题,本文提出了一种基于遗传算法的神经网络超参数优化算法。该算法优化的网络模型是变化检测过程中用到的卷积神经网络和多层感知机。进化算法与神经网络有两种结合方式,一种方式是在固定网络拓扑结构的情况下,利用进化算法确定连接权重。本文采用的是另一种方式直接利用遗传算法优化神经网络的结构,然后用反向传播算法训练网络。首先将超参数调优问题建成一个优化模型然后采用遗传算法优化该模型。该方法能够为变化检测所需的模型找到相对较优的超参数,并提高算法精度。
...7.基于量子进化的神经网络架构搜索方法研究
- 关键词:
- 神经网络架构搜索 深度神经网络 量子神经网络 量子计算 基金资助:陕西省重点研发计划项目(No.2019ZDLGY09-05); 国家自然科学基金(No.61772399); 专辑:信息科技 专题:自动化技术 DOI:10.27389/d.cnki.gxadu.2022.000790 分类号:TP183 导师:李阳阳 手机阅读
- 0年
- 卷
- 期
- 期刊
随着神经网络相关研究的发展,在深度学习领域中深度神经网络(Deep Neural Networks,DNN)模型已经在图像分类等问题中展现出了强大的性能优势。与此同时,另一项改变传统计算范式的新兴领域——量子计算也发展迅速。在量子计算领域中由于量子系统所具有的并行特性优势,量子计算与神经网络结合而产生的量子神经网络(Quantum Neural Networks,QNN)也成为越来越多研究者进行深入的研究领域。近年来,愈来愈多的性能优秀的神经网络被提出并应用在不同的任务之中,这些神经网络在性能方面的优势往往取决于人工设计的优秀网络架构。然而,无论是DNN还是QNN,神经网络的架构设计仍然需要依靠非常丰富的先验知识和专业经验。因此,如何针对同样的任务例如图像分类任务,让机器自动地设计、构建和搜索优秀的神经网络架构是具有非常重要且深远的现实意义的。本文对量子神经网络和传统深度神经网络这两种不同计算范式下的神经网络在网络架构搜索方法上进行探索和研究。利用量子进化策略提升了传统进化策略在庞大的离散搜索空间中的搜索能力,以帮助神经网络架构搜索方法搜索到更为优秀的网络结构。本文根据QNN与DNN中不同的网络特性设计相应的搜索空间,并针对QNN中存在的网络设计无明确指导经验、人工设计模型精度较低复杂度较高的问题和DNN中网络设计需要大量先验知识、现有方法在离散空间搜索能力不足、时间代价较大以及网络性能相关性较低的问题提出了新的神经网络架构搜索方法。本文的主要工作如下:在量子神经网络方面,针对量子神经网络领域中网络的设计方法无明确指导经验、人工设计的网络模型性能较差、网络模型的线路复杂度较高、传统网络架构搜索方法在未来无法完全利用量子特性等问题,本文提出了一种基于量子线路的进化量子神经网络架构搜索方法。通过与原人工设计的网络模型的对比实验可以得出,经过搜索得到的量子神经网络比原来的网络模型在模型精度上有所提高,并有效地降低了量子线路的复杂度,为在真实量子计算机上搭建量子神经网络提供了有效的帮助。在深度神经网络方面,针对人工设计网络模型需要大量先验知识、现有的基于进化的神经网络架构搜索方法在庞大的离散搜索空间中搜索能力不足、时间代价较大等问题,本文提出了基于量子进化的Oneshot神经网络架构搜索方法,提高了搜索能力并降低了搜索时间。通过在基准数据集CIFAR10与CIFAR100上与人工设计的网络模型和现有的神经网络架构搜索方法进行对比实验可以得到,本文所提出的方法搜索到的神经网络在模型性能上更为优秀。针对神经网络架构搜索方法中网络性能评估与真实性能相关性较低、差距较大的问题,本文详细分析并深入思考了传统神经网络架构搜索方法和基于权重共享的Oneshot方法之间存在的问题和矛盾,以及当前Oneshot方法中不同超网络训练采样方式之间的冲突与问题。最终在保持量子进化带来的优势的基础上提出了基于量子进化与平衡池策略的神经网络架构搜索方法。在对比实验中,所提出的方法搜索到的神经网络相较于其他人工设计的网络与其他搜索方法得到的网络具有更优秀的模型性能。
...8.基于多尺度特征和无监督数据增强的遮挡行人重识别
- 关键词:
- 行人重识别 多尺度特征 人体特征重构 无监督数据增强 基金资助:陕西省重点研发计划项目(No.2019ZDLGY09-05),面向高分辨SAR图像目标识别的量子深度神经网络技术研究; 国家自然科学基金(No.61772399),面向高分辨SAR图像分类的量子深度神经网络研究; 专辑:信息科技 专题:计算机软件及计算机应用 DOI:10.27389/d.cnki.gxadu.2022.001342 分类号:TP391.41 导师:李阳阳 张小龙 手机阅读
- 0年
- 卷
- 期
- 期刊
行人重识别技术可以搜索特定行人,被广泛用于现在的智能视频监控系统中,辅助人们抓捕罪犯或寻找失踪人员。遮挡行人重识别任务的提出主要是由于现实世界中行人往往被各种遮挡物所遮挡,极大地影响了模型匹配的精度。目前针对遮挡行人重识别任务的工作依旧面临巨大的挑战,早期的大多工作只关注人体匹配并未考虑遮挡问题,后来出现了基于局部特征的方法,使得模型的泛化性能有所提高,但这类方法大多需要严格的行人对齐,严重遮挡下表现依旧不佳。部分行人重识别方法面对遮挡情况时需要手动裁剪图片十分费时费力。不仅如此,目前针对于遮挡问题的数据集往往规模较小,不仅训练时容易造成过拟合,不同数据集之间的图像风格差异也使得联合使用这些数据集变得十分困难。由此可见,对于遮挡行人重识别技术的研究目前尚不完善,攻克这些难关对于遮挡情况下行人重识别问题的研究具有重大意义。基于此,本文研究了遮挡情况下的行人重识别问题,其主要工作和贡献如下:(1)针对遮挡情况下存在人体的不完整的问题,提出了一种基于多尺度特征的遮挡行人重识别方法。与部分重识别方法中的手动裁剪不同,该方法利用目标检测算法构造部分人体定位器,自动识别和裁剪部分人体,并设计了水平金字塔池化策略,融合不同尺度下的行人局部特征,增强了模型的鲁棒性。实验表明,该方法在遮挡行人重识别任务上有着更优越的匹配精度。(2)针对遮挡情况下不同行人图像之间的局部特征难以对齐的问题,提出了一种基于人体特征重构的遮挡行人重识别方法。与目前主流方法严重依赖局部特征对齐不同,该方法是一种无对齐方法。在方法一的基础上,采用稀疏表示重构人体特征,利用人体特征重构距离改进了难样本三元组损失,增大相似部分对匹配相关性的占比。实验表明,该方法可以有效提高模型的抗遮挡性。(3)针对遮挡行人重识别任务中有标签数据量较少的问题,提出了一种基于无监督数据增强的遮挡行人重识别方法。该方法在方法二的基础上,采用无监督方法进行数据增强,引入无标签数据并生成伪标签,提出混合记忆模型和聚类可靠性评价标准,动态更新不同类型数据所需的标签,利用统一对比损失对原模型参数微调,在扩充数据量的同时减少模型的过拟合。实验表明,该方法进一步提高了遮挡情况下的模型精度。
...9.基于自适应权重损失函数的SAR图像目标检测与态势识别
- 关键词:
- SAR图像 目标检测 数据增强 自适应权重损失函数 态势识别 基金资助:陕西省重点研发计划项目(No.2019ZDLGY09-05); 国家自然科学基金(No.61772399); 专辑:信息科技 专题:电信技术 DOI:10.27389/d.cnki.gxadu.2022.001473 分类号:TN957.52 导师:李阳阳 手机阅读
- 0年
- 卷
- 期
- 期刊
随着计算机软件和硬件的发展,机器学习和深度学习成为了当前的研究热点,基于此的计算机视觉领域也取得了很大的进展。SAR图像由于其全天时、全天候的优点,在地质勘探、军事战争等领域有着重大的应用。然而可用的SAR图像数量稀少,因此SAR图像目标检测任务的精度也收到了制约,基于目标检测结果的战场态势识别准确率同样受到了限制。本文主要针对SAR图像数量少、目标检测精度差以及态势识别准确率低三个问题提出了相应的改进方法。主要的工作点可以分为三个部分:第一,针对SAR图像数量稀少的问题,提出了一种简洁高效的基于卷积神经网络的数据增强方法,利用现有的目标与背景图像进行自动合成,将训练集数量扩充了一倍,并在目标检测任务上进行实验。实验结果表明,该数据增强方法能够将m AP提升7.57%,显著提升了SAR图像目标检测的精度。第二,在SAR图像目标检测任务中,针对部分类别样本检测效果差的问题,提出了自适应权重损失函数(1/Io U Loss),应用于区域生成网络中的回归损失部分。该损失函数通过调节因子,能够自适应地增大检测效果差的样本在损失函数中的贡献,有针对性地提升这些检测效果差的样本的检测精度,从而提升整体的检测精度。实验结果表明,1/Io U Loss法对越困难的原始任务提升效果越好。其中,使用数据增强后的数据集进行改进前后方法对比实验,得到的m AP提升了4.61%。第三,在SAR图像态势识别任务中,将第二个工作中的检测结果作为特征向量中的一维,同其他设计的能够反映态势信息的特征一起输入支持向量机分类器中,对敌方动机进行多分类,判断其是进攻、防守还是撤退,辅助专家进行战场态势的预判。其中,由于SVM的高斯核对两个参数敏感,故针对此提出了分步网格搜索算法,自动搜索最优的参数组合。相比手动搜索,本章提出的方法提升了效率的同时还提高了分类准确率。实验结果中,SVM的分类准确率可以达到100%。同时,将本文的工作整合成了一个可视化系统,可以展示战场的态势和热点区域。
...10.基于多任务学习与代理模型的多目标跟踪方法
- 关键词:
- 多目标跟踪;多任务学习;级联匹配;注意力机制;上采样;代理模型
- 张家豪
- 指导老师:西安电子科技大学 李阳阳
- 0年
- 学位论文
多目标跟踪任务是计算机视觉领域中的关键任务,其是目标检测、图像分割等任务的进一步发展,也是人体姿态估计、行为识别与分析等高级任务的基石,具有丰富的研究和实用价值。多目标跟踪任务的目的是识别和检测出视频帧中所有的目标,并保证每个目标在其所在视频帧中的身份信息不变,即对每个目标维持一个相同的ID编号。目前对多目标跟踪任务的处理框架主要分为四个步骤,包括目标检测、特征向量提取、相似度计算和数据关联。研究对象主要集中在行人跟踪方面,因为对行人的研究更具有应用价值和商业价值,常见的应用场景包括自动驾驶、视频监测和虚拟现实等。如何构建快速且准确的多目标跟踪模型,是本课题的研究重点。本文具体研究工作如下:(1)从速度方面考虑。针对多目标跟踪任务流程冗余,运行时间慢,提出了一种基于多任务学习和级联匹配的多目标跟踪方法。该模型中的多任务学习方法合并了目标检测过程和基于检测框的特征向量提取过程,一步检测出目标的位置并输出具有类内区分度的特征向量,省去了基于检测结果的特征提取时间,减少了总任务时间。并且在多任务学习的过程中,特征向量提取子任务会对目标检测子任务产生“窃听效应”,获取到目标周围的环境信息,更提升了目标特征向量在数据关联过程中的鲁棒性。同时,基于级联匹配的数据关联方法按优先度不同,分批次匹配相关轨迹和目标检测框,减少了目标错配、漏配的可能性,获得更高效更稳定的匹配结果。实验表明,该模型的速度在多目标跟踪任务中达到了实时性,因此具有了实时性场景下的实用价值。(2)从性能方面考虑。为了进一步提高多目标跟踪方法的精度,提出了一种基于三维残差注意力与双路上采样的特征提取结构。该结构的三维残差注意力机制通过通道注意力和空间注意力实现了对通道和空间层面分别进行注意力筛选。其中每种注意力同时包含均值池化操作和最大池化操作,其中均值池化获取特征图全局信息,最大池化操作获取特征图显著信息。结合特征图全局信息和显著信息进行融合,得出更具辨识度且对结果更有效的注意力分配权重。双路上采样同时使用了双线性插值和改进的Pixel Shuffle模块进行上采样,即也就是对深层的语义特征进行了等比例放大和参数放大,得到两种不同的放大特征,融合后得到更高分辨率且对结果更有效的特征。实验表明,该方法在速度依然保持实时性的情况下,又提高了跟踪精度。(3)从任务框架方面考虑。为了进一步优化多目标跟踪任务的流程和框架,提出了一种基于数据关联代理模型的多目标跟踪方法。其核心部分的数据关联代理模型是基于双向GRU构成的,目的是用来近似替代数据关联过程。同时在模型训练阶段,提出了一种新颖的神经网络结构来近似表达MOTA和MOTP评价指标,将其作为模型训练的损失函数。从而将数据关联过程和评价指标引入到了神经网络训练中,使整个多目标跟踪任务都能够进行端到端的训练,引导网络朝着更高关联准确度的方向精准优化,得到更高质量的多目标跟踪结果。实验表明,该方法优化了多目标跟踪的任务框架,同时得到了更好的跟踪效果。
...
