高清3D裸眼视频内容生成与编码
项目来源
项目主持人
项目受资助机构
立项年度
立项时间
项目编号
项目级别
研究期限
受资助金额
学科
学科代码
基金类别
关键词
参与者
参与机构
项目受资助省
项目结题报告(全文)
1.基于深度学习的视频编码技术研究
- 关键词:
- 视频编码;深度学习;CNN;GAN;HEVC
- 金智鹏
- 指导老师:上海大学 安平
- 0年
- 学位论文
自20世纪八十年代以来,视频编码(Video coding)技术蓬勃发展,广泛应用于远程教育、远程医疗、可视电话、视频会议、视频点播、交互式视频游戏、安全监控、虚拟实现等领域,对整个信息产业的发展起到了巨大的推动作用。现实生活中,无处不在的视频应用更是催生出海量的视频数据;特别是近年来人们强烈追求更清晰、更流畅、更逼真的视觉体验,使得视频数据呈现爆发式增长,对视频压缩效率提出了更高的要求。高效视频编码标准HEVC(High Efficiency Video Coding)相比上一代国际视频编码标准H.264/AVC,可以使1080P视频内容的压缩效率提高50%左右。在HEVC框架中,帧内帧间预测技术、环路滤波技术、快速编码技术是保障其压缩率、感知质量以及编码速度的三大重要技术领域。尽管针对帧内帧间预测、环路滤波和快速编码算法的改进工作已经有很多,但是HEVC编码性能仍不能达到最优,很大一部分原因是受到手工设计的特征提取和特征建模的性能限制。近年来,随着深度学习(Deep learning)技术的再次兴起及其在计算机视觉领域的广泛成功,视频编码技术开启了端到端自动建模的研究新领域。基于深度学习的预测编码技术可以有效提高视频压缩率,基于深度学习的环路滤波技术可以有效提高解码图的视觉舒适度,它们在直播推流、视频传输等领域具有广泛的应用价值和商业价值。尽管应用前景广阔,但是基于深度学习的视频编码技术还处于研究初期,相关研究成果还没有形成完整的体系,在深度神经网络结构、网络可解释性、训练数据集的构建、网络训练方法、网络计算效率、跨平台的代码兼容性等方面还需开展细致的研究。因此,开展基于深度学习的视频高效编码算法研究,完善基于深度学习的视频编码理论,具有重要的理论与现实意义。本文对基于深度学习的视频编码关键技术进行了深入研究,主要的学术贡献及创新点包括以下几个方面:1.提出基于感知对抗和渐进式网络的环路滤波算法框架(MPRNet),性能超越了去块滤波、样本自适应偏移、自适应环路滤波等传统的环路滤波方法。本方法主要从三个层面上提高算法性能:将解码图像(未经环路滤波的图像)送入深度学习网络进行逐级渐进式的增强处理,有效解决了块效应、振铃效应、模糊等由编码导致的图像失真问题,提高了编码效率和主观视觉质量;采用对抗训练方式,结合均方误差损失、感知损失和对抗损失,能有效提高图像的视觉质量;采用可伸缩的多级渐进式的CNN网络,用多级均方误差损失来控制各级网络的拟合功能,实现由粗到细渐进式的增强处理效果,能在计算量和增强效果之间进行平衡。2.提出基于卷积自编码机的帧内预测算法框架(IPCED),采用端到端数据驱动的方式进行帧内预测,可有效降低预测残差,提高编码率失真性能。本方法从以下三方面提高帧内预测性能:借鉴图像修复技术,用3个参考块进行第四象限的帧内预测,并引入GAN对抗损失和联合优化方式,提高预测准确率;提出多级直连的卷积编码器网络,把深层全局信息和浅层局部信息融合到一起,增强对参考块纹理特征的学习和表征能力;提出多级反卷积的解码器网络,逐级进行纹理重建(即帧内预测),增强预测结果的纹理丰富程度,提高预测准确率。3.提出基于CNN的编码单元结构快速决策算法框架,将QTBT编码单元划分结构优化问题转化为多分类问题,从整体上判断32×32编码块的纹理复杂度(即划分深度范围),而不是逐级判断是否需要划分为子块,从而显著提高了决策速度。本方法的创新特色有以下三点:直接预测32×32编码块的最浅和最深划分深度,有效解决了JVET中QTBT编码单元种类繁多的问题,并保持了良好的分类准确性;针对任务特点,设计了新型目标函数,包括Hingeloss和类别惩罚项,能有效提高分类准确;本方法是一种端到端的学习系统,将直接从编码单元中学习和提取分类特征,而不需要手动去设计和提取特征,也不需要时域和空域的相关性信息,有助于提高帧内编码的并行运算和独立解码性能。综上,本文以基于深度学习的视频编码技术为研究对象,对基于深度学习的环路滤波、帧内预测、和快速编码等关键技术进行了深入研究。实验结果表明,本文提出的多种算法均有效提高了视频编码效率。
...
