高清3D裸眼视频内容生成与编码

项目来源

国家自然科学基金(NSFC)

项目主持人

蒋刚毅

项目受资助机构

宁波大学

立项年度

2013

立项时间

未公开

项目编号

U1301257

项目级别

国家级

研究期限

未知 / 未知

受资助金额

255.00万元

学科

联合基金领域-电子信息领域

学科代码

L-L05

基金类别

联合基金项目-重点支持项目-NSFC-广东联合基金

关键词

3D视频内容生成 ; 3D视觉舒适度 ; 裸眼3D显示 ; 3D视频的体验质量 ; 3D视频编码 ; 3D video coding ; 3D Video Content Generation ; Autostereoscopic Display ; 3D visual comfort ; 3D video QoE

参与者

安平；张永兵；邵枫；张磊；韩军；王晓东；冯妮娜；蒋志迪

参与机构

上海大学；清华大学深圳研究生院

项目标书摘要：高清3D裸眼视频系统能提供立体感、临场感等全新视觉体验，高质量3D内容生成、高效编码是其走向应用的关键。与单视点视频系统相比，高清3D裸眼视频系统存在3D节目观看时可能的视疲劳、3D内容匮乏与制作过程复杂、3D数据海量、整体系统用户3D视觉体验质量等问题。现有方法在3D内容采集与重建很少考虑裸眼3D显示的舒适性、3D视频编码失真的视觉感知，也很少考虑从3D系统体验质量来设计各个环节。.本项目从研究影响3D视觉舒适性、编码失真的感知特性、用户体验质量的因素出发，在设计主观感知实验、统计分析各因素影响的基础上，建立数学模型，并对3D舒适度、3D感知失真、3D视觉体验质量进行定量分析与客观描述；提出基于视觉舒适度模型约束的3D内容采集与重建、基于感知失真测度模型的高效3D视频编码、基于用户体验质量预测模型的3D系统设计等理论与方法，以获得最佳用户体验质量的3D内容、高效率的3D视频压缩。

Application Abstract: High definition 3D video systems with autostereoscopic display can provide new visual experiences such as stereoscopic perception,sense of immediacy,etc..High quality 3D content generation and high efficient coding are keys of applying the systems into applications.However,compared with mono-view video system,there are still very important problems to be solved,such as visual discomfort when watching 3D programs,lack of 3D contents,high complexity of 3D content generation and compression,huge amount of 3D data,user’s 3D visual quality of experience(QoE)for the whole system.So far,the exiting 3D content generation and reconstruction methods have seldom considered comfort degree of autostereoscopic display,visual perception degradation created by 3D video coding distortion,and user’s 3D visual QoE in designing each part of 3D system as well..In this project,the factors influencing 3D visual comfort,perception characteristics of coding distortion,and user’s 3D visual QoE will be investigated firstly,the corresponding mathematical models will be established by means of subjective perception experiments and statistical analysis of effectiveness of these facts so as to quantitatively describe 3D visual comfort degree,perception characteristics of coding distortion,and user's 3D visual QoE.Then,the theories and methods for 3D contents generation and reconstruction within the constraint of visual comfort model,high efficient 3D video coding based on perception distortion metric,and user’s QoE prediction model based 3D system design will be proposed to obtain 3D contents with the optimal user’s QoE(or visual comfort)and achieve high efficient performance of 3D video coding.

项目受资助省

浙江省

项目结题报告(全文)

高清3D裸眼视频系统利用人眼双目视觉感知特性形成立体感、临场感，让观众更真实直观地感受世界，是新一代视频技术的发展方向。本项目致力于求解用户视觉体验质量与3D内容生成、3D视频编码等科学问题。从研究影响3D内容失真与3D视觉舒适性的视觉感知特性要素出发，通过设计主观视觉感知实验、统计分析各因素影响，对3D视觉失真测度、视觉舒适度等3D视觉体验质量进行定量分析与描述，提出了基于人眼视觉感知特性的用户体验质量评价理论与方法，并应用于基于3D视觉舒适度评价约束的3D内容采集与重建、基于感知失真评价模型的高效3D视频编码、基于用户体验质量评价的3D视频系统集成等，为实现高质量3D内容生成、高效率3D视频编码、高性能3D视频系统设计等提供了可借鉴的理论与方法，形成了相关专利技术；构建了基于彩色+深度的实时双目3D视频原型系统、高逼真3D实时成像与显示系统等面向不同应用的3D视频原型系统。为实现高质量的3D内容生成及其高效编码压缩提供了相关理论与方法。本项目发表学术论文125篇，其中国际SCI期刊论文72篇,IEEE Transactions、Optical Express等顶尖期刊长文19篇；在本领域权威国际会议上发表论文41篇，出版学术著作1部。获授权发明专利35件(含授权美国发明专利4件)。部分成果获省部级科技奖3项(一、二、三等奖各1项)、参与获国家科技进步二等奖1项。项目组主要成员获国家自然科学基金优秀青年科学基金项目、浙江省自然科学基金杰出青年基金项目、“广东特支计划”科技创新青年拔尖人才项目等；共培养博士和硕士毕业生37名，建立了一支3D视频研究领域的优秀科研队伍。

排序方式：时间相关性
显示方式：列表摘要

1.基于深度学习的视频编码技术研究

关键词：
视频编码;深度学习;CNN;GAN;HEVC

金智鹏
指导老师：上海大学安平
0年
学位论文

自20世纪八十年代以来,视频编码（Video coding）技术蓬勃发展,广泛应用于远程教育、远程医疗、可视电话、视频会议、视频点播、交互式视频游戏、安全监控、虚拟实现等领域,对整个信息产业的发展起到了巨大的推动作用。现实生活中,无处不在的视频应用更是催生出海量的视频数据;特别是近年来人们强烈追求更清晰、更流畅、更逼真的视觉体验,使得视频数据呈现爆发式增长,对视频压缩效率提出了更高的要求。高效视频编码标准HEVC（High Efficiency Video Coding）相比上一代国际视频编码标准H.264/AVC,可以使1080P视频内容的压缩效率提高50%左右。在HEVC框架中,帧内帧间预测技术、环路滤波技术、快速编码技术是保障其压缩率、感知质量以及编码速度的三大重要技术领域。尽管针对帧内帧间预测、环路滤波和快速编码算法的改进工作已经有很多,但是HEVC编码性能仍不能达到最优,很大一部分原因是受到手工设计的特征提取和特征建模的性能限制。近年来,随着深度学习（Deep learning）技术的再次兴起及其在计算机视觉领域的广泛成功,视频编码技术开启了端到端自动建模的研究新领域。基于深度学习的预测编码技术可以有效提高视频压缩率,基于深度学习的环路滤波技术可以有效提高解码图的视觉舒适度,它们在直播推流、视频传输等领域具有广泛的应用价值和商业价值。尽管应用前景广阔,但是基于深度学习的视频编码技术还处于研究初期,相关研究成果还没有形成完整的体系,在深度神经网络结构、网络可解释性、训练数据集的构建、网络训练方法、网络计算效率、跨平台的代码兼容性等方面还需开展细致的研究。因此,开展基于深度学习的视频高效编码算法研究,完善基于深度学习的视频编码理论,具有重要的理论与现实意义。本文对基于深度学习的视频编码关键技术进行了深入研究,主要的学术贡献及创新点包括以下几个方面:1.提出基于感知对抗和渐进式网络的环路滤波算法框架（MPRNet）,性能超越了去块滤波、样本自适应偏移、自适应环路滤波等传统的环路滤波方法。本方法主要从三个层面上提高算法性能:将解码图像（未经环路滤波的图像）送入深度学习网络进行逐级渐进式的增强处理,有效解决了块效应、振铃效应、模糊等由编码导致的图像失真问题,提高了编码效率和主观视觉质量;采用对抗训练方式,结合均方误差损失、感知损失和对抗损失,能有效提高图像的视觉质量;采用可伸缩的多级渐进式的CNN网络,用多级均方误差损失来控制各级网络的拟合功能,实现由粗到细渐进式的增强处理效果,能在计算量和增强效果之间进行平衡。2.提出基于卷积自编码机的帧内预测算法框架（IPCED）,采用端到端数据驱动的方式进行帧内预测,可有效降低预测残差,提高编码率失真性能。本方法从以下三方面提高帧内预测性能:借鉴图像修复技术,用3个参考块进行第四象限的帧内预测,并引入GAN对抗损失和联合优化方式,提高预测准确率;提出多级直连的卷积编码器网络,把深层全局信息和浅层局部信息融合到一起,增强对参考块纹理特征的学习和表征能力;提出多级反卷积的解码器网络,逐级进行纹理重建（即帧内预测）,增强预测结果的纹理丰富程度,提高预测准确率。3.提出基于CNN的编码单元结构快速决策算法框架,将QTBT编码单元划分结构优化问题转化为多分类问题,从整体上判断32×32编码块的纹理复杂度（即划分深度范围）,而不是逐级判断是否需要划分为子块,从而显著提高了决策速度。本方法的创新特色有以下三点:直接预测32×32编码块的最浅和最深划分深度,有效解决了JVET中QTBT编码单元种类繁多的问题,并保持了良好的分类准确性;针对任务特点,设计了新型目标函数,包括Hingeloss和类别惩罚项,能有效提高分类准确;本方法是一种端到端的学习系统,将直接从编码单元中学习和提取分类特征,而不需要手动去设计和提取特征,也不需要时域和空域的相关性信息,有助于提高帧内编码的并行运算和独立解码性能。综上,本文以基于深度学习的视频编码技术为研究对象,对基于深度学习的环路滤波、帧内预测、和快速编码等关键技术进行了深入研究。实验结果表明,本文提出的多种算法均有效提高了视频编码效率。

...

排序方式：时间相关性
显示方式：列表摘要