北京论道丨咪咕沈昕:音视频AI编码助力大屏超高清业务创新

推荐阅读：北京论道嘉宾演讲大集合！

2023年6月15~16日，由流媒体网主办，北京新媒体（集团）有限公司、北京联通、北京电信、北京移动共同协办的「北京论道暨第25届中国智能视听与科技创新高峰论坛」在北京隆重举行。

本届论道以“电视的未来与未来的电视”为主题，邀请到了智慧大屏产业的行业专家、企业翘楚莅临齐聚，多维角度透视当下大屏市场，共谋电视新未来。

【资料图】

在15日召开的“IPTV价值高峰论坛”上，中国移动咪咕公司高级系统分析总监沈昕做了主题为《注入崭新动能，释放倍增效应——音视频AI编码助力大屏超高清业务创新》的演讲。

以下为演讲全文：

我主要想分享一下大屏超高清相关的业务和技术的进展，以及中国移动包括咪咕公司的未来规划。

IPTV接下来是进一步向外延伸，还是回归TV业务本身，这是大家在思考的问题。今天先从回归的角度来展开，具体就是AI技术对大屏超高清业务的影响。

产业创新需要“新变量”

以家庭市场为主的大屏业务已经进入下半场，新变量可以是向外延伸，也可以是内化价值提升。2022年底，有线电视用户跌至1.99亿，OTT超10亿，IPTV达3.8亿户，但部分省已出现IPTV用户负增长的情况。从2007年到现在，大屏业务有三个阶段的发展，接下来，能否进入二次业务创新阶段？新技术对于IPTV能否产生新的量变？新变量又到底在什么地方？

根据第一性原理，回归事物最基本的条件，是将其拆分成各要素进行解构分析，从而找到实现目标最优路径的方法。电视是用来看的，需要精彩丰富的内容、清晰流畅的画质、沉浸式观看体验，2022年国内支持4K和HDR的智能电视渗透率超过80%，但超高清真4K内容占比仅约5%。如何在源头高效生产既适合传输、又适合播出的高质量内容？

五年前，我们就已经开始考虑怎样能够大量生产4K内容，因为技术条件的限制，以及生产能力等原因，高质量内容非常少，在播出覆盖上也很难。但感谢AI技术在这两年的应用，尤其是ChatGPT在图象领域、文字领域让我们看到引入机器学习是能够加速整个高质量内容生产的。AI技术可对视频画质进行明显提升，加速超高清内容生产进程，赋能超高清规模应用。

对咪咕来说，我们考虑的问题是如何能够驱动双千兆业务。从目标上来说，希望形成咪咕元宇宙的家庭场景，这需要有引擎化、数智化的生产能力，基于前几年投入的超高清领域研究，我们能够从清晰度、色彩、流畅度、自由视角等形成的超高清技术能力底座，最终通过超高清+元宇宙的方式驱动双千兆业务的发展。

注入崭新动能

回归到超高清编码本身，既然是作为后续元宇宙发展的基础，以更逼真、更自由、更沉浸化的方式进行音视频内容展现的话，要分很多维度。比如空间分辨率、时间分辨率、色彩分辨率、空间自由度、声音分辨率、数据表示等。

清晰度增强——AI在“空间分辨率”中的应用方面，针对清晰度层面的增强，咪咕已经在做并且已经批量在用的，包括从标清到4K，我们基于生成对抗网络（GAN）深度超分模型，进行海量高分辨率视频、图像素材训练，在已训练高频细节部分获得高精度复原效果。

我们首先输入一个图片信息，然后生成视频结果，这个结果有很多分辨率不是那么清晰，同时再引入一个更高清的分辨率，由判别器来判断哪一个图片是更加合适的，并且把反馈的结果重新给到生成器。通过这样一种方式，实际上形成了生成和判断的博弈，训练的场景越来越多的话，在生成结果上面也会越来越好。基于这样的原理，也需要采用周边算法做进一步的提升，包括文字、人脸等进行优化。

流畅度增强——AI在“时间分辨率”中的应用方面，原理是基于视频序列相邻帧之间具有相似的空间和时间特征，经过CNN内多个卷积和反卷积层后生成新的中间帧，并通过海量素材训练模型以达到稳定效果。算法周边：结合以人眼主观感受作为计算标准。

色彩增强——AI在“色彩分辨率”中的应用方面，原理是使用CNN和GAN对大量的SDR和HDR视频数据进行训练来学习转换的映射关系，使用不同的网络结构和训练策略，以满足不同的应用场景和性能要求，提高转换的精度和效果。算法周边：以人眼主观感受调整色彩平衡、去噪等，提高视频的质量和视觉效果。

老片修复方面，主要是AI数智化编码能力的综合应用，可以赋予经典影片、纪录片、电视剧、文化专题片等新的⽣命，对文化传承起到关键推进作用。传统修复流程较复杂，耗费⼤量⼈⼒物⼒和时间，基于AI的自动化修复技术，可极大加速翻新修复的进程。

360°视场自由——超高清FOV自由视角及自由缩放方面，原理上来说，人眼本身是有观察范围的，拍摄过程当中我们采用多机位的方式覆盖360度环绕视频内容。最终，用户能够自由地在全场景当中选择自己感兴趣的内容，进行更加清晰的观看。

沉浸式三维声——基于对象的“声音分辨率”方面，在平面声场的基础上，增加了高度感，将每个声音精准定位，使声场还原为三维空间，能适应不同回放环境，为听众提供极致的沉浸式听觉体验。

关于未来

未来，下一代编码技术朝着哪个方向发展？编码技术本身也是希望能够通过最小数据量尽量还原我们的物理世界，所以说通过引入AI技术，在压缩方法上引入AI压缩编码，基于AI区域分隔，进一步降低码率，同时能够更加清晰地还原我们真实的世界。目前，智能编码压缩方法在逐步商用，从传统基于块的预测、补偿、变换的混合编码框架转向端到端的AI压缩编码，以大幅提升压缩效率。

体积编码压缩对象则处于实验室阶段，流程是二维视频→三维体积视频→光场全息视觉信号→光学高维度信号。视觉信号采集成像则未成熟，机器视觉编码压缩用途也没有成熟。

另外，除了在视频画面增强领域的应用以外，AIGC也正在带动内容供给侧革命。信号源已经突破传统现实世界的描述方法，开始走向AI强化和数字生成的新阶段。

不过，AI看起来很美好，最主要的还是需要有大量的算力，所以后续来说，从运营商的角度，构建完整的算力网络，才能够支撑我们从内容到增强到生成的跨越。基于这样的算力网络，包括AI编码、AI识别、AI渲染，当某一天我们能够完成整个算力网络大规模部署的时候，有可能完全颠覆对生产的过程。

此外还存在一个疑问，未来的内容生产方向上，是从现实转向数字，还是由数字表达现实，或者说是两者的相互结合？但不管怎么说，面向高带宽的用户提供都是必不可少的。所以，至少当前阶段我们能够看到的是超高清内容的不足，而AI技术能够实现整个视频内容体验的提升。

所以，面向未来，我们可以看到，AI编码+云算力将推动业务“泛屏化”，同时，用户的交互模式以及内容的展现形式都会有极大的丰富。谢谢大家。

责任编辑：房家辉

关键词：

责任编辑：QL0009