领域
分类
图像视频增强

具有增强的时空一致性的高效视频人脸增强

作者:Yutong Wang, Jiajie Teng, Jiajiong Cao, Yuming Li, Chenguang Ma, Hongteng Xu, Dixin Luo

时间:2025

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency.jpg

作为一种非常常见的视频类型,人脸视频经常出现在电影、脱口秀、直播等场景中。现实世界中的在线视频由于通信成本高和传输带宽有限,往往会采用高压缩比,从而导致视频出现模糊、量化噪声等退化问题。这些退化问题对人脸视频的影响尤为严重,因为人类视觉系统对面部细节高度敏感。尽管视频人脸增强技术取得了显著进步,但当前的方法仍存在以下问题:(i)处理时间长;(ii)时空视觉效果不一致(例如闪烁)。本研究提出了一种新颖且高效的盲视频人脸增强方法,以解决上述两个挑战,通过有效的去闪烁机制从压缩的低质量视频中恢复出高质量视频。具体而言,所提方法基于3D-VQGAN骨干网络开发而成,该骨干网络与记录高质量人像特征和基于残差的时间信息的时空码本相关联。我们为该模型设计了一个两阶段学习框架。在第一阶段,我们通过一个正则化器来训练模型,以缓解码本坍塌问题。在第二阶段,我们训练两个Transformer从码本中查找代码,并进一步更新低质量视频的编码器。在VFHQ-Test数据集上进行的实验表明,我们的方法在效率和效果上均超过了当前最先进的盲人脸视频恢复和去闪烁方法。

阅读原文
查看代码
图像视频增强

在生成式视频增强中对齐全局语义与局部纹理

作者:Zhikai Chen, Fuchen Long, Zhaofan Qiu, Ting Yao, Wengang Zhou, Jiebo Luo, Tao Mei

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

Aligning Global Semantics and Local Textures in Generative Video Enhancement.jpg

近年来,视频生成领域的进展展示了强大的扩散模型的实用性。其中一个重要方向是提升人工智能合成视频的视觉质量,以用于艺术创作。然而,仅仅依赖预训练视频扩散模型中蕴含的知识可能会限制局部细节(例如纹理)的泛化能力。在本文中,我们通过从高质量(HQ)图像参考中挖掘视觉线索来解决这一问题,以促进视频增强中视觉细节的生成。我们提出了GenVE,这是一种新的生成式视频增强框架方案,旨在实现高质量图像参考与扩散过程中去噪视频之间的语义和纹理对齐。从技术上讲,GenVE首先利用图像扩散模型对输入视频的关键帧进行放大,以获得语义对齐的高质量图像参考。然后,将一个视频控制器集成到3D-UNet中,以捕捉图像参考的补丁级纹理,从而增强低质量(LQ)视频对应区域的细粒度细节生成。此外,我们还实施了一系列条件增强策略,以实现有效的模型训练和算法鲁棒性。在公开的YouHQ40和VideoLQ数据集以及自建的AIGC-Vid数据集上进行的大量实验,从定量和定性两方面证明了我们的GenVE相较于最先进的视频增强方法的有效性。

阅读原文
查看代码
图像视频增强

基于事件的光照估计的低光图像增强

作者:Lei Sun, Yuhan Bao, Jiajun Zhai, Jingyun Liang, Yulun Zhang, Kaiwei Wang, Danda Pani Paudel, Luc Van Gool

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

Low-Light Image Enhancement Using Event-Based Illumination Estimation.jpg

低光照图像增强(LLIE)旨在提高在光照不佳环境下拍摄的图像的可见度。主流的基于事件的解决方案主要利用运动触发的事件,即“运动事件”,仅增强边缘纹理,而在很大程度上未充分探索事件相机的高动态范围和出色的低光照响应能力。本文则从利用“时间映射”事件估计光照的角度开辟了一条新途径,即通过将由透射调制触发的事件的时间戳转换为亮度值。由此产生的细粒度光照线索,借助所提出的光照辅助反射率增强模块,有助于更有效地分解和增强低光照图像中的反射率成分。此外,本文还研究了低光照条件下时间映射事件的退化模型,用于生成逼真的训练数据。为了解决该领域数据集缺乏的问题,我们构建了一个分束器装置,并收集了包含图像、时间映射事件和运动事件的EvLowLight数据集。在5个合成数据集和我们的真实世界EvLowLight数据集上进行的大量实验证实,所设计的名为RetinEV的管道在生成光照良好的高动态范围图像方面表现优异,比以往最先进的基于事件的方法高出多达6.62分贝,同时在640x480的图像上保持着35.6帧/秒的高效推理速度。

阅读原文
查看代码
1 2 3 ... 182 跳转到