论文精选-底层视觉领域顶会顶刊论文-熵视

图像视频增强

RivuletMLP: 一种基于MLP的高效压缩视频质量增强架构

作者：Gang He, Weiran Wang, Guancheng Quan, Shihao Wang, Dajiang Zhou, Yunsong Li

时间：2025

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

RivuletMLP An MLP-based Architecture for Efficient Compressed Video Quality Enhancement.jpg

视频压缩导致的质量下降既体现在纹理边缘的空间维度上，也体现在连续运动变化的时间维度上。尽管近年来取得了一些进展，但从相邻帧中提取对齐的时空信息仍然具有挑战性。这主要是由于感受野大小和计算复杂度的限制，使得现有方法难以有效地提升视频质量。为解决这一问题，我们提出了RivuletMLP，一种基于MLP的网络架构。具体而言，我们的框架首先采用动态引导可变形对齐（DDA）模块，自适应地探索和对齐多帧特征信息。随后，我们引入了两个用于特征重建的模块：时空特征流（SFF）模块和良性选择补偿（BSC）模块。SFF模块通过创新的特征置换机制建立非局部依赖关系。此外，BSC模块采用深度特征提取与局部区域细化相结合的策略，以减轻压缩导致的帧间运动不连续性。实验结果表明，RivuletMLP在保持强大重建能力的同时，还实现了更高的计算效率。

阅读原文

图像视频增强

具有增强的时空一致性的高效视频人脸增强

作者：Yutong Wang, Jiajie Teng, Jiajiong Cao, Yuming Li, Chenguang Ma, Hongteng Xu, Dixin Luo

时间：2025

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency.jpg

作为一种非常常见的视频类型，人脸视频经常出现在电影、脱口秀、直播等场景中。现实世界中的在线视频由于通信成本高和传输带宽有限，往往会采用高压缩比，从而导致视频出现模糊、量化噪声等退化问题。这些退化问题对人脸视频的影响尤为严重，因为人类视觉系统对面部细节高度敏感。尽管视频人脸增强技术取得了显著进步，但当前的方法仍存在以下问题：（i）处理时间长；（ii）时空视觉效果不一致（例如闪烁）。本研究提出了一种新颖且高效的盲视频人脸增强方法，以解决上述两个挑战，通过有效的去闪烁机制从压缩的低质量视频中恢复出高质量视频。具体而言，所提方法基于3D-VQGAN骨干网络开发而成，该骨干网络与记录高质量人像特征和基于残差的时间信息的时空码本相关联。我们为该模型设计了一个两阶段学习框架。在第一阶段，我们通过一个正则化器来训练模型，以缓解码本坍塌问题。在第二阶段，我们训练两个Transformer从码本中查找代码，并进一步更新低质量视频的编码器。在VFHQ-Test数据集上进行的实验表明，我们的方法在效率和效果上均超过了当前最先进的盲人脸视频恢复和去闪烁方法。

阅读原文

查看代码

图像视频增强

用于高效光流估计的多模态协同隐式图像增强

作者：Weichen Dai, Hexing Wu, Xiaoyang Weng, Yuxin Zheng, Yuhang Ming, Wanzeng Kong

时间：2025

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Multi-Modal Synergistic Implicit Image Enhancement for Efficient Optical Flow Estimation.jpg

作为一项基础的视觉任务，光流估计在计算机视觉领域有着广泛的应用。然而，在恶劣光照条件下，它面临着巨大的挑战，低纹理和噪声使得精确的光流估计变得尤为困难。在本文中，我们提出了一种通过多模态协同训练进行隐式图像增强的光流方法。为了补充原始低质量图像中缺失的场景信息，我们采用了一种高低频特征增强网络。该增强网络由多模态数据和特定的后续任务进行隐式引导，使模型能够在推理过程中学习到有助于增强光流估计所需特征信息的多模态知识。通过使用RGBD多模态数据，所提出的方法避免了对传统图像增强方法中常见的、依赖于同一视角拍摄图像这一局限性的依赖。在训练过程中，从增强图像中提取的编码特征会受到来自RGBD融合特征以及光流任务的协同监督。在合成数据集和真实数据集上进行的实验表明，所提出的方法显著提升了在公开数据集上的性能。

阅读原文

图像视频增强

PASD: 一种用于无监督低光图像增强的像素自适应群体动力学方法

作者：Shuai Jin, Yuhua Qian, Feijiang Li, Guoqing Liu, Xinyan Liang

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

PASD A Pixel-Adaptive Swarm Dynamics Approach for Unsupervised Low-Light Image Enhancement.jpg

无监督低光照图像增强面临着既要保留局部纹理细节，又要保持全局光照一致性的挑战。现有方法通常依赖于固定邻域内统一的、预定义的策略（例如固定卷积核或平均池化），这些方法在增强过程中自适应捕捉像素间动态相互依赖关系的能力有限。因此，这些方法可能会导致过饱和或精细细节丢失。为了解决这些问题，我们提出了PASD，这是一种受群体动力学启发的新型像素自适应调整方法。PASD建立了像素间的协作约束，基于动态邻域交互来调整像素强度，从而形成一个用于图像增强的群体动力学系统，确保局部增强和全局一致性之间的平衡。此外，采用分布式多智能体强化学习机制来优化动态系统内的交互，同时多尺度协调框架确保策略的一致性和稳定性。实验结果表明，PASD显著优于现有的最先进方法，为低光照图像增强提供了一种更灵活、更高效的解决方案。

阅读原文

图像视频增强

在生成式视频增强中对齐全局语义与局部纹理

作者：Zhikai Chen, Fuchen Long, Zhaofan Qiu, Ting Yao, Wengang Zhou, Jiebo Luo, Tao Mei

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

Aligning Global Semantics and Local Textures in Generative Video Enhancement.jpg

近年来，视频生成领域的进展展示了强大的扩散模型的实用性。其中一个重要方向是提升人工智能合成视频的视觉质量，以用于艺术创作。然而，仅仅依赖预训练视频扩散模型中蕴含的知识可能会限制局部细节（例如纹理）的泛化能力。在本文中，我们通过从高质量（HQ）图像参考中挖掘视觉线索来解决这一问题，以促进视频增强中视觉细节的生成。我们提出了GenVE，这是一种新的生成式视频增强框架方案，旨在实现高质量图像参考与扩散过程中去噪视频之间的语义和纹理对齐。从技术上讲，GenVE首先利用图像扩散模型对输入视频的关键帧进行放大，以获得语义对齐的高质量图像参考。然后，将一个视频控制器集成到3D-UNet中，以捕捉图像参考的补丁级纹理，从而增强低质量（LQ）视频对应区域的细粒度细节生成。此外，我们还实施了一系列条件增强策略，以实现有效的模型训练和算法鲁棒性。在公开的YouHQ40和VideoLQ数据集以及自建的AIGC-Vid数据集上进行的大量实验，从定量和定性两方面证明了我们的GenVE相较于最先进的视频增强方法的有效性。

阅读原文

查看代码

图像视频增强

在DCT中发掘宝藏: 通过利用潜在相关性提升JPEG质量

作者：Jing Yang, Qunliang Xing, Mai Xu, Minglang Qiao

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

Uncover Treasures in DCT Advancing JPEG Quality Enhancement by Exploiting Latent Correlations.jpg

联合图像专家小组（JPEG）通过对离散余弦变换（DCT）系数进行量化来实现数据压缩，这不可避免地会引入压缩伪影。大多数现有的JPEG质量增强方法在像素域中运行，存在解码计算成本高的问题。因此，在DCT域中直接增强JPEG图像受到了越来越多的关注。然而，当前的DCT域方法通常表现出有限的性能。为了应对这一挑战，我们确定了JPEG图像DCT系数内的两种关键相关性。基于这一见解，我们提出了一种先进的DCT域JPEG质量增强（AJQE）方法，该方法充分利用了这些相关性。AJQE方法能够将众多成熟的像素域模型适配到DCT域，在降低计算复杂度的同时实现了更优异的性能。与像素域的对应模型相比，通过我们的方法得到的DCT域模型在峰值信噪比（PSNR）上平均提升了0.35分贝，在增强吞吐量上平均提高了60.5%。

阅读原文

图像视频增强

任务解耦的贝塞尔曲面约束用于非均匀低光图像增强

作者：Xingxiang Zhou, Xiangdong Su, Haoran Zhang, Wei Chen, Guanglai Gao

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

Task-Decoupled Bezier Surface Constraint for Uneven Low-Light Image Enhancement.jpg

微光图像增强（LLIE）是计算机视觉领域的一项基础任务，其目标是从黑暗区域中提取更多有用信息。许多现有方法在提升图像亮度和增强纹理细节方面取得了显著进展。然而，这些方法在处理光照不均匀的图像时，往往会导致某些区域曝光过度，进而造成图像中原始信息的丢失。为解决这一问题，我们提出了一种基于任务解耦的贝塞尔曲面约束（BSCNet）方法，用于增强亮度不均匀的微光图像。具体而言，我们设计了一个具有分支结构的扩散模型，将增强过程分为亮度调整和色彩恢复两部分，从而能够对亮度均匀性进行独立控制。此外，我们将贝塞尔曲面作为学习目标，对图像施加平滑约束，以解决增强后图像亮度不均匀的问题。为了抵消贝塞尔曲面可能带来的细节丢失，我们引入了一个基于傅里叶变换的空频重建模块，用于增强细粒度纹理信息。在六个通用的微光图像增强数据集上的实验对比表明，我们提出的方法展现出了优异的效果。

阅读原文

图像视频增强

基于事件的光照估计的低光图像增强

作者：Lei Sun, Yuhan Bao, Jiajun Zhai, Jingyun Liang, Yulun Zhang, Kaiwei Wang, Danda Pani Paudel, Luc Van Gool

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

Low-Light Image Enhancement Using Event-Based Illumination Estimation.jpg

低光照图像增强（LLIE）旨在提高在光照不佳环境下拍摄的图像的可见度。主流的基于事件的解决方案主要利用运动触发的事件，即“运动事件”，仅增强边缘纹理，而在很大程度上未充分探索事件相机的高动态范围和出色的低光照响应能力。本文则从利用“时间映射”事件估计光照的角度开辟了一条新途径，即通过将由透射调制触发的事件的时间戳转换为亮度值。由此产生的细粒度光照线索，借助所提出的光照辅助反射率增强模块，有助于更有效地分解和增强低光照图像中的反射率成分。此外，本文还研究了低光照条件下时间映射事件的退化模型，用于生成逼真的训练数据。为了解决该领域数据集缺乏的问题，我们构建了一个分束器装置，并收集了包含图像、时间映射事件和运动事件的EvLowLight数据集。在5个合成数据集和我们的真实世界EvLowLight数据集上进行的大量实验证实，所设计的名为RetinEV的管道在生成光照良好的高动态范围图像方面表现优异，比以往最先进的基于事件的方法高出多达6.62分贝，同时在640x480的图像上保持着35.6帧/秒的高效推理速度。

阅读原文

查看代码

图像视频增强

GM-MoE: 基于门控机制混合专家的低光增强

作者：Minwen Liao, Haobo Dong, Xinyi Wang, Kurban Ubul, Yihua Shao, Ziyang Yan

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

GM-MoE Low-Light Enhancement with Gated-Mechanism Mixture-of-Experts.jpg

微光增强在自动驾驶、三维重建、遥感、监控等领域有着广泛的应用，能够显著提高信息利用率。然而，大多数现有方法缺乏泛化能力，且局限于图像恢复等特定任务。为解决这些问题，我们提出了门控机制混合专家网络（GM-MoE），这是首个将混合专家网络引入微光图像增强的框架。GM-MoE由一个动态门控权重调节网络和三个子专家网络组成，每个子专家网络专门负责一项不同的增强任务。该框架结合了自行设计的门控机制，可针对不同的数据域动态调整子专家网络的权重。此外，我们在子专家网络中融入了局部和全局特征融合，通过捕捉多尺度特征来提升图像质量。实验结果表明，与20多种现有方法相比，GM-MoE具有更优异的泛化能力，在5个基准测试的峰值信噪比（PSNR）和4个基准测试的结构相似性指数（SSIM）上分别达到了最先进的性能。

阅读原文

查看代码