IJCAI2026-论文开奖
ICML2026-论文开奖
NeurIPS2026-摘要截止
NeurIPS2026-正文提交
ECCV2026-反驳截止
ECCV2026-论文开奖
ACM MM2026-反驳开始
ACM MM2026-论文开奖
00天 00: 00: 00
00/00
共1915条结果
重置
作者:Junyoung Park, Youngjin Oh, Nam Ik Cho
时间:2026
刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
盲点网络(BSN)通过禁止访问目标像素实现自监督图像去噪,无需真实标签监督即可完成干净信号的估计。然而,该方法假设噪声在像素维度相互独立,而在实际sRGB图像中,相机图像信号处理(ISP)流程产生的空间相关噪声会打破这一假设。尽管已有多种方法采用下采样来消除噪声相关性,但这类方法会改变噪声统计特性,同时限制网络对完整上下文信息的利用能力。本文提出三角掩码盲点网络(TM-BSN),这是一种新型盲点架构,能够精准建模真实sRGB噪声的空间相关性。该相关性源于图像去马赛克过程——每个像素均由邻域采样点经空间衰减权重重构而成,最终形成菱形分布模式。为使感受野与该几何特征相匹配,本文引入三角掩码卷积,将卷积核限制在上三角区域,在原始分辨率下构建出菱形盲点。该设计在排除相关像素的同时,充分利用无关联的上下文信息,无需进行下采样或后处理。此外,本文采用知识蒸馏技术,将多个盲点预测结果中的互补知识迁移至轻量化U-Net中,在提升精度的同时优化效率。在真实场景基准数据集上开展的大量实验表明,本文方法达到了当前最优性能,显著优于现有自监督去噪方法。相关代码可通过该https链接获取。
作者:Fengyang Xiao, Peng Hu, Lei Xu, XingE Guo, Guanyi Qin, Yuqi Shen, Chengyu Fang, Rihan Zhang, Chunming He, Sina Farsiu
真实场景图像复原旨在从非受控环境下采集的降质低质量(LQ)输入图像中重建出高质量(HQ)图像。现有方法通常依赖真实标签(GT)监督,默认真实标签能提供完美的参考质量。然而,真实标签图像仍可能存在感知保真度不一致的问题,导致模型收敛至训练数据的平均质量水平,而非所能达到的最优感知质量。 为解决上述问题,本文提出一种名为IQPIR的新型框架,该框架引入从预训练无参考图像质量评价(NR-IQA)模型中提取的图像质量先验(IQP),明确引导复原过程生成感知层面的最优输出。 本方法通过三大核心机制将图像质量先验与学习得到的码本先验有机融合: (1)质量条件Transformer,将无参考图像质量评价得出的分数作为条件信号,引导预测表征趋向最大感知质量。该设计可即插即用,无需修改结构即可适配现有复原架构; (2)双分支码本结构,对通用特征与高质量专属特征进行解耦,确保同时完整表征通用结构信息与质量敏感属性; (3)基于离散表征的质量优化策略,缓解连续隐空间中常见的过度优化问题。 在真实场景图像复原任务上开展的大量实验表明,本文方法不仅优于当前主流方法,还可作为通用的质量引导增强策略应用于现有方法。相关代码已开源。
作者:Bingchen Li, Zhixin Wang, Fan Li, Jiaqi Xu, Jiaming Guo, Renjing Pei, Xin Li, Zhibo Chen
老照片保存着宝贵的历史记忆,因此对其进行修复和上色极具价值。现有的修复模型虽然能够解决一些退化问题,如去噪和去除划痕,但在精准上色方面往往存在困难。这一局限源于老照片特有的退化现象,例如亮度褪色和色调改变,这些与现代照片的分布不同,在上色过程中造成了显著的领域差异。在本文中,我们提出了一种基于生成扩散模型FLUX的新型老照片上色框架。我们的方法引入了结构-颜色解耦策略,将结构保留与颜色修复分开,从而在保持结构一致性的同时实现老照片的精准上色。我们通过渐进式直接偏好优化(Pro-DPO)策略进一步增强该模型,该策略能让模型通过颜色增强中从粗到细的过渡来学习细微的颜色偏好。此外,我们通过引入视觉语义提示来解决基于文本提示的局限性,这种提示能直接从老照片中提取细粒度的语义信息,有助于消除老照片中固有的颜色偏差。在合成数据集和真实数据集上的实验结果表明,我们的方法优于现有的最先进上色方法,包括闭源商业模型,能够生成高质量且生动的上色效果。
作者:I-Hsiang Chen, Isma Hadji, Enrique Sanchez, Adrian Bulat, Sy-Yen Kuo, Radu Timofte, Georgios Tzimiropoulos, Brais Martinez
图像复原旨在从受恶劣天气、模糊或低光照等各类因素降质的输入图像中恢复出高质量图像。尽管近期相关研究在单一或统一复原任务中已取得显著进展,但在处理未知或复合降质问题时,仍存在泛化能力有限、效率低下的问题。为解决这些局限,我们提出RAR方法,即复原-评估-迭代流程,该方法将图像质量评估(IQA)与图像复原(IR)整合至统一框架,以迭代高效的方式实现高质量图像复原。具体而言,我们设计了一套完全在隐空间中运行的复原流程,联合完成降质类型识别、图像复原与质量验证。所构建模型可实现端到端完整训练,并支持一体化评估与复原方案,动态调整复原过程。此外,将图像质量评估与图像复原紧密融合为统一模型,最大程度降低了二者独立部署(如图像及/或文本解码阶段)时通常产生的延迟与信息损失。大量实验表明,该方法在单一、未知及复合降质场景下均能持续提升效果,从而树立了全新的行业最优水准。
作者:Haoyue Liu, Jinghan Xu, Luxin Feng, Hanyu Zhou, Haozhi Zhao, Yi Chang, Luxin Yan
在极低光照条件下对动态场景进行高质量成像极具挑战性。光子匮乏会引发严重噪声与纹理丢失,导致图像质量大幅下降。事件相机具备120分贝的高动态范围以及对运动的高灵敏度,能够为保留细微纹理提供关键线索,从而成为传统相机的有力补充。然而,现有大多数方法侧重于从事件数据中恢复纹理,却很少关注图像噪声或事件本身的固有噪声,这最终阻碍了光子稀缺环境下像素的精准重建。本研究提出NEC-Diff,这是一种基于扩散模型的事件-RAW混合成像新框架,可从强噪声信号中提取可靠信息,以重建精细的场景结构。该框架基于两大核心思路:(1)结合RAW图像的线性光响应特性与事件的亮度变化本质,构建物理驱动约束,实现稳健的双模态去噪;(2)依据去噪结果动态估计两种模态的信噪比,引导自适应特征融合,进而在扩散过程中注入可靠线索,实现高保真视觉重建。此外,我们构建了REAL(低光照下采集的RAW与事件数据)数据集,该数据集包含47800组在0.001–0.8勒克斯光照条件下获取的像素对齐低光照RAW图像、事件数据以及高质量参考图像。大量实验验证了NEC-Diff在极暗环境下的优越性能。相关项目内容可通过此https链接获取。
作者:Amirhossein Kazerouni, Maitreya Suin, Tristan Aumentado-Armstrong, Sina Honari, Amanpreet Walia, Iqbal Mohomed, Konstantinos G. Derpanis, Babak Taati, Alex Levinshtein
近年来,图像复原领域的研究进展使得基于参考的人脸复原模型(Ref-FR)能够从低质退化输入中高保真地还原出人脸。然而,这类方法仅聚焦于人脸区域,忽略了包含人体与背景在内的整幅画面的退化问题,从而限制了其实际应用价值。与此同时,全景复原方法往往完全忽视退化线索,导致求解欠定,并产生视觉伪影。 在本文中,我们提出 Face2Scene 这一两阶段复原框架,该框架将人脸作为感知先验,用以估计退化程度并指导整幅图像的复原。给定一幅退化图像与一个或多个身份参考图,我们首先利用 Ref-FR 模型重建出高质量的人脸细节。通过复原后的人脸与退化人脸的配对,我们提取出源自人脸的退化编码,该编码可表征噪声、模糊、压缩等退化属性,随后将其转换为多尺度的退化感知令牌。这些令牌作为条件输入到扩散模型中,实现对人体、背景等全景内容的一步式复原。 大量实验结果表明,所提方法相较于当前最优方法具有更优异的复原效果。
作者:Zihan Zheng, Zhaoyang Jia, Naifu Xue, Jiahao Li, Bin Li, Zongyu Guo, Xiaoyi Zhang, Zhenghao Chen, Houqiang Li, Yan Lu
近年来,生成式视频编解码器(GVC)的最新进展通常将视频编码为二维隐式网格,并采用高容量生成式解码器进行重建。然而,该范式在充分利用时空冗余方面仍存在两大关键挑战:在空间上,二维隐式网格因其刚性结构不可避免地保留帧内冗余,相邻块之间仍具有高度相似性,进而需要更高的码率。在时间上,二维隐式网格难以以紧凑且语义连贯的方式对长期相关性进行建模,因为它阻碍了帧间公共内容的聚合。为解决这些局限,我们提出基于一维隐式表示的生成式视频压缩方法(GVC1D)。GVC1D将视频数据编码为极度紧凑的一维隐式令牌,同时基于短期和长期上下文进行条件建模。摆脱刚性的二维空间对应关系后,这些一维隐式令牌可自适应关注语义区域,并自然实现令牌精简,从而降低空间冗余。此外,所提出的一维记忆模块能够在保持低计算开销的同时,提供语义丰富的长期上下文,进一步降低时间冗余。实验结果表明,GVC1D取得了更优的压缩性能:在HEVC B类数据集上,基于LPIPS指标实现60.4%的码率降低,基于DISTS指标实现68.8%的码率降低,超越了现有视频压缩方法。 网址:此网址
作者:Cao Thien Tan, Phan Thi Thu Trang, Do Nghiem Duc, Ho Ngoc Anh, Hanyang Zhuang, Nguyen Duc Dung
混合CNN-Transformer架构在图像超分辨率任务中取得了优异的结果,但扩大注意力窗口或卷积核会显著增加计算成本,这限制了其在资源受限设备上的部署。我们提出了UCAN,这是一种轻量级网络,它将卷积和注意力机制相结合,以高效地扩大有效感受野。UCAN将基于窗口的空间注意力与刺猬注意力(Hedgehog Attention)机制相结合,以同时建模局部纹理和长距离依赖关系,并引入了一个基于蒸馏的大核模块,在不增加大量计算的情况下保留高频结构。此外,我们采用跨层参数共享来进一步降低复杂度。在Manga109()上,UCAN-L仅用48.4G MACs就达到了31.63 dB的峰值信噪比(PSNR),超过了近期的轻量级模型。在BSDS100上,UCAN达到了27.79 dB,性能优于那些模型规模大得多的方法。大量实验表明,UCAN在精度、效率和可扩展性之间实现了出色的平衡,使其非常适合实际的高分辨率图像恢复任务。
作者:Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su
基于学习的真实图像去雾方法已取得显著进展,但在多样的真实雾霾场景中仍面临适应性挑战。这些挑战主要源于缺乏针对无标记数据的有效无监督机制,以及全模型微调成本高昂。为解决这些挑战,我们提出了雾到清晰文本导向损失函数,该函数利用CLIP的跨模态能力,将真实图像去雾重新表述为潜在空间中的语义对齐问题,从而在没有参考图像的情况下提供明确的无监督跨模态指导。此外,我们引入了双层定位LoRA(BiLaLoRA)策略,该策略既学习LoRA参数,又自动搜索注入层,实现对关键网络层的针对性适配。大量实验表明,在多个真实世界去雾基准测试中,我们的方法优于最先进的方法。代码公开于该https网址。