Talk·短课-底层视觉领域学术报告-熵视

已结束

2026-04-20 ~ 2026-04-20

短课-第4期｜模拟雾合成的代码教程——深度估计版本

课程依托Deep Anything预训练深度估计模型，生成贴合真实场景的深度图，支持GPU/CPU双设备，讲解透射率优化与雾效融合技巧，搭配批量处理功能，高效生成高真实度雾效配对数据，解决人工深度图场景偏差问题。

短课-第4期｜模拟雾合成的代码教程——深度估计版本

课程依托Deep Anything预训练深度估计模型，生成贴合真实场景的深度图，支持GPU/CPU双设备，讲解透射率优化与雾效融合技巧，搭配批量处理功能，高效生成高真实度雾效配对数据，解决人工深度图场景偏差问题。

了解更多

已结束

2026-04-20 ~ 2026-04-20

短课-第3期｜模拟雾合成的代码教程——大气散射模型

课程讲解如何用Python与OpenCV，基于大气散射模型从零构建雾效合成脚本，手动定义雾效核心参数、生成“中心远、边缘近”的深度图，结合透射率计算与批量处理功能，快速生成雾效配对训练数据集，兼顾实操与理论，轻量易运行。

短课-第3期｜模拟雾合成的代码教程——大气散射模型

课程讲解如何用Python与OpenCV，基于大气散射模型从零构建雾效合成脚本，手动定义雾效核心参数、生成“中心远、边缘近”的深度图，结合透射率计算与批量处理功能，快速生成雾效配对训练数据集，兼顾实操与理论，轻量易运行。

了解更多

已结束

2026-04-09 ~ 2026-04-09

短课-第2期｜模拟雨条纹合成的代码教程

本课程详细介绍了如何利用 Python 与 OpenCV 库从零构建一个基于物理建模的雨条纹合成脚本。课程的核心逻辑围绕“噪声生成 -> 运动模糊拉伸 -> 物理加权融合”三个关键阶段展开。首先，通过阈值过滤随机噪声点来控制雨滴的“种子”密度；随后，利用对角线卷积核与仿射变换模拟雨滴在不同风向下的运动轨迹与模糊感；最后，采用 Alpha Blending（阿尔法融合）算法模拟雨滴对背景的半透明遮挡与光照叠加效果。整个流程不仅教会大家如何实现自动化的数据集增广，更能让学员深度理解底层图像矩阵运算与物理退化模型的对应关系。

短课-第2期｜模拟雨条纹合成的代码教程

本课程详细介绍了如何利用 Python 与 OpenCV 库从零构建一个基于物理建模的雨条纹合成脚本。课程的核心逻辑围绕“噪声生成 -> 运动模糊拉伸 -> 物理加权融合”三个关键阶段展开。首先，通过阈值过滤随机噪声点来控制雨滴的“种子”密度；随后，利用对角线卷积核与仿射变换模拟雨滴在不同风向下的运动轨迹与模糊感；最后，采用 Alpha Blending（阿尔法融合）算法模拟雨滴对背景的半透明遮挡与光照叠加效果。整个流程不仅教会大家如何实现自动化的数据集增广，更能让学员深度理解底层图像矩阵运算与物理退化模型的对应关系。

了解更多

已结束

2026-04-01 ~ 2026-04-01

短课-第1期｜AutoDL云服务器教程-以DRSformer算法为例

课程介绍了如何利用AutoDL云平台和MobaXterm远程工具高效运行代码，以DSRformer项目为例，详细说明了整个流程。流程从账号注册开始，通过注册获得余额后，租赁了带有VGPU32G的服务器，并根据需要进行扩容。使用MobaXterm远程工具通过SSH指令登录服务器，上传代码与数据集至服务器的TMP文件夹。针对DSRformer项目，下载代码和训练集，修改训练命令，确保设定正确的GPU数量，利用后台守护进程使训练任务在关闭终端后仍能持续进行。整个流程教会大家如何实现通过远程连接和后台守护进程高效、不受本地操作影响的代码训练，提高代码运行和训练的效率。

短课-第1期｜AutoDL云服务器教程-以DRSformer算法为例

课程介绍了如何利用AutoDL云平台和MobaXterm远程工具高效运行代码，以DSRformer项目为例，详细说明了整个流程。流程从账号注册开始，通过注册获得余额后，租赁了带有VGPU32G的服务器，并根据需要进行扩容。使用MobaXterm远程工具通过SSH指令登录服务器，上传代码与数据集至服务器的TMP文件夹。针对DSRformer项目，下载代码和训练集，修改训练命令，确保设定正确的GPU数量，利用后台守护进程使训练任务在关闭终端后仍能持续进行。整个流程教会大家如何实现通过远程连接和后台守护进程高效、不受本地操作影响的代码训练，提高代码运行和训练的效率。

了解更多

已结束

2026-02-08 ~ 2026-02-08

Talk-第5期直播回放 | INSAIT顾津锦: Agentic AI For Visual Media

深度生成模型的最新进展极大地推动了图像生成、增强和修复技术的发展。本次演讲的第一部分介绍了智能图像处理模型的一系列发展，涵盖图像生成、低级编辑和修复。演讲从早期的超分辨率和图像修复方法入手，追溯了从特定任务解决方案向更统一、更具通用性框架的演变过程，最终聚焦于从SUPIR到HYPIR的最新进展，这些进展捕捉了丰富的视觉先验知识，并支持广泛的低级视觉任务。演讲的第二部分将重点从单个模型转向系统级设计，探讨低级视觉如何向视觉媒体的智能体人工智能（Agentic AI）演进。虽然单个模型在独立运行时表现出色，但现实世界的视觉工作流程需要语义理解、任务分解、自适应决策和灵活的工具组合。演讲勾勒了一个智能体低级视觉系统的愿景，在该系统中，人工智能代理将多个生成和处理模型进行协调，以实现自主的视觉推理和编辑。最后，讨论了大型语言模型和多模态智能体在构建智能、可控且可扩展的视觉媒体系统中所发挥的作用。

Talk-第5期直播回放 | INSAIT顾津锦: Agentic AI For Visual Media

深度生成模型的最新进展极大地推动了图像生成、增强和修复技术的发展。本次演讲的第一部分介绍了智能图像处理模型的一系列发展，涵盖图像生成、低级编辑和修复。演讲从早期的超分辨率和图像修复方法入手，追溯了从特定任务解决方案向更统一、更具通用性框架的演变过程，最终聚焦于从SUPIR到HYPIR的最新进展，这些进展捕捉了丰富的视觉先验知识，并支持广泛的低级视觉任务。演讲的第二部分将重点从单个模型转向系统级设计，探讨低级视觉如何向视觉媒体的智能体人工智能（Agentic AI）演进。虽然单个模型在独立运行时表现出色，但现实世界的视觉工作流程需要语义理解、任务分解、自适应决策和灵活的工具组合。演讲勾勒了一个智能体低级视觉系统的愿景，在该系统中，人工智能代理将多个生成和处理模型进行协调，以实现自主的视觉推理和编辑。最后，讨论了大型语言模型和多模态智能体在构建智能、可控且可扩展的视觉媒体系统中所发挥的作用。

了解更多

已结束

2026-02-01 ~ 2026-02-01

Talk-第4期直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

具身智能正从“实验室演示”走向“真实世界服役”，2025 年《政府工作报告》首次把具身智能列入未来产业。然而，产业落地遭遇最后一公里的落地瓶颈：真实世界的雨雾、暗光、抖动、带宽抖动等底层视觉失真，均会导致抓取失败或交互迟滞。学术界现有的底层视觉算法主要为“以人为中心”的范式。考虑到人类与机器视觉系统的巨大差异，传统的底层视觉信号处理方法主要面向人类视觉感知，在具身任务上尚不具备可靠性。人类对图像的考量的因素主要为亮度、色度、对比度等，而非操作与导航等下游任务的表现，其结果难以满足具身智能在动态、多任务场景下的特殊需求。因此，有必要研究以具身智能为中心的压缩编码、图像增强、以及质量评价等底层视觉信号处理算法，将具身智能从理想的实验室环境，推广至真实世界的复杂失真中。

Talk-第4期直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

具身智能正从“实验室演示”走向“真实世界服役”，2025 年《政府工作报告》首次把具身智能列入未来产业。然而，产业落地遭遇最后一公里的落地瓶颈：真实世界的雨雾、暗光、抖动、带宽抖动等底层视觉失真，均会导致抓取失败或交互迟滞。学术界现有的底层视觉算法主要为“以人为中心”的范式。考虑到人类与机器视觉系统的巨大差异，传统的底层视觉信号处理方法主要面向人类视觉感知，在具身任务上尚不具备可靠性。人类对图像的考量的因素主要为亮度、色度、对比度等，而非操作与导航等下游任务的表现，其结果难以满足具身智能在动态、多任务场景下的特殊需求。因此，有必要研究以具身智能为中心的压缩编码、图像增强、以及质量评价等底层视觉信号处理算法，将具身智能从理想的实验室环境，推广至真实世界的复杂失真中。

了解更多

已结束

2026-01-08 ~ 2026-01-08

Talk-第3期直播预告 | 新加坡国立大学金晔莹: AIGC 时代的游戏宣发从生成到落地

基于生成式AI (AIGC)，构建覆盖全英雄生图、英雄宣发与端内海报生成的 AIUGC 系统，探索 AIGC 在游戏宣发中的落地与创新实践。 1.AIUGC 全英雄线上生图 2.AIPGC 英雄宣发 3.AIUGC 游戏端内生海报

Talk-第3期直播预告 | 新加坡国立大学金晔莹: AIGC 时代的游戏宣发从生成到落地

基于生成式AI (AIGC)，构建覆盖全英雄生图、英雄宣发与端内海报生成的 AIUGC 系统，探索 AIGC 在游戏宣发中的落地与创新实践。 1.AIUGC 全英雄线上生图 2.AIPGC 英雄宣发 3.AIUGC 游戏端内生海报

了解更多

已结束

2025-12-30 ~ 2025-12-30

Talk-第2期直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

让AI智能体真正融入工作与生活——从工具到伙伴的范式革命。核心理念：AI不应只是工具，而应成为理解你、协助你的智能伙伴，在人工智能飞速发展的今天，我们面临一个关键问题：如何让AI真正融入用户的工作与生活，而不仅仅停留在"工具"层面？我的研究聚焦于多模态垂类智能体的设计与实现，致力于通过AI智能体改变传统的交互方式、提升工作范式、重塑用户体验。从两个维度突破传统AI应用的边界，传统AI应用往往是"单点式"的——用户需要明确知道使用什么工具、如何调参、怎样组合功能。这种模式将复杂度转嫁给了用户，AI仍然是"被动的工具"。而智能体范式的核心在于：让AI主动理解意图、自主推理决策、协调多种能力，成为用户的"智能协作伙伴"。

Talk-第2期直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

让AI智能体真正融入工作与生活——从工具到伙伴的范式革命。核心理念：AI不应只是工具，而应成为理解你、协助你的智能伙伴，在人工智能飞速发展的今天，我们面临一个关键问题：如何让AI真正融入用户的工作与生活，而不仅仅停留在"工具"层面？我的研究聚焦于多模态垂类智能体的设计与实现，致力于通过AI智能体改变传统的交互方式、提升工作范式、重塑用户体验。从两个维度突破传统AI应用的边界，传统AI应用往往是"单点式"的——用户需要明确知道使用什么工具、如何调参、怎样组合功能。这种模式将复杂度转嫁给了用户，AI仍然是"被动的工具"。而智能体范式的核心在于：让AI主动理解意图、自主推理决策、协调多种能力，成为用户的"智能协作伙伴"。

了解更多

已结束

2025-12-22 ~ 2025-12-22

Talk-第1期直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

近些年，随着一系列基础大模型的迅速发展，计算机视觉研究正从任务特定模型迈向统一的通用视觉智能体现。在底层视觉领域，传统的图像复原与增强任务长期依赖各自独立的网络设计，而基础模型的提出，使多任务协同、多退化学习成为可能。报告将重点介绍图像复原基础模型以数据缩放定量为核心的FoundIR-v1和以数据混合定律为核心的FoundIR-v2，并展望通用底层视觉基础模型的未来发展方向和研究挑战。最后，报告将介绍底层视觉社区服务平台的建设工作规划及新功能彩蛋预告。

Talk-第1期直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

近些年，随着一系列基础大模型的迅速发展，计算机视觉研究正从任务特定模型迈向统一的通用视觉智能体现。在底层视觉领域，传统的图像复原与增强任务长期依赖各自独立的网络设计，而基础模型的提出，使多任务协同、多退化学习成为可能。报告将重点介绍图像复原基础模型以数据缩放定量为核心的FoundIR-v1和以数据混合定律为核心的FoundIR-v2，并展望通用底层视觉基础模型的未来发展方向和研究挑战。最后，报告将介绍底层视觉社区服务平台的建设工作规划及新功能彩蛋预告。

了解更多

短课-第4期｜模拟雾合成的代码教程——深度估计版本

短课-第4期｜模拟雾合成的代码教程——深度估计版本

短课-第3期｜模拟雾合成的代码教程——大气散射模型

短课-第3期｜模拟雾合成的代码教程——大气散射模型

短课-第2期｜模拟雨条纹合成的代码教程

短课-第2期｜模拟雨条纹合成的代码教程

短课-第1期｜AutoDL云服务器教程-以DRSformer算法为例

短课-第1期｜AutoDL云服务器教程-以DRSformer算法为例

Talk-第5期 直播回放 | INSAIT顾津锦: Agentic AI For Visual Media

Talk-第5期 直播回放 | INSAIT顾津锦: Agentic AI For Visual Media

Talk-第4期 直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

Talk-第4期 直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

Talk-第3期 直播预告 | 新加坡国立大学金晔莹: AIGC 时代的游戏宣发 从生成到落地

Talk-第3期 直播预告 | 新加坡国立大学金晔莹: AIGC 时代的游戏宣发 从生成到落地

Talk-第2期 直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

Talk-第2期 直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

Talk-第1期 直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

Talk-第1期 直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

Talk-第5期直播回放 | INSAIT顾津锦: Agentic AI For Visual Media

Talk-第5期直播回放 | INSAIT顾津锦: Agentic AI For Visual Media

Talk-第4期直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

Talk-第4期直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

Talk-第3期直播预告 | 新加坡国立大学金晔莹: AIGC 时代的游戏宣发从生成到落地

Talk-第3期直播预告 | 新加坡国立大学金晔莹: AIGC 时代的游戏宣发从生成到落地

Talk-第2期直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

Talk-第2期直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

Talk-第1期直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

Talk-第1期直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望