FORUMS

多模态大模型前沿论坛

多模态大模型前沿论坛聚焦多模态人工智能的前沿课题,探讨如何通过多模态大模型与基础模型,从文本、图像、视频等多模态数据中高效理解、生成与优化内容,以支持多模态感知、智能交互和复杂认知任务。凭借强大的感知、推理与生成能力,以及通用性和领域适配性,多模态大模型已在教育、医疗、媒体、金融等领域展现广泛应用潜力,成为推动产业创新和技术发展的核心动力。论坛汇聚学术界顶尖专家,分享最新研究成果、应用实践与发展趋势,涵盖跨模态生成、表征学习、鲁棒性与安全性、复杂场景推理等方向,深入解析技术挑战与创新机遇。论坛旨在促进多模态人工智能理论与实践的交流与融合,为未来智能系统的高效应用提供前沿指导和策略参考。

图片
报告嘉宾

凌海滨

西湖大学教授

图片

简介:凌海滨教授于1997年和2000年分别获北京大学学士和硕士学位,2006年获美国马里兰大学帕克分校博士学位。其职业经历包括:微软亚洲研究院助理研究员(2000–2001)、加州大学洛杉矶分校博士后研究员(2006–2007)、西门子研究院科学家(2007–2008)。2008年起任教于天普大学,先后担任助理教授(2008–2014)和副教授(2014–2019)。2019至2025年任纽约州立大学石溪分校Empire Innovation教授,2025年加入西湖大学任人工智能讲席教授。研究领域涵盖计算机视觉、增强现实、医学图像分析、机器学习及AI for Science。曾获ACM UIST最佳学生论文奖(2003)、美国自然科学基金CAREER奖(2014)、雅虎教授研究发展奖(2019)、亚马逊机器学习研究奖(2019)及IEEE VR最佳期刊论文奖(2021)。现任/曾任《IEEE模式分析与机器智能汇刊》(PAMI)、《IEEE可视化与计算机图形学汇刊》(TVCG)、《计算机视觉与图像理解》(CVIU)及《模式识别》(PR)等期刊编委,并长期担任CVPR、ICCV、ECCV等会议领域主席。现为IEEE会士。

报告题目:Visual Intelligence for Enhancing Optical Coherence Tomography Imagery

报告摘要:The rapid advancement of imaging techniques and artificial intelligence has revolutionized research and applications in visual intelligence (VI). In this talk, I will present our recent studies on improving Optical Coherence Tomography (OCT) imagery, a pivotal technology with extensive applications in both preclinical and clinical diagnoses. While recent advancements in machine learning have shown promising progress in OCT, current solutions still face significant challenges, such as (1) the absence of accurate ground truth data typically required for supervised training and (2) the difficulty of integrating nuanced yet informative raw signals. In this talk, I will introduce our recent studies aimed at addressing these challenges to improve OCT imagery. First, I will present a self-supervised approach for removing 2D bulk motion artifacts in Optical Coherence Tomography Angiography (OCTA), followed by a self-supervised 3D OCTA image denoising framework. Additionally, I will discuss our work on self-supervised 3D skeleton completion for data extracted from Optical Coherence Doppler Tomography (ODT), as well as our latest exploration of sparse ODT reconstruction using alternative state-space model and attention mechanism.

韩锴

香港大学助理教授

图片

简介:韩锴,香港大学计算与数据科学学院助理教授,IEEE 高级会员,领导香港大学Visual AI Lab。其主要研究方向涵盖计算机视觉、机器学习与人工智能,当前聚焦于开放世界学习、3D 视觉、生成式人工智能、基础模型及相关前沿领域。此前,他曾在谷歌研究院(英国&美国)担任研究员,在英国布里斯托大学计算机科学系担任助理教授,并在英国牛津大学著名的VGG组担任博士后研究员。他在香港大学计算机科学系获得博士学位。在攻读博士期间,他还在法国巴黎Inria和巴黎高等师范学院(ENS)的WILLOW团队从事研究工作。他在顶级学术期刊和会议,如TPAMI, IJCV, TIP, CVPR, ICCV, ECCV, NeurIPS, ICLR等发表论文70余篇。主持过多项政府科研项目,包括香港研究资助局–优配研究金(RGC GRF)、香港研究资助局–杰出青年学者计划(RGC ECS)、国家自然科学基金青年项目等;以及多项工业界科研合作项目,包括CCF-腾讯犀牛鸟基金等。入选人工智能领域全球前2%顶尖科学家,并担任计算机视觉和机器学习旗舰会议的领域主席,如CVPR, ECCV, ICLR等。

报告题目:Taming foundation models for visual concept learning and 4D modeling

报告摘要:In this talk, I will present our recent work on leveraging foundation models for open-world visual concept learning and 4D modeling. First, I will discuss how we repurpose vision foundation models for continual category discovery by learning a flexible Gaussian mixture prompt pool. Next, I will introduce our approach to automatically extracting visual concepts, both at the object and intrinsic levels, using Stable Diffusion models. Finally, I will share our work on high-quality 4D generation by effectively harnessing video diffusion models, enabling temporally and spatially consistent content creation with 4D Gaussian splatting.

陈隆 

香港科技大学助理教授

图片

简介:陈隆,香港科技大学计算机科学及工程学系助理教授、博士生导师。主要研究方向为计算机视觉、多媒体计算、机器学习等。以第一/通讯作者身份发表多篇CCF-A类期刊和会议,谷歌学术引用共7000余次。目前担任期刊IEEE Transactions on Image Processing (TIP) 和ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 编委,并多次担任CCF-A类会议领域主席,包括CVPR、NeurIPS、ICML、ACMMM、AAAI等。主持多项科研项目包括香港RGC优配研究金(GRF)、香港RGC杰出青年学者计划(ECS)、和国家自然科学基金青年基金等。

报告题目:The Interplay of Understanding and Generation in Multimodal AI

报告摘要:The fields of multimodal understanding and generation have advanced independently, yet their true potential lies in synergy. This talk explores the critical interplay between these two capabilities. I will first outline the distinct challenges faced by modern multimodal understanding models (e.g., reasoning, hallucination) and visual generation models (e.g., controllability). I will then present our recent work that leverages generative models to enhance perception tasks, demonstrating that generation can be a powerful tool for robust understanding. Finally, I will discuss our vision and initial steps towards a unified model architecture capable of seamless both-tasking, arguing that this convergence is the next frontier for general-purpose multimodal intelligence.

傅朝友

南京大学助理教授、研究员

图片

简介:傅朝友,南京大学研究员、助理教授、博导,入选中国科协“青年人才托举工程”。研究方向为多模态智能,谷歌学术总引用5000余次,一作单篇引用破千次,作为Owner的开源项目累计获得2万余次GitHub Stars,代表性工作包括VITA系列多模态大模型,MME系列评测基准和Awesome-MLLM社区等。担任CSIG青工委委员、CCF-AI执行委员、ICLR领域主席。曾获中科院院长特别奖、世界人工智能大会WAIC云帆奖、IEEE Biometrics Council最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、小米青年学者-科技创新奖、南京大学紫金学者、CVPR-22023杰出审稿人等。

报告题目:多模态大语言模型研究与展望

报告摘要:近年来,多模态大语言模型因其强大的泛化和推理能力,受到了国内外学者以及工业界的广泛关注。本报告将简要回顾多模态大语言模型的发展历程,并围绕多模态大语言模型的数据、评测、架构、训练和应用等方面展开阐述,探讨多模态大语言模型中存在的问题以及未来的发展方向。

杨思蓓 

中山大学副教授

图片

简介:杨思蓓,中山大学计算机学院副教授,博士生导师,逸仙学者。分别于2020年和2016年在香港大学和浙江大学取得博士和学士学位。其主要研究领域为跨模态视觉感知、理解、生成与交互。迄今为止在TPAMI、CVPR、ICCV等期刊或会议发表CCF A类/中科院一区论文50余篇,其中以第一作者和通讯作者发表CCF A类论文近40余篇,引用2500余次。入选全球前2%顶尖科学家榜单。主持国家自然科学基金面上项目、青年项目,以及浦江人才计划、上海领军人才海外计划等。担任ICCV、ICLR等顶会领域主席。

报告题目:多模态大模型机制洞察驱动鲁棒表征与生成

报告摘要:本报告从多模态大模型 LVLM 的内部机制出发,洞察其表征与生成的缺陷,探讨鲁棒且高效的提升路径。首先,从外部分析 LVLM 视觉编码器 ViT 的表征局限,结合内部对视觉信号处理机制的理解,揭示类人的视觉功能层次,实现内外协同以增强视觉-语言表征能力。其次,揭示单步组合型推理、短回答与长回答中幻觉现象的差异,从而全面提升不同上下文下的生成鲁棒性。最后,提升 LVLM 在现实环境中的复杂推理能力,包括多模态深度研究的初步尝试以及动态环境下的主动探索与交互。


论坛组织者

李冠彬

中山大学教授

图片

简介:李冠彬,中山大学计算机学院教授,博士生导师,国家优秀青年基金获得者。主要研究领域为人工智能领域的图像视频内容理解与生成。迄今为止累计发表计算机学会A类/中科院一区论文 200 余篇,谷歌学术引用近18000次,入选全球前0.05%顶尖科学家榜单。曾获得中国图象图形学学会青年科学家奖、吴文俊人工智能优秀青年奖、ACM 中国新星提名奖、中国图象图形学学会科学技术一等奖、ICCV2019 最佳论文提名奖、CVPR2024最佳论文候选、ICMR2021 最佳海报论文奖等荣誉。主持了包括国家自然科学基金优青、面上、青年、广东省杰青、 CCF-腾讯犀牛鸟科研基金、CCF-快手科研基金、华为科研合作基金、美团北斗科研合作基金等 10 多项科研项目。担任广东省大数据分析与处理重点实验室副主任、广东省图象图形学会计算机视觉专委会主任、中国图象图形学学会青工委副秘书长、中国计算机学会青年科技论坛广州主席、广州计算机学会副秘书长。担任人工智能领域顶级会议CVPR、ECCV、AAAI等领域主席或高级程序委员,获得8项人工智能领域国际顶级会议竞赛冠军,研究成果应用于智能交通分析、智慧医疗诊断、数字人驱动的智慧教育等。

吴庆耀

华南理工大学教授

图片

简介:吴庆耀,华南理工大学软件学院教授、博士生导师,入选中组部万人计划青年拔尖人才;曾担任华南理工大学软件学院副院长,现担任大数据与智能机器人教育部重点实验室副主任,广州市机器人软件及复杂信息处理重点实验室主任,Service Oriented Computing and Applications 与 Software Impacts 期刊副主编,IEEE 电子商务工程国际会议2021年大会主席与 2022 年及2023 年程序主席,连续多年入选美国斯坦福大学发布的全球前 2%顶尖科学家榜单;主持了国家自然面上、青年、广东省新一代人工智能重点研发、广东省特支计划等 10 多项科研项目。主要研究方向为大模型垂域应用与计算机视觉,迄今为止发表 CCF A 类/中科院一区论文近百篇。获 2025 教育部自然科学奖二等奖、2018 年度广东省自然科学奖二等奖、2016 年度深圳市自然科学奖二等奖。

杨思蓓

中山大学副教授

图片

简介:杨思蓓,中山大学计算机学院副教授,博士生导师,逸仙学者。分别于2020年和2016年在香港大学和浙江大学取得博士和学士学位。其主要研究领域为跨模态视觉感知、理解、生成与交互。迄今为止在TPAMI、CVPR、ICCV等期刊或会议发表CCF A类/中科院一区论文50余篇,其中以第一作者和通讯作者发表CCF A类论文近40余篇,引用2500余次。入选全球前2%顶尖科学家榜单。主持国家自然科学基金面上项目、青年项目,以及浦江人才计划、上海领军人才海外计划等。担任ICCV、ICLR等顶会领域主席。

声纹识别论坛

声纹识别论坛是一个专注于探讨声纹建模技术及其应用的学术交流平台。本次论坛聚焦于该领域的创新突破,邀请了五位在声纹生物特征技术领域具有深厚造诣的专家。

南方科技大学的王中秋副教授将探讨一种基于人工起始提示的目标说话人提取方法(Listen to Extract),该方法以其极简的结构和高效的性能,为解决多说话人场景下的语音提取挑战提供了全新思路。 南京大学的王帅副教授将分享其团队在面向真实场景的目标语音提取算法上的研究工作,旨在提升系统的鲁棒性,并介绍了为该领域研究提供基准与平台的开源工具包WeSep。 昆山杜克大学的苗晓晓助理教授将回顾语音匿名化技术的发展历程,结合VoicePrivacy挑战赛,深入分析该技术在多语言、多说话人场景下的最新进展、挑战与未来方向。 广东技术师范大学的杨继臣教授将介绍其在回放语音检测方面的创新研究,提出基于β-阶谱线能量加权的新型特征,显著提升了检测系统的区分能力与性能。 厦门大学的洪青阳教授将分享其在声纹识别噪声标签过滤方面的研究,通过基于向量相似度和高斯混合模型的样本选择策略,有效解决了训练数据中的噪声问题,显著降低了模型的等错误率。

期待本次论坛能够为与会者提供一个交流和学习的平台,促进专家学者之间的深入合作和学术交流,推动声纹识别技术的进步和产业化进程。

图片
报告嘉宾

王中秋

南方科技大学副教授

图片

简介:王中秋,博士,国家级青年人才(海外),现任南方科技大学计算机科学与工程系副教授,曾在美国三菱电机研究院任访问研究员、在卡内基梅隆大学语言技术研究所任博士后研究员。王博士的研究课题集中于人工智能和计算听觉中对于声学信号的感知、理解与生成,迄今已在人工智能、语音及音频信号处理领域发表顶级期刊和会议论文70余篇,曾获信号处理旗舰会议ICASSP 2018最佳学生论文奖。详见https://zqwang7.github.io/。

报告题目:Listen to Extract:基于人工起始提示的目标说话人提取方法

报告摘要:在多说话人语音混合的场景中,如何快速准确地提取目标说话人始终是语音处理的核心挑战。现有方法通常依赖定长或变长说话人表征,但往往存在说话人表征与混合信号表征不匹配或计算复杂度高的问题。我们提出一种极其简洁但高效的目标说话人提取方法:Listen to Extract (LExt)。其核心思想是将目标说话人注册语音片段直接拼接到混合语音之前,人为地构造一个“语音起始提示”,让机器先听一听目标说话人是谁,再去完成提取任务。由于拼接后的语音在同一网络中处理,LExt无需额外的说话人表征提取模块。我们在 WSJ0-2mix、WHAM!和WHAMR!等多个公开数据集上进行了验证,实验结果表明,LExt在保持极简结构的同时,显著优于现有基线系统,达到了当前最优的目标说话人提取性能。此外,研究还表明,LExt 在仅需0.25秒甚至更短的注册语音条件下,仍能取得较高的提取效果,展示了其在实际应用中的潜力。

王帅

南京大学副教授

图片

简介:王帅,南京大学智能科学与技术学院副教授,特聘研究员,博士生导师。专注于智能音频信号处理研究,涵盖语音、音频事件及音乐等多模态声学信号。2020年于上海交通大学获博士学位。曾任深圳市大数据研究院副研究员;亦曾任腾讯光子工作室高级研究员,领导团队负责面向游戏场景的语音技术的研发与应用。荣获VoxSRC2019、DIHARD2019等国际竞赛冠军及ISCSLP2024最佳论文、最佳学生论文奖。发起开源工具WeSpeaker与WeSep,提供的预训练模型在HuggingFace平台下载量月均超千万次,在学术界与工业界获得广泛应用。

报告题目:面向真实场景的目标语音提取算法

报告摘要:目标说话人提取(Target Speaker Extraction)技术因其广阔的应用前景,已成为语音处理领域的研究热点。然而,当前研究成果与真实应用场景的性能需求之间仍存在显著差距。为弥合这一鸿沟,本报告将阐述我们为提升系统鲁棒性所开展的算法研究工作。此外,我们构建了一套面向真实场景的TSE测试集Real-T,并发布了专为该任务设计的开源工具包WeSep,旨在为该领域的进一步研究提供坚实的基准与便利的平台。

苗晓晓

昆山杜克大学助理教授

图片

简介:苗晓晓,现任昆山杜克大学自然与应用科学学部助理教授。2015-2021中国科学院声学研究所,中国科学院大学博士,2021-2023日本国立信息学研究所博士后,2023-2025新加坡理工大学信息处理学院助理教授。主要研究方向包括语音隐私保护,说话人及语种识别。先后主持日本自然科学基金,新加坡教育部科学研究基金。在国内外期刊会议上发表论文三十余篇。参与组织 voiceprivacy challenge 2022,2024 及 attacker challenge。作为第一作者的研究成果获 odyssey2022,NCMMSC2017 最佳论文提名奖,MIT MGB-5 Challenge 2019 阿拉伯方言国际竞赛第二名。其部分语音隐私保护相关研究成果已成功应用于日本广播电台,转化为专利。

报告题目:从VoicePrivacy Challenge看语音匿名化技术的发展

报告摘要:语音承载着丰富的个人隐私信息,如年龄、性别和口音等,这些特征可能间接揭示说话人的身份,从而引发语音隐私保护的需求。自 2020 年起,两年一度举办的 VoicePrivacy 挑战赛极大地推动了说话人匿名化技术的快速发展。本报告将回顾 VoicePrivacy 挑战赛的发展历程,重点介绍在多语言、多说话人及真实应用场景下的最新匿名化研究进展,并进一步分析该技术面临的主要挑战与未来发展方向。


杨继臣

广东技术师范大学教授

图片

简介:杨继臣,2010年博士毕业于华南理工大学毕业,研究方向为语音信号处理。随后在华南理工大学、新加坡资讯通讯研究院和新加坡国立大学跟随贺前华教授、Kong-Aik Lee和李海洲教授做博士后研究。2022年加入广东技术师范大学网络空间安全学院,现为广东技术师范大学教授、硕士生导师、IEEE高级会员、CCF高级会员和CCF语音对话与听觉专委会委员。先后主持过国家自然科学基金、博士后科学基金和广东省自然科学基金等项目。进几年以第一作者或通讯作者发表SCI论文30篇,其中8篇发表在TASLP、TIFS和TMM上。

报告题目:基于β-阶的谱线能量加权的回放语音检测研究

报告摘要:在利用录音与回放设备生成重放语音的过程中,会引入某些变异特性。这类变异通过能量分布的方式渗透到回放语音信号的短时细节中,加之录音过程中的环境噪声干扰,导致回放语音与真实语音之间存在可辨识的差异。为凸显二者在短时能量分布上的差异性,本文提出采用β阶能量加权方法,以短时帧为单位对频谱线内的谱能量进行调制,我们将β阶能量加权调制应用于不同频谱域—即倍频程谱域、梅尔谱域和线性谱域,进而提出三种新型特征:constant-Q EW octave coefficient (CEOC),Mel frequency EW cepstral coefficient (MFECC), and linear frequency EWcepstral coefficient (LFECC)。基于这三种特征,我们分别以ResNet和DNN作为后端分类器构建了相应的回放语音检测系统。通过在ASVspoof2017V2、BTAS2016PA、ASVspoof2019PA及ASVspoof2021PA数据库上的实验,从回放语音检测性能角度评估了所提特征的有效性。实验结果表明,β阶能量加权调制在回放语音检测中展现出优异的区分能力。此外,实验数据证明我们提出的回放语音检测系统性能优于多种现有先进系统。


洪青阳

厦门大学教授

图片

简介:洪青阳,厦门大学信息学院教授,主要研究方向为声纹识别、语音识别,先后主持国家自然科学基金三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领XMUSPEECH团队获东方语种识别(OLR)、基于多模态信息的语音处理(MISP)等竞赛佳绩,成功研发闽南语识别与合成系统。与华为、海思、海信、声云等知名企业合作,成果落地华为智能手机、说咱闽南话App、声云语音转写和全国多个省市的司法/证券/电力系统。发布声纹识别开源工具ASV-Subtools,助力学术研究和产业落地。出版专著《语音识别:原理与应用》,累计发行超1万册。担任中文信息学会语音信息专委会副主任等职。获电子工业出版社“优秀作者奖”和华为“优秀技术合作成果奖”。

报告题目:面向声纹识别的噪声标签过滤研究

报告摘要:声纹模型训练过程中,噪声标签使得深度神经网络朝着错误的方向进行梯度下降,进而导致性能退化;已有伪标签纠正方案过于敏感或耗时,需要更高效的方法。我们提出了基于向量相似度(ES)和高斯混合模型(GMM)的样本选择策略。首先利用神经网络的记忆效应挑选一批高置信度样本,进而为每个说话人计算一个特征中心;随后计算每个样本与其对应说话人特征中心的余弦相似度;最后用GMM对余弦相似度进行二分类,仅保留余弦相似度较高的样本进行训练;在VoxCeleb和VoxBlink数据集上实验表明,过滤后模型在测试集上的等错误率(EER)下降超过10%。



论坛组织者

王帅

南京大学副教授

图片

简介:王帅,南京大学智能科学与技术学院副教授,特聘研究员,博士生导师。专注于智能音频信号处理研究,涵盖语音、音频事件及音乐等多模态声学信号。2020年于上海交通大学获博士学位。曾任深圳市大数据研究院副研究员;亦曾任腾讯光子工作室高级研究员,领导团队负责面向游戏场景的语音技术的研发与应用。荣获VoxSRC2019、DIHARD2019等国际竞赛冠军及ISCSLP2024最佳论文、最佳学生论文奖。发起开源工具WeSpeaker与WeSep,提供的预训练模型在HuggingFace平台下载量月均超千万次,在学术界与工业界获得广泛应用。


智能数字人论坛

随着人工智能与计算机图形学的深度融合,智能数字人作为人机交互、虚拟现实与元宇宙场景中的关键角色,正面临重建精度、驱动自然性、生成可控性与物理真实感等多重技术挑战。如何实现从感知到生成、从外观建模到行为表达的端到端闭环,成为当前研究的热点与难点。本次智能数字人论坛聚焦数字人构建与驱动的核心议题,邀请多位在三维视觉、计算机视觉与生成模型方向持续探索的专家学者,开展深入的技术交流。论坛内容涵盖基于稀疏视点与视频的端到端重建、融合情感信号的虚拟人驱动、高保真数字人的建模与交互机制、多模态条件下的可控视觉内容生成与编辑,以及物理建模在动态生成中的应用探索,系统呈现从“视觉真实”向“物理真实”与“行为合理”演进的技术路径。通过多维度的技术分享与跨领域观点碰撞,论坛旨在促进智能数字人在算法创新、模型优化与实际应用场景间的深度融合,推动其在虚拟交互、智慧服务、具身智能等方向的持续发展与落地实践,为相关研究与产业合作提供交流平台。

图片
报告嘉宾

许威威

浙江大学教授

图片

简介:许威威,浙江大学计算机科学与技术学院CAD&CG国家重点实验室长聘教授,教育部长江学者,中国图象图形学学会智能图形专委会副主任。曾任日本立命馆大学博士后,微软亚洲研究院网络图形组研究员, 杭州师范大学浙江省钱江学者特聘教授。主要研究方向为智能三维感知、重建和仿真。发表ACM TOG, IEEE TVCG、IEEE CVPR、AAAI等CCF-A类论文80余篇。获中国和美国授权专利30余项。所开发的高精度、高真实感三维重建技术在先临高精度扫描仪、百度阿波罗自动驾驶仿真平台、华为河图和徐工机械远程驾驶舱中得到应用。2014年受国家自然科学基金优秀青年基金资助,主持国家自然科学基金重点项目一项,获浙江省自然科学二等奖一项。

报告题目:端到端的数字人重建与驱动技术

报告摘要:数字人重建和驱动技术可为元宇宙提供自然的交互入口,其高效便捷的构建与驱动备受关注。本报告将介绍如何利用端到端的神经渲染技术从稀疏视点中重建高质量的三维数字人,采用RGBD相机提升动态人体重建算法的效率和结果质量,并进一步介绍从视频构建可驱动数字人的技术进展。


吕科

中国科学院大学教授

图片

简介:吕科,中国科学院大学特聘教授、博士生导师,国家级科技领军人才,科技部创新人才推进计划“中青年科技创新领军人才”,鹏城国家实验室双聘教授,国家自然科学基金委创新研究研究群体(A类)项目负责人,国家重点研发计划“基础科研条件与重大科学仪器设备研发”专项项目首席科学家,享受国务院政府特殊津贴专家。主要研究方向为图像处理、智能信息处理技术。中国图像图形学会交通视频专委会副主任,中国计算机学会多媒体专委会常委。

报告题目:高保真数字人技术研究进展与展望

报告摘要:2024年中国科协发布的十大前沿科技问题中,“情智兼备数字人与机器人”位列重大科学问题之首,充分彰显了国家在数字人技术发展领域的战略布局和高度重视。作为新一代智能交互的核心载体,高保真数字人技术正在深刻重塑通讯、教育、传媒等关键领域的应用范式。高真实感数字人技术通过深度融合计算机图形学、人工智能、多模态交互与物理仿真等前沿技术,构建出在外观形态、动作表现、情感表达及行为逻辑等维度全方位逼近真实人类的数字实体。本报告将探讨数字人技术的关键突破与核心挑战,重点围绕数据构建、基座模型、控制编辑及沉浸交互等核心技术领域的最新研究进展展开论述,并对数字内容创作、智能客服与数字营销、人形机器人驱动等典型应用场景的落地挑战进行深入分析。


徐枫

清华大学副教授

图片

简介:徐枫,清华大学软件学院长聘副教授,博士生导师,入选国家级青年人才。研究方向包括人工智能、虚拟/增强现实、智慧医疗等。相关工作发表在Nature Medicine, Nature Biomedical Engineering, NEJM AI,Lancet Digital Health, ACM Siggraph, CVPR等国际权威期刊和会议上。担任CCF A类IEEE TVCG编委, Siggraph、Siggraph Asia程序委员,ICCV领域主席。论文入选Cell Press中国年度最佳论文、Siggraph最佳论文,获中国图象图形学学会技术发明一等奖(序1)。

报告题目:数字人中的物理

报告摘要:随着diffusion model、 3DGS等技术的发展,2D和3D数字人合成在视觉质量、完整性、视角一致性等方面都取得了显著的进步。然而,物理正确性仍然是数字人生成中的难题,也是数字人与人形机器人之间的技术鸿沟。本报告介绍在数字人研究中使用物理、重建物理的相关工作,希望启发读者从不同角度思考物理在数字人技术中的意义与作用,为更真实的数字人和数字人真实化(人形机器人)探索新的可能性。

张盛平

哈尔滨工业大学教授

图片

简介:张盛平,哈尔滨工业大学教授、鹏城国家实验室访问教授、如本科技首席科学家,入选国家级青年人才计划,布朗大学和香港浸会大学博士后、加州大学伯克利分校访问学者。主要研究方向为机器学习与计算机视觉。主持国家自然科学基金4项、华为公司项目10余项,被华为授予2021年“HUAWEI Ascend Expert”和 2022年“昇腾众智星光奖”荣誉称号,荣获2022年度教育部-华为“智能基座”栋梁之师。研究成果获省部级科研奖励4项。已发表学术论文100余篇(包括PNAS、IEEE T-PAMI、IJCV、ICML、NeurIPS、CVPR、ICCV、SIGGRAPH等)。

报告题目:超写实虚拟数字人驱动技术

报告摘要:赋予情感的虚拟数字人在元宇宙,虚拟现实等多项应用中发挥着重要作用,而其中,如何通过带有情感的动作信号准确驱动虚拟数字人,是提升数字人真实感和沉浸感的关键问题。因此,为了增强虚拟数字人驱动的准确性与稳定性,我们从二维和三维的不同人体表达出发,挖掘驱动信号与人体表示在不同维度下的关联性,提出基于生成式大模型的可控人体视频生成算法和基于3D高斯的三维人体驱动算法,进而在单目拍摄的视频中学习一个可驱动的二维/三维超写实虚拟数字人表示,为情感动作的精确表达提供高效的载体。

李冠彬

中山大学教授

图片

简介:李冠彬,中山大学计算机学院教授,博士生导师,国家优秀青年基金获得者。主要研究领域为图像视频内容理解与生成。累计发表CCF A类/中科院一区论文 200 余篇,谷歌学术引用超过 18000次,入选全球前0.05%顶尖科学家榜单。曾获得中国图象图形学学会青年科学家奖、吴文俊人工智能优秀青年奖、ACM 中国新星提名奖、中国图象图形学学会科学技术一等奖、ICCV2019 最佳论文提名奖、CVPR2024最佳论文候选等荣誉。主持了包括国家自然科学基金优青、面上、青年、重点研发课题、广东省杰青、 CCF-腾讯犀牛鸟科研基金、CCF-快手科研基金等20多项科研项目。担任广东省大数据分析与处理重点实验室副主任、广东省图象图形学会计算机视觉专委会主任、中国图象图形学学会青工委副秘书长等职务。担任人工智能领域顶级会议CVPR、ICCV等顶会领域主席,获得10余项人工智能领域国际顶级会议竞赛冠军。

报告题目:可控视觉内容生成与编辑

报告摘要:近年来,以扩散生成模型为代表的生成式 AI 模型能力日新月异,展现出令人瞩目的效果。在视觉内容生成及编辑领域,更符合用户意图及更具可控性与个性化的跨模态生成方法受到了学术界及产业界的广泛关注。已有的跨模态视觉生成方法在图像生成质量、美学感染力、跨模态结构及语义对齐、个性化生成、跨帧及多视角一致性等方面仍然存在诸多挑战。本次报告将围绕多模式条件驱动的可控视觉内容生成与编辑问题,介绍研究组从感知反馈学习、视频自监督一致性约束、跨模态调制与适配、蒸馏采样一致性等角度实现用户意图一致的个性化图像生成、图层化编辑、视频虚拟试穿、图文提示引导的3D场景编辑以及多模式控制的数字人生成等方面的研究成果及相关应用。

论坛组织者

高永彬

上海工程技术大学教授

图片

简介:高永彬,上海工程技术大学电子电气工程学院教授,副院长,博士生导师,CCF多媒体专委会执行委员,中国图象图形学学会生物特征识别专委会副秘书长,上海市计算机学会计算机视觉专委会副秘书长,上海市数据智能技术及其应用协同创新中心副主任,工业互联网产业联盟民用飞机制造与运维大数据分析实验室常务副主任。以一作/通讯发表包括IEEE TIP、IEEE TCSVT、IEEE TITS, IEEE IOTJ, ACM TOMM、ICME、ICCV等知名期刊/会议论文50余篇。主持国家级项目/省部级项目6项,主要技术骨干参与科技创新2030-新一代人工智能重大专项/工信部项目/国家基金委重点项目5项。获得上海市科技进步二等奖和中国图象图形学会科技进步二等奖。研究方向:三维视觉。


方志军

复旦大学特聘教授,博士生导师

图片

简介:方志军,二级教授,博士生导师,复旦大学特聘教授,国家级人才,上海市数据智能技术及其应用协同创新中心主任,上海市制造业数字化转型设计与验证专业技术服务平台主任。近年来,在IEEE TIP, TCSVT, TITS, TII, TVT, TSMC, ICCV等知名学术期刊和会议上发表学术论文近百篇。作为项目负责人主持科技部科技创新2030-“新一代人工智能”重大项目,国家基金委民航联合基金重点项目等十余项,获中国产学研合作创新奖、上海市技术发明一等奖等5项科技进步奖项,担任HHME、ISITC、ICMeCG等10余个国内、国际学术会议的组织委员会主席或共同主席。研究方向:计算机视觉,具身智能。

面部生物特征识别论坛

面部生物特征识别论坛是一个专注于探讨面部生物特征识别技术及其应用的学术交流平台。本次论坛聚焦于该领域的创新突破,邀请了五位在面部生物特征识别技术领域具有深厚造诣的专家。深圳大学沈琳琳教授将围绕人脸识别身份(知人)、属性分析(知面)、情感识别(知心),介绍团队在数据集构建、模型框架、多模态细粒度人脸分析此大模型方面的创新工作。北京航天航空大学黄迪教授将分别从数据利用和模型设计两个层面系统介绍其团队在基于几何表示学习的三维人脸表情识别方面的最新进展。四川大学赵启军教授将探讨人脸图像融合攻击和深度伪造攻击中的通用防伪特征学习问题,提升人脸防伪模型的泛化性和应对未知攻击的能力。中国科学院自动化所朱翔昱研究员将分享在AIGC时代下,针对持续伪造检测任务提出的一种基于持续学习框架的模型动态增长新方案。大湾区大学的余梓彤副教授将介绍在面部生物特征识别任务中检测和解码“面部微弱视觉信号”的基础模型和方法。期待本次论坛能够为与会者提供一个交流和学习的平台,促进专家学者之间的深入合作和学术交流,推动面部生物特征识别技术的进步。

图片
报告嘉宾

沈琳琳

深圳大学教授

图片

简介:沈琳琳,教授,上海交通大学学士、硕士,英国诺丁汉大学博士。入选ScholarGPS“全球前0.05%顶尖学者”,2015-2025连续11年被爱思唯尔出版社评为计算机学科“中国高被引学者”,2020-2025连续入围斯坦福大学“科学影响力全球前2%科学家榜单”。鹏城学者,深圳大学人工智能学院副院长,英国诺丁汉大学计算机学院荣誉教授、宁波诺丁汉大学计算机系访问教授;大数据系统计算技术国家工程实验室副主任、深圳大学计算机视觉研究所所长。期刊《Cognitive Computation and Systems》常务副主编(Co-Editor-in-Chief)、《IEEE Trans. on Image Processing》资深领域编辑(Senior Area Editor)、《Expert Systems with Applications》资深编辑(Senior Editor)、《Pattern Recognition》《Scientific Data》副编辑(AE),AAAI/ IJCAI Senior PC,ACM Multimedia / ICASSP / PRCV领域主席(Area Chair)。基于人脸视频的抑郁分析论文获情感计算顶刊《IEEE Trans. on Affective Computing》最佳论文亚军,人脸识别论文曾获国际期刊《Image and Vision Computing》最多他引论文奖,CT图像脊柱分割论文获 Wiley出版社高被引论文奖(Wiley Top Cited Article)。2023年5月带领团队开源首个中文百亿参数大模型“伶荔”,被金融等垂直行业广泛使用。

报告题目:从知人、知面到知心

报告摘要:报告将主要围绕人脸的识别分析任务展开,包括从人脸识别身份(知人)、人脸属性分析(知面),以及基于人脸的表情和抑郁、性格等情感识别(知心)。围绕这些任务,介绍团队在2D、3D人脸识别的UniFace,PointFace等工作,能够将各种属性分析、图文生成任务统一的Talk2Face框架,含八千万人脸描述图文对数据集Flip、200个细粒度属性分析问答数据集FaceBench,人脸多模态细粒度分析大模型Face-LLaVA,以及用于情感识别和人脸反应生成的个性化网络,最后介绍针对人机交互场景的人脸动作感知和交互反应动作生成智能体等工作。


黄迪

北京航空航天大学教授

图片

简介:黄迪,北京航空航天大学计算机学院教授、博士生导师;长期从事计算机视觉、多模态感知、表示学习等方面的理论与方法研究;主持国家重点研发计划、国家自然科学基金优青等研究项目20余项;发表包括国际高水平期刊和会议论文120余篇,谷歌学术引用14,400余次,获国内外学术会议论文奖项6项;曾获ICRA机器人抓取与操作竞赛冠军、MM情感计算竞赛冠军;获吴文俊人工智能自然科学一等奖、中国图象图形学学会自然科学二等奖2项。

报告题目:基于几何表示学习的三维人脸表情识别

报告摘要:多表情是人类日常传递情绪的重要方式,让计算机“读懂”这些表情,对于发展更自然的人机交互和促进相关应用的普及至关重要。传统基于二维图像、视频的方法易受光照、姿态等因素干扰,难以满足实际需求。随着三维采集设备的革新,基于几何信息的表情识别逐渐成为领域内的研究热点,其中如何从非结构化的三维数据中有效提取刻画表情的判别特征是核心挑战。近年来,几何表示学习作为新兴范式,能够直接基于点云、网格等数据形式端到端构建更优的特征,将三维表情识别带入了新阶段。本次报告将分别从数据利用与模型设计两个层面系统介绍研究团队的最新进展。主要内容包括:通过自监督学习充分挖掘大规模未标注数据价值;采用身份解耦策略消除身份信息干扰;以及利用提示学习实现多模态信息的充分融合。这些方法有助于提升三维表情识别模型的准确率和鲁棒性,为相关技术的实际应用提供基础支持。


赵启军 

四川大学教授

图片

简介:赵启军,四川大学计算机学院(软件学院、智能科学与技术学院)教授、博士生导师、副院长,四川省学术和技术带头人后备人选。长期从事模式识别与图像处理领域的教学与科研工作,近年来主持相关的国家自然科学基金项目、科技部重点研发计划项目子课题、省部级项目和企业合作项目等10余项,已在国内外学术会议和期刊上发表学术论文近200篇,获授权发明专利20多项,出版专著和译著4部。曾获上海市自然科学奖二等奖、四川省科技进步奖三等奖、日内瓦国际发明奖银奖、国际计算机视觉与模式识别会议(CVPR)杰出评审专家称号、《中国图象图形学报》优秀编委、四川大学十佳关爱学生教师奖和未来教学名师奖、教育部-华为智能基座“栋梁之师”称号等。

报告题目:人脸图像的通用防伪特征学习

报告摘要:本报告探讨人脸图像融合攻击和深度伪造攻击中的通用防伪特征学习问题。针对人脸融合攻击,我们基于融合人脸因包含多个身份在身份特征空间中邻域关系更复杂这一特点,提出利用身份邻域知识驱动泛化特征的学习,从而有效区分融合人脸和真实样本。针对深度伪造攻击,我们假设存在一个通用的深度伪造特征空间,该空间能涵盖各种伪造攻击图像中的伪造因子,可以通过这些伪造因子的组合表示任意伪造图像的伪造特征。据此,我们提出通过向量及维度两个不同层级进行解耦学习发现通用深度伪造因子,再通过激活掩码模块自适应加权聚合伪造因子表示伪造特征。在多个数据集上对多种攻击方法的实验结果表明,我们的方法学习到的防伪特征具有更强的泛化能力,能够较好地应对未知攻击方法。

朱翔昱

中国科学院自动化研究所研究员

图片

简介:中国科学院自动化研究所项目研究员,从事生物特征识别、数字人、人工智能基础理论的研究与应用。国际模式识别协会(IAPR)生物特征青年学者奖(YBIA)获得者(两年一次,每次从全球范围内评选40岁以下学者一名),获2024中国图象图形学学会自然科学二等奖(第一完成人)。共发表论文100余篇,发表文章的Google Scholar总引用次数为10000余次。获得三次国际竞赛冠军以及四项最佳论文及提名奖。授权国家发明专利16项。入选IEEE Senior Member,百度学术全球华人AI青年学者榜单(全球25人)。任生物特征识别国际期刊IEEE Transactions on Information Forensics & Security (T-IFS, CCF:A类) 、模式识别国际知名期刊Pattern Recognition (PR, CCF:B) Associate Editor,国际生物特征识别大会 IJCB 2025 Program Chair, 中国图象图形学学会青托俱乐部副主席,中国人工智能学会模式识别专委会副秘书长。

报告题目:人脸鉴伪持续攻防:一种模型增长方案

报告摘要:在AIGC时代,生成式模型的发展日新月异。基于固定数据集训练的静态模型受限于泛化能力,在面对不断演变的伪造方法时往往迅速失效。针对持续伪造检测任务,本报告介绍一种模型动态增长的方案,旨在对新出现的伪造模式进行互补性建模,同时有效捕捉其共有信息。在持续学习框架下,我们采用共有的子网络建模真实人脸分布,并为每一种新出现的伪造方法动态插入专家网络进行专门建模。实验结果表明,我们的方法能够在小样本微调下获得最高的检测性能,并且对新任务的学习几乎不会导致原有任务的性能下降。

余梓彤

大湾区大学副教授

图片

简介:余梓彤,大湾区大学长聘副教授,研究员,博导,国家高层次青年人才,国家优秀海外留学生奖获得者,IEEE/CCF高级会员,CCF东莞分部秘书长,CSIG生物特征识别专业委员会(筹)副秘书长,东莞市智能信息技术重点实验室副主任。南洋理工大学博后,博士毕业于奥卢大学,牛津大学访问学者, 研究方向为微视觉计算。发表Cell子刊、TPAMI等高水平文章50篇,谷歌总引用7600次,获4项国际学术竞赛冠亚军,授权国家发明专利14项。主持国自然优青(海外)/面上/青年项目、CCF-腾讯犀牛鸟项目等。获ACM SIGWEB中国新星奖,IEEE芬兰最佳学生会议论文奖,IEEE芬兰SP/CAS最佳论文奖亚军,ICME 24最佳论文候选,连续三年入选斯坦福全球前2%顶尖科学家榜单,指导学生获IAPR最佳学生论文奖、CCBR 24最佳论文提名奖、CSIG英文会刊首个封面文章。担任国际期刊IEEE TIFS编委,曾担任ACM MM 25、ICME 23、BMVC 24/25、IJCB 24领域主席、IJCAI 25 SPC、CCBR 25论坛主席。相关成果落地应用于中国疾控中心、广电运通集团等,以第一完成人获广东省图象图形学会科技进步一等奖。

报告题目:微弱面部视觉计算

报告摘要:微弱视觉信号虽然人眼通常难以察觉,但却蕴含着微妙而关键的信息,能够揭示视觉数据中隐藏的模式。检测和分析细微信号对多个垂域具有深远影响,例如:1)在生物特征防伪领域,发现微小视觉异常可防恶意攻击;2)在情感计算领域,理解人机交互场景下的非接触生理信号、微表情和微手势有助于欺骗检测。本报告将介绍在面部生物特征识别任务中检测和解码“微弱视觉信号”的基础模型和方法。

论坛组织者

单彩峰

南京大学教授

图片

简介:单彩峰,南京大学教授、博士生导师,国家海外高层次人才, “长江学者”讲席教授。现任南京大学智能科学与技术学院副院长、南京大学-中国移动联合研究院副院长。先后获得中国科学技术大学学士、中国科学院自动化研究所硕士、英国伦敦大学玛丽女王学院博士,之后在荷兰飞利浦研究院工作十余年,担任资深科学家和团队负责人,并兼任荷兰埃因霍温理工大学研究员。主要从事计算机视觉、模式识别、医学图像计算等方面的研究,先后承担多个欧盟和荷兰的研究项目、国家自然科学基金原创探索项目等。发表论文180多篇(引用1万余次)、授权各国专利100多项(其中美国欧洲日本专利60余项)。荣获飞利浦公司发明奖,入选全球前2%顶尖科学家、飞利浦公司“High Potential”人才等。先后担任10余个国际期刊的编委,组织了多个国际研讨会。


李琦

中科院自动化所副研究员

图片

简介:李琦,中国科学院自动化研究所副研究员,中国科学院青促会会员,中国科学院特聘研究骨干,北京市科协青年人才托举。现任中国图象图形学学会生物特征识别专委会(筹建)秘书长、北京图象图形学学会理事、中国计算机学会计算机视觉专委会执行委员。近五年发表CCF推荐A类期刊和会议共20多篇,其中含第一作者/通讯作者8篇TPAMI/IJCV。代表作AnyFace被评选为CVPR最佳论文候选,并入选TPAMI专刊Best of CVPR。撰写Springer专著1部。申请人多次担任国内生物特征识别旗舰会议CCBR论坛主席、出版主席等,担任ICLR 2025、ICLR 2026的领域主席。主持国家重点研发计划青年科学家项目一项,科技创新2030“新一代人工智能”重大项目课题一项,国家自然科学基金两项。研究成果获2022年中国图象图形学学会技术发明奖二等奖、2023年中国产学研合作创新成果二等奖等。所研发的生物特征识别系统、人工智能安全系统已在国家多个部委成功应用,为国家信息安全与管理提供了有力支持。


李慧斌  

西安交通大学教授

图片

简介:李慧斌,教授,博导。现任西安交通大学数学与统计学院院长助理,西安大数据与人工智能研究院常务副院长,国家生物安全证据基地—生物特征识别中心主任。2013年获法国里昂中央理工大学博士学位。主要从事应用数学、三维视觉、生物特征识别等方面的研究,先后主持科技部、基金委、校企等20余项研究项目。在学术期刊和会议如IEEE TPAMI/TIP/TVCG/TIFS/IJCV/ NeurIPS发表高水平论文70余篇(引用4000多次),申请/授权发明专利30项。曾获欧盟生物特征识别奖、陕西省自然科学奖一等奖等奖项,“高精度三维人脸识别产品研发及产业化”获陕西高等学校优秀成果奖一等奖。参与撰写了公安部 《安全防范三维人脸识别设备技术规范》标准。

行为生物特征识别论坛

行为生物特征识别是通过分析个体的行为模式(如步态、动作习惯、打字节奏等)进行身份认证的技术,已广泛应用于视频监控、金融安全和在线身份认证等领域。随着人工智能与大数据技术的进步,该技术的识别性能显著提升,未来将在智能监控、自然人机交互及无缝身份验证等领域发挥更大作用。本论坛特邀领域专家,深入探讨其技术动态与未来趋势,以促进该技术的创新与应用落地。

图片
报告嘉宾

魏秀参

东南大学教授

图片

简介:东南大学计算机科学与工程学院教授、博士生导师,国家基金委青年科学基金项目B类(原优青)获得者、国家重点研发计划首席青年科学家、江苏省杰青。主要从事计算机视觉、机器学习和机器人方面研究,带领团队开源“PyRetri”、“Hawkeye”等细粒度图像分析算法库(均入选ACM Multimedia开源竞赛Winner Entry)。在国际顶级期刊和会议发表论文六十余篇,相关研究工作获得“江苏省自然科学百篇优秀学术成果”以及含CVPR iNaturalist在内的国际权威学术评测等10余项世界冠军。担任IEEE TIP/TMM编委,CVPR、ICCV、AAAI、IJCAI等国际会议的领域主席、研讨会主席、讲习班主席等10余次,并任Fundamental Research/电子学报(英文版)青年编委、CSIG青托俱乐部主席、CCF-CV/CSIG-青工委副秘书长等。曾入选CSIG青年科学家奖、吴文俊人工智能优秀青年奖、中国科协青年人才托举工程等。主编教材《解析深度学习》已重印7次并入选“十四五”国家重点出版物出版规划、2025年度CCF推荐教材和省部级重点教材,另出版学术专著1部。

报告题目:细粒度图像分析及其应用初探

报告摘要:细粒度图像分析是视觉感知学习的基础研究课题,在智能新经济和工业互联网等方面具有巨大应用价值。随着细粒度图像分析的应用场景向多维领域快速扩展,其处于静态封闭环境的经典假定不再成立,不可避免地将面临开放动态环境挑战。本报告将针对监督信息匮乏、样本分布长尾、检索数据庞杂等现实频发问题,介绍在细粒度图像分析领域本课题组的相关研究成果,及面向人民生命健康和国家重大需求方面的应用实践。


徐婧林

北京科技大学副教授

图片

简介:徐婧林,北京科技大学智能科学与技术学院副教授,北京图象图形学学会理事、副秘书长,中国图象图形学学会青托俱乐部副主席。主要研究方向为计算机视觉、视频理解、细粒度运动分析,已发表TPAMI、IJCV、CVPR等ACM/IEEE Trans.和CCF A类论文30余篇。主持国家自然科学基金青年基金B类(原优青)、C类、面上、北京市自然科学基金面上等项目;主持腾讯犀牛鸟专项研究计划;作为合作单位负责人参与国家自然科学基金重点(序2)、北京市自然科学基金联合基金重点(序2)等项目。入选中国科协青年人才托举工程,获中国图象图形学学会石青云女科学家奖、优秀博士学位论文奖,获中国自动化学会自然科学奖一等奖(4/5)、中国图象图形学学会自然科学奖二等奖(3/5)等奖励。担任《Chinese Journal of Electronics》青年编委、《电子与信息学报》编委等。

报告题目:面向行为理解的细粒度运动分析

报告摘要:细粒度运动分析旨在通过对人体动作序列的精细化分析,实现动作的识别、定位以及质量评价。本报告首先介绍细粒度运动分析的研究背景,重点介绍细粒度动作识别、定位、质量评价,回答如何在时间和空间维度上捕捉边界模糊的细粒度动作,以及如何从细粒度层面更精确地评估人体动作质量。该研究工作将在运动康复、体能测试、数字传媒等领域发挥重要作用。


汪婧雅

上海科技大学信息研究员

图片

简介:汪婧雅,现任上海科技大学信息科学与技术学院研究员、助理教授、博导。研究兴趣侧重于以人为中心的三维交互与具身智能。在计算机视觉顶级会议和期刊上发表论文50余篇,其中CCF-A类论文40余篇。担任CVPR、NeurIPS、ICML、ICCV、ECCV、ACM MM等会议的领域主席。入选上海市海外领军人才计划,上海市扬帆计划,主持国家自然科学基金等。荣获2018 CVPR Doctoral Consortium Award,第一作者论文入选Computer Vision News Magazine评比的2018 Best of CVPR Paper。2023年入选百度AI华人女性青年学者榜。获得2024年ACM Design Automation Conference最佳论文提名,2024年ACM Multimedia最佳论文提名,ICLR 2025生成式理论研讨会杰出论文奖。

报告题目:面向开放世界的多模态行人重识别

报告摘要:传统行人重识别技术长期受限于单一模态静态摄像头的桎梏,难以应对真实世界中多传感器融合的复杂场景。当城市安防系统同时部署地面RGB摄像头、夜间红外设备及动态追踪无人机时,视角差异、光照变化与模态鸿沟成为精准识别的"拦路虎"。为攻克这一难题,团队构建MP-ReID,全球首个专为多模态、多平台设计的ReID基准库。该数据集汇聚行人身份的多维数据,覆盖可见光、红外、热成像多模态;包括无人机动态视角及地面固定摄像头;同时覆盖室内及室外全场景。基于此基准库,提出统一提示学习 Uni-Prompt ReID框架,通过定制化提示机制,动态适配跨模态跨平台数据差异。此外,我们将“开放世界”的范畴延伸至长时序外观变化,构建步态识别CCGait基准与HybridGait算法框架,通过融合时序动态与3D人体先验,有效提升了身份标识的长期稳定性。

张顺利

北京交通大学教授

图片

简介:张顺利,北京交通大学软件学院教授、博导。主要研究方向包括视频图像处理与分析、计算机视觉、智能决策、深度学习等。主持国家自然科学基金项目2项、北京市自然科学基金项目2项,企业合作科技项目多项,取得了较好的研究成果。在CVPR、ICCV、ACM MM、TIP、TMM等国际著名会议期刊发表论文60余篇,带领研究团队多次获得国际步态识别大赛、ICME雨天场景语义分割挑战赛等国际学术竞赛第1名。

报告题目:步态识别的前沿技术创新与挑战

报告摘要:步态识别作为生物特征识别中的一项重要技术,近年来在学术界获得了广泛的关注。本报告将回顾步态识别技术的最新发展,重点探讨深度学习框架下的步态特征提取与识别方法的挑战与创新。特别关注在步态识别算法优化、特征融合技术的提升,以及如何在复杂环境中提升识别精度与鲁棒性方面的研究进展。此外,报告还将简要讨论在识别效率和模型适应性方面的技术探索,并展望步态识别技术在未来研究中的发展趋势。

论坛组织者

侯赛辉

北京师范大学副教授

图片

简介:侯赛辉,北京师范大学副教授,主要从事以人为中心的计算机视觉和多模态大模型等相关研究。目前在TPAMI、IJCV、TIFS和CVPR、ICCV、ECCV等期刊和会议发表50余篇论文,其中CCF-A/ECCV/IEEE Transactions论文47篇,Google引用次数4000余次。申明专利20余项,主持国家自然科学基金青年基金和中央高校基本科研业务费专项资助项目,参与国家自然科学基金重点项目、面上项目以及多个企业横向合作项目。获中国科学技术大学优秀博士论文和中国科学院院长奖优秀奖,入选2023-2025北京市科协青年人才托举工程。


于仕琪

南方科技大学副教授

图片

简介:于仕琪,主要研究领域为生物特征识别。在生物特征识别的步态识别方面,创建的CASIA-B步态数据库目前被作为本领域的评估标准,是使用最广泛的评估库之一;所创建的OpenGait开源项目已经成为步态识别领域主要的算法评估框架。在目标检测方面,人脸检测算法被世界排名前100的多家上市公司采用,同时也被众多的中小企业广泛使用。在遥感图像处理方面获2021年度广东省科学技术奖自然科学奖二等奖。他在IEEE TPAMI、IEEE TIFS、IEEE TBIOM、PR、CVPR、AAAI、ECCV、ICB等发表论文近100篇。于仕琪曾担任CCBR2017、ICB2021和CCBR2024程序委员会主席,以及CCBR2023大会主席;他并作为主要组织人,自2018年开始每年1月份在深圳组织IAPR/lEEE Winter School on Biometrics。


以人为中心的AIGC论坛

以人为中心的AIGC论坛是一个专注于探讨人工智能生成内容(AIGC)技术及其应用的学术交流平台,本次论坛聚焦于该领域的创新突破,邀请了五位在相关领域具有深厚造诣的专家。华中科技大学的王兴刚教授将从扩散模型和自回归模型两个角度围绕高效可控图像生成展开探讨,介绍研究团队近期最新研究成果VA-VAE和LightningDiT(CVPR 2025 Oral),DiG(CVPR 2025)和ControlAR(ICLR 2025)。西安电子科技大学的王楠楠教授将从架构设计、推理步数和参数量化三个方面,探索图像生成模型中神经网络规模压缩和稳定训练方法,实现绿色低碳的大模型轻量化技术。南京理工大学的舒祥波教授将围绕多样化场景下的人体行为理解任务展开探讨,重点介绍课题组近年来在边云协同中的模型预训练与微调、全局模型聚合次优性优化、客户端数据无损浓缩、运动学信息高效学习、以及全局模型训练策略改进等方面的研究进展与技术方案。北京大学的余肇飞教授将介绍团队在脉冲视觉传感器原理、脉冲神经网络在时空信息处理中的应用等方面的研究进展,并讨论以神经形态视觉为代表的“类人感知计算”如何成为连接人类与AIGC系统的重要桥梁。北京航空航天大学的盛律教授将分享利用扩散模型先验构建高精度、可编辑三维视觉内容的系列工作,并进一步介绍面向精准具身感知任务的学习框架,借助高精度的三维物体和可编辑三维场景构造海量数据,有效提升具身智能体对复杂动态具身感知任务的学习效率。期待本次论坛能够为与会者提供一个交流和学习的平台,促进专家学者之间的深入合作和学术交流,推动以人为中心的AIGC技术的进步和发展。

图片
报告嘉宾

王兴刚

华中科技大学教授

图片

简介:王兴刚,华中科技大学电信学院教授,主要从事视觉表征学习、多模态基础模型、自动驾驶等领域研究,谷歌学术引用4.5万次,H-index 84。担任Image and Vision Computing期刊共同主编,IEEE TPAMI副编辑,CVPR、ICCV、NeurIPS、AAAI等顶会领域主席。入选了国家万人计划青年拔尖人才、中国科协青年人才托举工程。获湖北青年五四奖章、CSIG青年科学家奖,CVMJ最佳论文奖,MIR期刊最高引用论文奖等。

报告题目:图像生成中的高效可控表征学习方法

报告摘要:图像视频生成等AIGC技术近年来取得了飞速的发展,其基本范式主要有两种:扩散模型和自回归模型。本次报告将从扩散模型和自回归模型两个角度围绕高效可控图像生成展开探讨,介绍三个工作:(1)VA-VAE和LightningDiT(CVPR 2025 Oral)通过将视觉分词器的潜在空间与预训练视觉基础模型对齐,显著提升高维潜在空间中扩散模型的重建-生成性能与训练效率,在ImageNet 256上以1.35的FID达到SOTA,并实现超过21倍的收敛加速。(2)DiG(CVPR 2025)将门控线性注意力(GLA)引入扩散模型以实现亚二次复杂度,在保持生成质量的同时显著提升高分辨率图像生成的训练与推理效率。(3)ControlAR(ICLR 2025)提出了一种面向自回归图像生成模型的高效控制框架,通过轻量控制编码器与基于条件解码的token级融合机制,显著提升AR模型在边缘、深度、分割等空间控制下的生成质量与可控性,性能超越现有可控扩散模型如ControlNet++。


王楠楠

西安电子科技大学教授

图片

简介:王楠楠,教授,博士生导师,西安电子科技大学空天地一体化综合业务网全国重点实验室副主任。近年来从事图像跨域重建与可信鉴别方面的研究,具体包括图像跨域重建,目标身份分析,以及模型可信学习等。在IEEE TPAMI、IJCV等国际学术期刊和CVPR、ICCV、ECCV、ICML、NeurIPS等国际学术会议上发表论文200余篇,授权国家发明专利30余项,其中7项实现专利技术转让,软件著作权3项,相关成果获教育部自然科学一等奖、陕西省科学技术一等奖、中国图象图形学学会自然科学奖一等奖、中国人工智能学会优秀博士学位论文、陕西省优秀博士学位论文奖等荣誉。主持国家自然科学基金优秀青年基金、联合基金重点、面上、青年项目,科技创新2030-“新一代人工智能”重大项目子课题,教育部联合基金项目等。担任国际期刊《Visual Computer》的共同主编(Co-Editor-in-Chief)及Neural Networks编委等。

报告题目:面向边端高效推理的模型轻量化

报告摘要:针对大模型高计算复杂度引起的高能耗和高碳排放问题,本报告从架构设计、推理步数和参数量化三个方面,探索神经网络规模压缩和稳定训练方法,实现绿色低碳的大模型轻量化技术。具体包括:(1) 优化网络架构,以降低模型参数规模或降低参数激活量;(2) 生成模型推理阶段的单步算法设计,以降低模型推理时延;(3) 模型的低比特量化,以实现模型的进一步缩小以及稳定训练。本报告的三项研究内容相辅相成,有望构建面向边端需求的大模型轻量化完备解决方案,实现资源消耗与模型性能之间的极佳平衡。


舒祥波

南京理工大学教授

图片

简介:舒祥波,南京理工大学计算机科学与工程学院/人工智能学院副院长、教授、社会安全信息感知与系统工信部重点实验室副主任。研究方向为人体行为计算,在TPAMI、CVPR、ICCV、MM、NeurIPS等期刊/会议上发表论文100余篇,其中ESI高被引论文8篇;获中国电子学会自然科学一等奖、ACM MM 2015最佳论文提名、MMM 2016最佳学生论文奖、江苏省优博、中国人工智能学会优博、2024年度江苏自然科学百篇优秀学术成果论文;入选全球前2%顶尖科学家(2021-2024年);承担国家重点研发课题、国家自然科学基金仪器项目课题、国家自然科学基金优青/面上/青年项目、江苏省杰出青年等项目。担任CSIG青工委副秘书长,以及TNNLS、TCSVT、Pattern Recognition等期刊编委。

报告题目:面向联邦聚合优化的人体行为计算

报告摘要:在智慧医疗、智慧城市等公共安全场景中,面向联邦聚合优化的人体行为计算在保障用户数据安全的同时,为公共安全防护、健康监测与智能交互等应用提供了有力支撑。然而,在实际落地过程中,分布式数据利用率低、数据与资源的异构性、隐私泄露风险,以及行为语义区分度不足等问题,为人体行为理解带来了新的挑战。针对这些问题,本报告将围绕多样化场景下的人体行为理解任务展开探讨,重点介绍课题组近年来在边云协同中的模型预训练与微调、全局模型聚合次优性优化、客户端数据无损浓缩、运动学信息高效学习、以及全局模型训练策略改进等方面的研究进展与技术方案。

余肇飞

北京大学研究员

图片

简介:余肇飞,北京大学人工智能研究院研究员、博士生导师,北京大学博雅青年学者,高层次国家级青年人才。主要研究方向为类脑计算、神经形态计算,担任类脑脉冲大模型北京市重点实验室副主任、中国图象图形学会类脑视觉专委会秘书长。在Nature Biomedical Engineering、Science Advance、IEEE Transaction汇刊和NeurIPS、ICML、CVPR等顶级会议上发表论文80余篇,主持国家自然科学基金联合重点、优青青年基金、北京市科技新星等项目,担任ICML、NeurIPS、ICLR等会议领域主席,曾获中国自动化学会自然科学奖一等奖、教育部科学研究优秀成果奖发明一等奖。

报告题目:神经形态脉冲视觉感知计算与应用

报告摘要:神经形态计算是一种模拟生物神经系统运行机制的新兴计算范式,为智能系统注入新的活力。其中,神经形态脉冲视觉感知与计算技术,通过结合类人视觉感知机制和脉冲神经网络的事件驱动处理特性,构建了低延迟、高能效的计算范式,特别适用于高速动态场景中对响应性和资源效率要求极高的应用。本报告将围绕神经形态视觉系统展开,介绍团队在脉冲视觉传感器原理、脉冲神经网络在时空信息处理中的应用等方面的研究进展,并讨论以神经形态视觉为代表的“类人感知计算”如何成为连接人类与AIGC系统的重要桥梁。

盛律

北京航空航天大学教授

图片

简介:盛律,北京航空航天大学教授,博导,入选国家级青年人才、小米青年学者、斯坦福2024-2025年度全球前2%顶尖科学家排行榜单。主要研究方向为三维视觉、多模态大模型和具身智能。在IEEE TPAMI/IJCV以及CVPR/ICCV/NeurIPS/ICLR/ECCV等重要国际期刊和会议发表论文70余篇,Google Scholar显示被引用数超7500次。组织ICML 2024 Multimodal Foundation Models Meet Embodied AI和ICCV 2021 SenseHuman等多个国际会议研讨会。现任ACM Computing Surveys编委,CVPR/ICLR/ECCV/ACM Multimedia/AAAI等领域主席,以及多个领域顶会顶刊审稿人和程序委员。任CCF和CSIG多个专委会执行委员,VALSE执行领域主席。主持或参与多项国家自然科学基金、科技部重点研发计划和省部级重点研发计划项目。

报告题目:基于生成式视觉先验的三维内容高效生成

报告摘要:构建高精度、物理合理且可编辑的三维视觉内容是多媒体数字资产构建的重要内容,也是在真实三维数据稀缺瓶颈下实现具身智能“虚实融合”训练的重要手段。本次汇报将分享利用扩散模型先验构建高精度、可编辑三维视觉内容的系列工作,从三维物体的高精度生成、三维运动的可泛化生成、到三维场景的组合式高效生成,仅用少量条件就能构建具有逼真外观、几何准确和物理合理的可编辑三维内容。基于这些工作,进一步介绍面向精准具身感知任务的学习框架,借助高精度的三维物体和可编辑三维场景构造海量数据,有效提升具身智能体对复杂动态具身感知任务的学习效率。

论坛组织者

胡建芳

中山大学副教授

图片

简介:胡建芳,中山大学副教授,博士生导师。主要从事视频时空特征学习理论及应用研究在相关会议和期刊发表学术论文近70篇,以第一作者在国际人工智能顶级期刊IEEE TPAMI发表长文3篇。主持广东省杰出青年基金(2022)项目和国家自然科学基金面上(2020和2025)等项目十余项,曾获广东省自然科学奖二等奖,中国图象图形学会优秀博士学位论文奖等荣誉,多次参加视频理解领域的国际学术竞赛获第一名或第二名。


齐勇刚

北京邮电大学副教授

图片

简介:齐勇刚,北京邮电大学人工智能学院副教授,博士生导师,海南省高层次人才,博士生导师,中国计算机学会高级会员,英国萨里大学视觉语音与信号处理研究中心(CVSSP)国家公派访问学者。研究方向为计算机视觉与模式识别,重点研究抽象视觉感知与生成相关理论及应用。主持或参与国家自然基金、北京市自然科学基金、海南省自然科学基金等多项课题,发表了包括国际顶级学术会议CVPR、NeurIPS、ICLR、ICCV、AAAI、ACM MM及期刊IJCV、TIP等在内的40余篇学术论文。担任中国图象图形学学会文档图像与识别专委会委员;ICLR 2026领域主席等。


郑伟诗

中山大学教授

图片

简介:郑伟诗,教育部“长江学者奖励计划”特聘教授、英国皇家学会牛顿高级学者,现任教育部机器智能与先进计算重点实验室主任。长期研究协同与交互分析理论与方法,解决人体建模和机器人行为的视觉计算问题。发表CCF-A/中科院1区/Nature子刊,论文150多篇。担任国际人工智能顶级期刊IEEE T-PAMI、Artificial Intelligence Journal等期刊的编委。主持承担国家级重点类项目和人才项目5项、以及广东省自然科学基金委卓越青年团队(负责人)项目等。获中国图象图形学学会自然科学奖一等奖、广东省自然科学奖一等奖、国家教学成果奖二等奖等。


视觉基础模型论坛

“视觉基础模型论坛”聚焦视觉智能的最新进展与应用,汇聚来自学界与产业界的专家学者,共同探讨从图像视频理解到具身感知操作的核心问题。今年论坛重点关注面向开放世界可泛化的具身连续学习、面向具身智能应用的视频行为理解、具身场景下视觉基础模型的挑战与对策、人类视觉系统启发下的多媒体计算。论坛内容涵盖连续学习、视频理解、无人系统视觉感知等多个前沿领域,展现了视觉基础模型在具身智能、多媒体计算中的最新探索与突破,推动视觉基础模型在实际应用中的落地与创新。

图片
报告嘉宾

王瑞平

中科院计算所研究员

图片

简介:王瑞平,中科院计算所研究员、博导,研究领域为计算机视觉与模式识别,重点关注真实开放环境下的视觉场景理解问题。发表国际期刊和会议论文100余篇,Google Scholar引用10,000余次,获授权国家发明专利9项。带领研究生6次获得本领域主流国际学术竞赛冠亚军,获得CVPR2021 CLVISION Workshop最佳论文奖。担任Pattern Recognition、Neurocomputing等国际期刊编委,十余次担任IEEE CVPR(2021/2022/2026)、ICCV(2021/2025)、ECCV(2022/2024)、WACV(2018~2026)等国际会议领域主席,获得IEEE CVPR2019&2025/ICCV2019/FG2019/ECCV2020/NeurIPS2020/ICML2022等国际会议杰出审稿人荣誉,先后在CVPR2015、ECCV2016、ICCV2019等国际会议合作组织并主讲Tutorial。研究成果获得2015年度国家自然科学奖二等奖(第4完成人)、2022年度中国图象图形学学会自然科学奖一等奖(第1完成人)、2019年度国家自然科学基金委优青项目资助。

报告题目:面向开放世界可泛化的具身连续学习

报告摘要:具身智能从封闭专用逐步向开放通用迈进,面临从被动到主动、从闭集到开集、从静态到动态的挑战,一次训练、终身受用为特点的传统学习范式面临较大局限,需建立系统性的具身连续学习范式,实现智能体知识和技能的日益精进,提升在开放环境下的泛化效果。报告将介绍本课题组在具身连续学习方面开展的初步探索及取得的一些具体进展,包括:动态环境下的3D高斯自适应场景表示方法GS-LTS、基于棋盘格表示的具身交互框架R2C、示教视频指导的机械臂操作代码生成框架RoboPro、基于空间网格表示的机械臂动作序列生成框架GAS-Robo、以及面向动态任务的模仿学习方法DBC-TFP。


秦杰

南京航空航天大学教授

图片

简介:秦杰,南京航空航天大学人工智能学院教授、博士生导师、院长助理,脑机智能技术教育部重点实验室副主任,国家级青年人才,江苏省杰青,南航“长空英才”,中国科协海智特聘专家,中国图学学会数字媒体专委会副主任。本科/博士毕业于北京航空航天大学,博士后师从“马尔奖”得主Luc Van Gool教授。目前主要从事人工智能、计算机视觉、具身智能和多媒体等领域的基础理论与关键技术研究。已在国际权威期刊和会议上发表论文100余篇,其中CCF A类国际顶级期刊和会议论文50余篇,Google Scholar引用5900余次,H指数39。获中国图象图形学学会自然科学奖二等奖(排名1)、CCF A类会议ACM MM 2023唯一荣誉提名奖(1/3072)、CCF B类会议ICME 2024最佳论文提名、CCF T1类期刊《计算机研究与发展》优秀论文奖等。担任CCF A类期刊IJCV客座编委、CCF B类期刊Neural Networks副主编、CCF A类会议NeurIPS/AAAI/IJCAI/ACM MM领域主席等。主持国家海外高层次人才引进计划青年项目、国家自然科学基金面上项目、江苏省杰出青年基金项目等国家级/省部级课题。

报告题目:面向具身智能应用的视频行为理解

报告摘要:视频行为理解是视觉内容分析的关键问题,在具身智能、智能安防、智慧体育、自动驾驶等领域有着重要的应用价值。本报告首先聚焦时序动作检测、分割与定位等任务的难点问题,分别介绍团队在上述方面的研究成果,主要包括基于上下文感知的动作检测网络ACGNet,基于预测对比编码的动作分割网络PACE,以及提名无关的动作定位优化框架RefineTAD;在此基础上,进一步发掘上述任务间的共性与互补性,介绍团队近期在视频动作检测-分割-预测一体化方法研究方面的一些初步尝试。最后总结和展望视频行为理解未来可能的发展趋势。


张鼎文

西北工业大学自动化学院教授

图片

简介:张鼎文,西北工业大学自动化学院教授、博导,国家优秀青年科学基金获得者、科睿唯安“全球高被引科学家”,2015赴美国卡耐基梅隆大学进行为期2年的访问研究,致力于建立面向开放环境下、具备动态学习能力的新一代计算机视觉学习框架。迄今为止,作为第一作者/通讯作者在领域内国际重要期刊及会议发表学术论文60余篇,其中包含T-PAMI, IJCV, IEEE SPM, T-IP, CVPR, ICCV, Science China: Information Science等,曾入选中国博士后创新人才计划、AI 华人青年学者榜单, 获吴文俊人工智能优秀青年奖、2021 IEEE TCSVT最佳论文奖、中国图象图形学学会优秀博士论文奖等奖励。担任中国图象图形学学会青年工作委员会副秘书长、中国图象图形学学会优博俱乐部副主席,任IEEE TMM、TCSVT、PR等刊物(客座)编辑。

报告题目:浅析具身场景下视觉基础模型的挑战与对策

报告摘要:智能无人系统技术是指将人工智能技术与无人系统相结合,实现系统的自主性、智能化和自动化。智能无人系统技术可以应用于各个领域,例如无人车辆、无人飞行器、手术机器人等,在推动产业升级和国防安全方面具有重大意义。视觉感知技术被誉为无人系统之“眼”,通过对传感器采集的图像/视频进行处理与分析,视觉基础模型可以实现目标检测与跟踪、环境感知与地图构建等功能,为无人系统完成各项智能化任务提供坚实基础。然而,现有方法主要针对实验室受控环境下的视觉数据进行研究,在面对无人系统所工作的真实、开放环境时,仍面临重大挑战。本次报告将聚焦无人系统视觉感知领域的核心挑战,分享团队在该领域的初步探索,并对该领域未来的研究方向进行了分析和展望。

蒋铼

北京航空航天大学副教授

图片

简介:蒋铼,北京航空航天大学副教授,中国图象图形学学会青工委副秘书长。学士、博士毕业于北京航空航天大学,博士后期间工作于加拿大英属哥伦比亚大学。主要研究方向为视觉感知模型、多媒体计算、医学图像处理等。主持国家自然科学基金、启元国家实验室、国家互联网应急中心、华为、阿里等科研项目。在国际权威期刊和会议上发表论文40余篇,其中第一或通讯作者论文30余篇,包括TPAMI、IJCV、TIP、TMI等。谷歌学术引用2300余次,单篇最高引用320余次。入选中国科协青年人才托举工程、中组部海外博后引才专项、华为卓越青年学者等,获北京市/CSIG优秀博士学位论文、CVPR质量增强/ECCV立体匹配大赛冠军等多个荣誉。

报告题目:人类视觉系统启发下的多媒体计算

报告摘要:近年来,多媒体移动终端和互联网技术快速发展,以图像和视频为主的多媒体数据量呈爆炸性增长,对传输带宽、计算资源和存储空间构成巨大挑战。传统多媒体计算技术受理论“边际效应”制约,性能的小幅提升都会以巨大的计算开销为代价,技术发展遭遇瓶颈。因此,亟需借鉴人类视觉系统的感知机制,设计符合人脑认知的视觉感知模型,预测图像和视频中的显著性区域,去除感知冗余,从而大幅降低多媒体数据量。本报告介绍了近年来我们对数据与认知驱动下的感知模型的一些代表性工作,以及进一步将感知模型应用在多个多媒体计算场景上的探索尝试。

论坛组织者

严锐

南京理工大学副教授

图片

简介:严锐,南京理工大学计算机科学与工程学院教授。主要从事人体行为分析、视频内容理解等研究,先后在华为、新加坡国立大学、腾讯、字节跳动、南京大学从事研究工作。目前共发表CCF A类和IEEE/ACM Trans.论文30余篇,其中3篇论文入选ESI高被引/热点论文。主持国家自然科学基金面上/青年、博后“特别资助”和“面上”等项目10余项。曾入选中国图象图形学学会(CSIG)优秀博士论文奖(2024)、江苏省青年科技人才托举工程(2024)、江苏省计算机学会优秀博士论文奖(2024)、南京理工大学优秀博士论文奖(2024)、国家资助博士后计划(2023)、江苏省卓越博士后计划(2023)。此外,担任国际会议如CVPR/ICCV/ECCV/NeurIPS等审稿人,国际期刊如IEEE TPAMI、IJCV等审稿人,中国图象图形学学会多媒体专委会委员。


徐婧林

北京科技大学副教授

图片

简介:徐婧林,北京科技大学智能科学与技术学院副教授,国家自然科学基金青年科学基金B类(原优青)获得者,北京图象图形学学会理事、副秘书长,中国图象图形学学会青托俱乐部副主席。主要研究方向为视频理解、细粒度运动分析,已发表ACM/IEEE Trans.和CCF A类论文30余篇。主持国家自然科学基金面上、青年基金、北京市自然科学基金面上、中国博士后科学基金面上等项目;主持腾讯犀牛鸟专项研究计划;作为合作单位负责人参与国家自然科学基金重点(序2)、北京市自然科学基金联合基金重点(序2)等项目。入选中国科协青年人才托举工程,获中国图象图形学学会石青云女科学家奖、优秀博士学位论文奖,获中国自动化学会自然科学奖一等奖(4/5)、中国图象图形学学会自然科学奖二等奖(3/5)等荣誉。担任《Chinese Journal of Electronics》青年编委、《电子与信息学报》编委等。


刘凡

河海大学教授

图片

简介:刘凡,河海大学教授、博士生导师,计算机与软件学院副院长,兼任水利部水利大数据重点实验室副主任、江苏省计算机学会常务理事、江苏省人工智能学会常务理事、江苏省信息技术应用学会理事,SCI 期刊 KSII TIIS 编委,Frontiers in Computer Science、Remote Sensing等期刊客座编辑。主持国家自然科学基金面上和青年项目、装备预研教育部联合基金、航空科学基金等科研项目20多项,获中国博士后基金特别资助、面上一等资助。发表论文100多篇,ESI高被引论文5篇、热点论文2篇,单篇最高引用5800余次,入选江苏省自然科学百篇优秀学术论文成果,获IEEE ICME 2021最佳演示奖、IJCAI 2021 LTDL最佳数据集论文奖,获第一发明人授权专利23项,出版规划教材2部、专著1部。获江苏省高等学校科学技术研究成果奖二等奖、江苏省自动化学会青年科技奖。入选全球前2%顶尖科学家榜单、江苏省优青、江苏省“青蓝工程”优秀青年骨干教师、江苏省科协青年科技人才托举工程。


舒祥波

南京理工大学教授

图片

简介:舒祥波,南京理工大学计算机科学与工程学院/人工智能学院副院长、教授、博士生导师、社会安全信息感知与系统工信部重点实验室副主任。研究方向为人体行为计算,在TPAMI、CVPR、ICCV、MM、NeurIPS等期刊/会议上发表论文100余篇,其中ESI高被引论文8篇;获中国电子学会自然科学一等奖、ACM MM 2015最佳论文提名、MMM 2016最佳学生论文奖、江苏省优博、中国人工智能学会优博、2024年度江苏自然科学百篇优秀学术成果论文;入选全球前2%顶尖科学家(2021-2025年);承担国家重点研发课题、国家自然科学基金仪器项目课题、国家自然科学基金优青/面上/青年项目、江苏省杰出青年等项目。担任CSIG青工委副秘书长,以及TNNLS、TCSVT、Pattern Recognition等期刊编委。

走向通用行人重识别论坛

在计算机视觉与人工智能领域快速发展的背景下,行人重识别技术作为智能安防、智慧交通、自动驾驶等核心应用的关键支撑,正朝着更通用、更鲁棒、更适配复杂真实场景的方向突破。CCBR2025 “走向通用行人重识别” 分论坛聚焦该领域核心技术瓶颈与前沿发展趋势,特邀 5 位来自国内顶尖高校的专家学者,从特征学习、跨域泛化、跨模态融合、任务边界探索及连续场景适配等关键维度,分享最新研究成果与深度思考,为推动行人重识别技术从 “特定场景适用” 迈向 “通用化落地” 搭建高质量学术交流平台。

论坛报告内容紧扣领域核心痛点与前沿方向,兼具理论深度与应用导向。湖南大学刘敏教授将介绍团队在鲁棒行人重识别方面的系列研究进展,涵盖噪声与稀疏标注下的学习机制、黑盒对抗攻击下的鲁棒性评估与防御方法,以及面向遮挡、跨模态与换衣场景的识别新框架。中国科学技术大学常晓军教授将围绕“行人重识别的多层语义特征学习与跨域泛化研究”展开分享,针对不同场景下数据分布差异导致的模型泛化能力不足问题,深入剖析多层语义特征的构建逻辑与跨域适配机制,为提升模型在复杂环境中的鲁棒性提供理论与方法支撑;四川大学胡鹏教授聚焦“开放环境下的跨模态行人重识别”,探讨在光照突变、遮挡严重、模态缺失等开放场景中,如何实现视觉、红外、文本等多模态信息的有效融合与匹配,破解开放环境下行人重识别的技术难题;昆明理工大学李华锋教授则从“行人重识别vs行人检索与定位”的对比视角出发,厘清两项关联任务的技术边界与共性需求,为跨任务技术迁移与协同优化提供新思路;西安电子科技大学程德教授针对 “面向连续场景的无监督多模态行人再识别方法研究”,重点突破连续动态场景下标注数据稀缺、模态信息动态变化等挑战,探索无监督学习框架下多模态信息的高效利用路径;北京交通大学金一教授围绕“模态共性与模态特性:跨模态行人再识别思考”,深入挖掘不同模态数据的本质共性与独特特性,为设计更高效的跨模态特征对齐与匹配模型提供底层理论参考。

本次分论坛汇聚了国内行人重识别领域的核心研究力量,报告内容覆盖从基础理论创新到实际场景适配的全链条探索,不仅将展现该领域的最新研究进展,更将为行业同仁提供思想碰撞与技术交流的重要契机,助力推动我国行人重识别技术向通用化、产业化方向加速迈进。

图片
报告嘉宾

刘敏

湖南大学教授

图片

简介:刘敏,湖南大学二级教授,人工智能与机器人学院党委书记。国家杰出青年基金获得者,教育部青年长江学者,国家重点研发计划首席科学家。北京大学学士,美国加州大学河滨分校博士,湖南省自动化学会副理事长,机械工业先进制造视觉检测与控制技术重点实验室主任,中国图象图形学学会理事、青工委副主任。先后主持国家重点研发计划项目2项、国家自然科学基金重点项目1项,获国家级、省部级科研奖励5项。

报告题目:数据、安全与场景:行人重识别鲁棒性的三重挑战与应对

报告摘要:行人重识别技术旨在实现跨摄像网络下对特定行人的精准检索与匹配,是智能视频分析的核心技术,在公共安全与智能监控等领域具有至关重要的应用价值。但在实际应用场景中,数据标签不完备、模型对抗攻击脆弱性、场景动态复杂的问题普遍存在,显著削弱了识别鲁棒性,严重制约了行人重识别模型的实际部署。本报告围绕以上三大难点介绍我们团队在鲁棒行人重识别方面的系列研究进展,涵盖噪声与稀疏标注下的学习机制、黑盒对抗攻击下的鲁棒性评估与防御方法,以及面向遮挡、跨模态与换衣场景的识别新框架。我们希望通过这些工作,推动行人重识别技术从“实验室优秀”迈向“实战中可靠”,为构建更稳健、实用的视觉智能系统提供思路与路径。


常晓军

中国科学技术大学教授

图片

简介:常晓军,教授,中国科学技术大学讲席教授、国家级高层次人才,曾获得澳大利亚研究委员会的早期职业研究奖。主要研究方向包括多模态学习、计算机视觉、绿色人工智能及其在社会公益中的应用。先后主持了包括澳大利亚研究委员会在内的十多个国家级项目。其研究成果已在国际顶级期刊(如T-PAMI、TIP)和CCF A类会议上发表超过150篇论文,谷歌学术引用次数超过18,000次,其中21篇论文被选为ESI高被引/热点论文,2019至2023年连续被评为科睿唯安高被引学者。现担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编,以及CCF A类会议的领域主席。

报告题目:行人重识别的多层语义特征学习与跨域泛化研究

报告摘要:行人重识别技术在智能安防、智慧交通等领域应用广泛,但不同场景下数据分布差异大,导致模型泛化能力不足,成为制约技术落地的关键瓶颈。本报告聚焦这一核心问题,深入研究多层语义特征学习与跨域泛化方法。首先,剖析行人图像中从低级视觉特征到高级语义信息的层级结构,构建多层语义特征提取框架,实现对行人关键信息的全面捕捉;其次,针对跨域场景数据分布偏移问题,设计有效的跨域适配机制,通过域间特征对齐、迁移学习策略等,降低场景差异对模型性能的影响;最后,通过大量实验验证所提方法在多个公开数据集上的有效性,结果表明该方法能显著提升模型在跨域场景下的识别精度与鲁棒性,为行人重识别技术的通用化应用提供重要理论与方法支撑。


胡鹏

四川大学教授

图片

简介:胡鹏,四川大学计算机学院教授,博士生导师,国家级青年人才。主要研究方向为多模态学习和多媒体分析。已在Nature子刊、TPAMI、IJCV、CVPR、NeurIPS、ICML等国际期刊/会议上发表学术论文90余篇,包括多篇ESI高被引/热点论文。研究成果获得中国图象图形学学会(CSIG)自然科学一等奖、四川省自然科学二等奖、中国人工智能学会教学成果激励计划一类成果等。主持国家自然基金(面上、青年)项目、国家重点研发计划课题、四川省重点研发基金项目等。担任CSIG青工委副秘书长、VALSE执委会副主席等;担任Pattern Recognition等期刊编委;担任NeurIPS、ICML、CVPR、ECCV、ACM MM等多个重要国际学术会议的领域主席;担任TPAMI、IJCV、TIP、TKDE等多个国际重要SCI期刊审稿人。

报告题目:开放环境下的跨模态行人重识别

报告摘要:近年来,跨模态行人重识别(Cross-modal ReID)作为推动新一代智能感知系统落地应用的重要技术,在众多智能安防任务中展现出巨大潜力。然而,真实世界环境是一个开放、复杂且动态演化的系统,其模态多样、分布不稳且通常标注匮乏,使得依赖完备监督与稳定条件的传统范式难以处理。本报告将聚焦“开放环境下的跨模态行人重识别”这一主题,探讨如何提升行人重识别系统在训练与推理全流程的鲁棒性与可信度。主要内容包括:1)面向鲁棒无监督学习的跨模态ReID:通过对偶策略缓解标注资源匮乏与模型扩展能力之间的矛盾,突破开放环境下数据生态的弱监督或自监督机制。2)面向噪声关联学习的跨模态ReID:通过设计噪声关联过滤策略并改进传统损失,克服模态间噪声关联问题,提高跨模态模型训练的可靠性;3)面向交互式学习的跨模态ReID:通过多模态大语言模型实现开放场景下的动态交互机制,提升ReID系统推理的可信度与交互能力。本报告将围绕上述内容,介绍课题组近期的代表性工作,并探讨开放环境下实现可靠跨模态行人重识别所面临的机遇与挑战。

李华锋

昆明理工大学教授

图片

简介:李华锋,博士,昆明理工大学教授,博士生导师。云南省杰出青年基金获得者、云南省“兴滇英才支持计划”青年拔尖人才, 国际期刊 IEEE TIP 副编辑 (Associate Editor)、Information Fusion 编委(Editorial Board Member)、IEEE SPL 副编辑 (Associate Editor)、AAAI高级程序委员会委员(SPC)、重庆大学学报青年编委。主持国家自然科学基金面上项目、地区基金、青年基金共计4项、云南省杰出青年基金1项、云南省基础研究重点项目1项、青年项目1 项。在 CVPR、ICCV、AAAI、ACMMM、IJCV、 IEEE TPAMI、IEEE TIP、IEEE TIFS等高水平期刊和会议上发表学术论文 60 余篇。获云南省自然科学二等奖1项(排名第1) , 授权国家发明专利 40 余项, 技术转让 10 项。

报告题目:行人重识别 vs 行人检索与定位

报告摘要:行人视觉分析是智能安防与智慧城市中的核心问题。报告将梳理行人重识别的发展与最新进展,揭示其在身份判别与跨摄像头跟踪中的优势与瓶颈。随后,介绍新兴的行人检索与定位任务,探讨其在大规模场景下的应用潜力。通过对比两类方法的技术路线与适用场景,报告将指出它们的互补关系,并展望融合趋势与未来研究方向,为行人视觉理解开辟新的路径。

金一

北京交通大学教授

图片

简介:金一,北京交通大学计算机学院教授,博导,CCF杰出会员。担任CCF YOCSEF副主席(25-26),多媒体专委会、大数据专委会执委等。任国家重点研发计划重点专项专家组委员,主要研究领域包括:多模态数据融合感知、交通视频语义理解、可信行为分析及多媒体隐私保护等。主持国家级、省部级项目10余项,发表学术论文70余篇,ESI高被引论文5篇,其中包括IEEE/ACM汇刊等领域重要期刊和CCF A类会议CVPR,AAAI,ICCV,ICAI,ACM MM等。授权国家发明专利37项,参编国家、行业标准3项。获IEEE Computer Society年度最佳论文奖提名奖等国际论文奖励3项,第五十届日内瓦国际创新发明银奖、2023年中国产学研合作创新与促进奖创新成果二等奖、2024年通信学会科技进步二等奖、铁道学会科技进步二等奖等奖项,入选2023年度北京市轨道交通学会杰出青年人才。

报告题目:模态共性与模态特性:跨模态行人再识别思考

报告摘要:对特定行人目标进行跨摄像头跨场景检索,在公共监控、智能安防、城市治理等领域具有重要应用价值,已成为计算机视觉的研究热点之一。以低质量行人特征表达、移动行人目标检测、跨视域、跨模态行人再识别等为代表的智能感知与推理在真实开放场景行人检索发展中起着非常重要的作用。近年来,团队结合平台积累和优势,在领域权威期刊和人工智能领域顶级会议等发表论文20余篇,本次报告将结合团队近年来在跨模态行人再识别领域的部分研究成果,探讨弱监督机器学习、跨模态特征一致性表达、模态融合与交互等在开放场景行人目标搜索的若干关键技术及其未来发展方向。

程德

西安电子科技大学副教授

图片

简介:程德,副教授,博士生导师,空天地一体化综合业务网全国重点实验室(ISN)成员,曾任华为公司主任工程师,美国卡内基梅隆大学(CMU)联合培养博士。研究方向为计算机视觉、机器学习、人工智能等,近年来在CVPR、ICCV、NeurIPS、IJCV、TIP等领域顶级期刊和会议上发表论文100余篇,其中包括第一/通讯作者中科院1区TOP期刊和CCF-A类顶会论文50余篇,个人一作论文单篇最高被引用超过1600余次。目前主持国家自然科学基金面上项目2项、国家重点研发计划子课题、陕西省重点研发计划等多项国家和省部级项目。

报告题目:面向连续场景的无监督多模态行人再识别方法研究

报告摘要:行人再识别(Person Re-Identification, Re-ID)旨在跨摄像头视角识别同一行人个体,是智能监控与智慧城市中的核心任务。现有方法大多依赖大量人工标注数据,难以适应真实环境中持续变化的场景与多模态数据分布差异。针对这一问题,本报告围绕面向连续场景的无监督多模态行人再识别方法展开研究。报告首先分析了跨模态(如RGB-红外、RGB-深度)特征差异和场景动态变化带来的域偏移挑战。随后提出一种基于跨模态一致性学习与时序自适应优化的无监督框架,通过模态不变特征对齐与伪标签自校正机制,实现不同模态下的统一表征学习与连续场景的知识迁移。最后,报告展望了多模态无监督再识别在智能交通、安全监控和人机协同中的应用前景。

论坛组织者

赵才荣

同济大学教授

图片

简介:赵才荣,教授、博士,现任同济大学计算机科学与技术学院教授,博士生导师,计算机智能教研室主任。曾任香港理工大学兼职研究员(2016-2017)。目前担任上海市计算机学会计算机视觉专委会主任,中国图象图形学学会青工委秘书长,中国人工智能学会粒计算与知识发现专委常委,中国计算机学会杰出会员,担任IEEE TMM Guest Editor、《中国图象图形学报》、《计算机科学》青年编委。主要研究领域:计算机视觉,主要聚焦于智能视频行人分析及其隐私安全研究,重点研究高效可信行人再识别、多模态数据驱动的自动驾驶以及垂直领域模型的知识表示与推理问题。已在TPAMI、IJCV、《中国科学.信息科学》、CVPR、ICML、NIPS等发表学术论文50余篇,受理发明专利20余项(授权18项),研究成果获2022年上海市科技进步一等奖(序4/13),研究成果获2023年上海市自然科学二等奖(序1/4),获《中国科学:信息科学》2023年度热点论文奖,获第二届全国人工智能应用场景创新挑战赛总决赛特等奖(序3/16)。


叶茫

武汉大学教授

图片

简介:叶茫,武汉大学计算机学院教授、智能科学系主任、国家高层次青年人才,科睿唯安高被引科学家。长期从事多模态计算、联邦学习、医学人工智能等领域研究,以第一/通讯作者发表 CCF-A 类论文100余篇,谷歌学术引用 14000余次。担任CCF-A类IEEE TIP、IEEE TIFS等期刊编委,CVPR、ICLR、NeurIPS、ICML、AAAI等会议领域主席等学术职务。主持国自科-香港联合基金、科技部重点研发计划课题等10余项科研项目。连续入选斯坦福排行榜“全球前2%顶尖科学家”,百度AI华人青年学者等荣誉。


高赞

天津理工大学教授

图片

简介:高赞,山东省人工智能研究院,教授,博士生导师,国家青年人才、山东省突贡专家、全球前2%顶尖科学家、山东省高等学校优秀青年 “智能媒体分析与视觉感知”创新团队负责人。近年来,主持完成或在研国家基金4项,参与包括国家自然基金重点,国家重点研发计划等省部级以上课题10余项。在国际高水平会议和期刊上发表论文100余篇,IEEE/ACM汇刊或CCF A类会议60余篇,其中包括TPAMI,CVPR等, 6篇论文入选ESI高被引,1篇入选热点论文,2021年获CCF A类会议SIGIR 最佳学生论文。此外,先后获天津市科技进步一等奖、山东省科技进步一等奖、山东省技术发明一等奖和天津市科技进步二等奖各1项,获授权发明专利50余项,其中包括2项国际专利。目前兼任计算机学会杰出会员,中国图形图像学会高级会员,IEEE高级会员,山东省人工智能学会常务理事,计算机学会多媒体技术专委会、计算机视觉专委会和模式识别与人工智能委员会执行委员,中国图形图象学会多媒体技术专委会执行委员。受邀担任20余个国际知名期刊和会议的领域主席、程序委员会委员和审稿人,担任Neural Network等多个国际期刊编委或客座编委。


刘羽

合肥工业大学教授

图片

简介:刘羽,合肥工业大学仪器科学与光电工程学院教授、博士生导师,国家级青年人才计划入选者,科睿唯安全球高被引科学家(2023至今),爱思唯尔中国高被引学者(2020至今)。主要研究方向包括多源图像融合、医学图像处理、计算机视觉等。近年来,在IEEE TPAMI、IJCV、IEEE TIP、INFFUS等国际权威期刊上发表论文100余篇,谷歌学术总被引18000余次,20余篇论文入选ESI高被引论文。获安徽省自然科学二等奖、中国电子学会自然科学二等奖、吴文俊人工智能优秀青年奖、IEEE TIM等两个国际期刊年度最佳论文奖等。担任IEEE TIP、Information Fusion、IEEE SPL、中国图象图形学报等期刊编委。


崔金荣

华南农业大学副教授

图片

简介:崔金荣,副教授,博士,硕士研究生导师;CCF和CSIG会员,YOCSEF广州25-26学术AC,广东省图象图形学会计算机视觉专委会副秘书长,广东省2024年农村科技特派员。博士毕业于哈尔滨工业大学(深圳),主要研究方向是掌纹识别,缺失多视图聚类,计算机视觉,智慧消防等;2019年6月作为访问学者赴英国曼彻斯特大学交流访问一年。发表学术期刊和会议论文40余篇,并以第一作者/通讯作者在TIP、TNNLS、Neural Networks等国际权威期刊和ACM MM、ICME等重要国际会议上发表论文30余篇。先后主持和参与包括国家自然科学基金在内的国家级、省部级以及横向科技项目10余项,获广东省计算机学会优秀论文奖一等奖和二等奖等。