近日,实验室2023级博士生伍风翼参与,与清华大学自动化系张毅教授团队开展深度合作,在机器学习领域顶级国际学术会议International Conference on Machine Learning (ICML 2026) 发表题为《ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding》的研究论文。清华大学自动化系博士生胡峻毅为第一作者,张毅教授为通信作者,实验室彭真明教授作为合作导师共同指导本项工作。
该研究针对开放词汇视觉定位(Open-Vocabulary Grounding)任务中传统 CLIP 风格全局语义嵌入缺乏细粒度表达、以及显式 Token 级别对齐机制极度依赖重型交叉注意力或密集标注等瓶颈,提出了一种理论根基扎实、基于多示例学习(MIL)机制的期望引导视觉-语言对齐框架 — ExpAlign。

图1 ExpAlign 总体分割架构
ExpAlign 的核心在于引入了期望对齐头(Expectation Alignment Head, EAH),在无需任何实例级标注的前提下,利用软期望池化技术隐式实现 token 和空间实例的联合选择。
为了解决弱监督下的优化不稳定性,研究团队进一步提出了一种基于能量模型(Energy-Based)的多尺度一致性正则化方案,包括一个 Top-K 多正例对比学习目标和基于拉格朗日约束自由能最小化推导出的几何感知一致性目标(GACO)。
该框架具有轻量化、推理高效等核心优势,在无需接触任何目标数据集标注的情况下,展现出极强的零样本泛化能力。
在LVIS、ODinW以及 RefCOCO/+/g 等多个极具挑战性的开放词汇检测与分割基准上,ExpAlign在同等模型体量下显著超越了现有的先进方法,尤其是在长尾稀有类别(Rare Categories)的定位和边界分割精度上取得了突破性进展。
国际机器学习会议(International Conference on Machine Learning, ICML)是计算机科学与机器学习领域的国际顶级学术会议(CCF-A类),与 NeurIPS 和ICLR 并称为机器学习界的三大旗舰盛会。ICML录用的论文代表着当前机器学习、深度学习、多模态 AI及相关交叉学科的最前沿学术水平与风向标。
ICML 2026将于7月6日至11日在韩国首尔举行。会议共收到来自世界各地投稿23918篇,其中录用6352篇文章,录用率为26.6%。
论文链接:https://arxiv.org/abs/2601.22666
开源代码:https://github.com/inlmouse/ExpAlign
供稿:胡峻毅
