橙启科技 这项由StepFun团队主导的研究于2026年5月以预印本形式发布在arXiv平
首页 » 行业资讯 » 文章详情

这项由StepFun团队主导的研究于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.12034v2,感兴趣的读者可通过该编号检索完整论文。团队成员来自StepFun、英国帝国理工学院、北京大学、上海交通大学以及新南威尔士大学。

你有没有想过,某个声称"能同时看懂视频和听懂声音"的AI,其实根本没有在认真"听"?它只是靠着看画面和读题目,就把答案猜对了——就像一个学生从来没听过课,却靠着押题和刷题在考试中拿了高分。表面上分数很好看,但真实能力究竟如何,谁也说不清。

这正是StepFun团队在这篇研究中揭示的核心问题。他们发现,当前用来衡量AI是否真正"全感官理解"能力的测试题,很多其实存在严重漏洞——即便完全不给AI听声音,仅凭图像和文字,AI依然能答对。这就好比用一道"请描述这段音乐的旋律"的题来考核考生,但题目本身附带了一张乐谱,不听也能回答。这样的考题考不出真实水平。

为了解决这个问题,团队做了两件事:一是发布了一套经过"漏洞修复"的评测数据集,名叫OmniClean;二是提出了一套名叫OmniBoost的三阶段训练方案,专门用来提升AI在这种更严格测试下的真实表现。最终,一个仅30亿参数规模的小模型,在经过这套训练后,性能竟能媲美甚至略微超越参数量是其十倍的大模型——这在AI研究圈里,算得上是一件颇值得关注的事情。

一、那些"假装在考全感官AI"的测试题

要理解这项研究,先得弄清楚什么叫"全感官AI模型"(论文中称为omni-modal model)。简单来说,这类AI能同时处理文字、图片或视频、以及声音这三种不同形式的信息,并将它们综合起来回答问题。这就像一个人同时在看电视画面、听电视声音、又在读字幕,然后回答"这段新闻在讲什么"。

现在市面上已经有不少这类AI系统,比如阿里巴巴旗下的Qwen2.5-Omni、Qwen3-Omni,以及一些其他团队开发的系统。为了测试这些AI到底有多厉害,研究者们设计了各种专门的测试题库(即benchmark),这些题库通常会给AI同时提供视频和音频,然后提问。理论上,AI必须综合视觉和听觉信息才能答对。

然而,StepFun团队发现了一个令人不安的现象:他们把这些测试题里的音频全部屏蔽掉,只让AI看视频画面和题目文字,结果AI依然能答对大量题目。这就意味着,这些所谓的"全感官测试题",实际上只是在测视觉理解能力,根本没有真正考核AI整合听觉信息的能力。

团队对九套主流的全感官测试题库进行了系统性排查,共涉及16968道题目。排查方式是:用一个强大的纯视觉AI(Qwen3-VL-30B-A3B-Thinking),对每道题目只提供视觉信息,不给音频,然后让这个AI独立生成16个回答。只要其中至少一个回答是正确的,这道题就被判定为"靠视觉就能解决",进而被从评测集中剔除。最终保留下来的8551道题,就构成了OmniClean这套更严格的评测视图。

剔除的比例令人震惊。以Daily-Omni这个测试题库为例,原本有1197道题,经过排查后只保留了237道——超过80%的题目可以仅靠视觉答对。OmniBench同样严重,1142道题中只剩下417道。相比之下,Video-Holmes的情况稍好一些,1837道题里保留了885道,视觉可解率相对较低。这说明不同测试题库的"漏洞程度"差异巨大,有些题库几乎可以说完全没有在真正测试全感官理解能力。

团队还进一步分析了清理前后,AI分数与视觉能力强弱之间的关联性。在清理之前,视觉能力越强的AI,往往在这些"全感官测试"中得分也越高——这正是漏洞存在的直接证据,说明分数基本上是靠视觉能力撑起来的。清理之后,这种关联在多个题库中明显减弱,说明剩下的题目确实更依赖真正的多模态整合能力。

在九套题库中,有两套比较特殊,无法完全按照上述规则处理。AV-Odyssey这套题库的选项本身就包含音频内容,纯视觉AI根本无法处理这类选项,所以无法用同样的规则判断"视觉可解性",因此保留了全部4555道题。CG-AV-Counting这套题库则是因为题目数量已经较少(376道),如果再进一步剔除会导致题目太少、统计结果不稳定,因此也保留了全部题目,仅作诊断性分析。

二、三阶段"健身计划":让小模型练出真功夫

发现了评测漏洞之后,团队并没有停步,而是进一步追问:在这套更严格的评测体系下,现有的AI训练方法能否真正提升全感官理解能力?为此,他们设计了一套名叫OmniBoost的三阶段训练方案,以Qwen2.5-Omni-3B这个30亿参数的小模型作为起点,逐步"锻造"它的真实能力。

可以把这三个阶段理解成一位运动员的训练计划:第一阶段是基础体能训练,第二阶段是专项竞技训练,第三阶段是通过观看自己的比赛录像进行针对性改进。

第一阶段称为"混合双模态监督微调"(Mixed Bi-modal SFT)。这一阶段的核心思路是:把AI在视频理解、图片理解、音频理解、纯文本理解这四个方向上的训练数据,各自准备10亿个输出词元的规模,然后混合在一起进行训练。每个方向都分配相同的数据量,确保AI不会偏科。这一阶段完全不加入任何"同时包含视频和音频"的题目,只是单纯地提升各个感官通道的基础能力。

这个设计是有意为之的。团队想先回答一个关键问题:如果把AI在视觉和听觉两个方向上都训练得很扎实,这种"双强合并"能自然而然地产生真正的全感官理解能力吗?就像一个人既学会了游泳又学会了跑步,他自然就会铁人三项了吗?

第二阶段称为"混合模态强化学习"(Mixed-Modality RLVR)。这一阶段引入了强化学习机制,具体使用的是一种名为DAPO的算法。区别于第一阶段,这一阶段的训练数据明确包含了同时需要视频和音频信息才能回答的题目——这正是AI平时"偷懒"的盲区。训练数据的构成是:约54.8%的题目同时包含音频和视频,17.4%包含音频和图片,另有约9%是纯视频题,9.4%是纯图片题,9.4%是纯文本题。可以看出,超过七成的训练题目都明确要求AI整合多种感官信息。

强化学习的机制可以理解为"答对了给奖励,答错了扣分"。具体实现上,团队给AI设计了一个两阶段的奖励机制:在训练的前500步,格式规范性的奖励权重较高(0.8),而答案准确性的奖励权重较低(0.2),目的是先让AI学会规规矩矩地输出答案;500步之后,格式奖励降到0.1,准确性奖励提升到0.9,让AI把精力更多集中在真正答对题目上。整个强化学习阶段共训练了1200步。

第三阶段称为"自蒸馏监督微调"(Self-Distillation SFT)。这个名字听起来有点抽象,但原理其实并不复杂。团队不依赖任何外部的更强大AI来提供标准答案,而是让AI自己出题、自己做题、自己筛选好的解题过程,然后用这些经过筛选的"优质解题记录"来进一步强化自身。

具体流程是这样的:首先,团队从LLaVA-Video这个公开视频数据集中挑选种子视频,然后将较长的视频切割成20秒为单位的片段。每个片段都经过两步处理:用Step-Audio-R1这个音频AI生成音频描述文字,用Qwen3-VL这个视觉AI生成详细的视频描述文字。然后,由gpt-oss-120b这个大型语言模型来读取这些文字描述,并提取视频中出现的关键实体(比如"人物"、"音乐"、"汽车"、"语音"等),构建一个轻量级的"实体关系图谱",记录这些实体在同一片段内的关联以及跨片段之间的时序关系。最终,基于这个图谱和描述文字,生成一批有明确答案格式(选择题或数字答案)的合成题目。

有了题目之后,第二阶段训练好的AI(RLVR检查点)会对每道题独立生成8个解答。这8个解答随后经过三重筛选:第一重剔除那些全部答错或者全部答对的题目(前者说明题目太难,AI完全不会;后者说明太简单,没有学习价值);第二重剔除那些AI在推理过程中明确表示"听不到声音"或"看不到画面"的解答,以及那些在输出文字中出现了异常符号的解答;第三重确保AI的推理过程和最终答案保持一致,如果推理过程分析出来是选项A但最终答案写了选项B,则强制修正为推理过程所指向的选项。经过这三重筛选保留下来的高质量解题记录,就作为训练数据用于最终的微调。

三、实验结果:小模型的逆袭与意外发现

实验结果揭示了几个非常有趣的现象,每一个都值得细细品味。

第一个发现是:单靠加强视觉和听觉各自的基础能力,并不能自动获得真正的全感官理解能力。第一阶段的混合双模态训练,在OmniClean这套严格评测下,宏观平均分从基础模型的24.92分只提升到了26.49分,提升幅度仅约1.57分,而且各个题库的表现非常参差不齐——有些题库提升了,有些反而小幅下降。这就像那个游泳加跑步的比喻:会游泳又会跑步,不代表自然就会铁人三项,专项训练才是关键。

第二个发现是:一旦引入了明确包含"视频加音频"组合题目的强化学习训练,模型的整体表现出现了第一次真正意义上的大幅提升。第二阶段结束后,宏观平均分跃升至31.43分,相比第一阶段提高了将近5分,而且这种提升在多个题库上都有体现,是真正的全面性进步而非个别题库的侥幸发挥。Video-Holmes这个题库的提升尤为突出,得分从基础模型的24.36分大幅攀升至47.07分,OmniBench从27.14分提升至43.24分。

第三个发现来自第三阶段。自蒸馏训练之后,模型的宏观平均分略微下降至31.03分,低于第二阶段的31.43分。但如果按照每道题的权重来计算平均分(即"查询加权平均分"),第三阶段反而达到了32.15分,超过第二阶段的30.74分。这个看似矛盾的结果其实并不奇怪:因为AV-Odyssey这套题库包含了4555道题,占到了OmniClean全部8551道题的超过一半,而第三阶段恰好在这个大体量题库上有明显进步(从27.87分提升到31.80分)。所以,查询加权平均分因为AV-Odyssey的巨大权重而被拉高,但在题库数量上平均来看,第二阶段依然略胜一筹。

最终的综合结论是:这个经过三阶段训练的30亿参数模型,在OmniClean的两种聚合指标(宏观平均和查询加权平均)下,都能与参数量数倍于它的大模型相比肩,甚至在查询加权指标下略微超越了Qwen3-Omni-30B-A3B-Instruct这个300亿参数的模型。

为了进一步验证"合成题目质量"这个关键因素的价值,团队还单独做了一个对照实验:不进行前两个阶段的训练,直接从原始基础模型出发,只用经过不同程度筛选的合成题目进行短期微调(仅60步),看看不同筛选策略的效果差异。结果表明,三重筛选中的前两重(F1和F2)筛选后的数据,用于微调之后能带来最好的宏观平均提升,而经过全部三重筛选(F3)的数据,在查询加权指标下稍好一些。更重要的是,无论哪个筛选级别的数据,直接用于训练都比什么都不做要强,说明这套合成题目构建流程本身是有价值的,不依赖更大的外部模型也能产生有效的训练信号。

四、这套方法的深层意义

回过头来看整个研究,它实际上在问一个更根本的问题:我们现在是否真的在朝正确的方向进步?

在AI研究领域,"刷榜"(即在各种公认的测试上拿高分)一直是衡量进步的主要方式。但如果这些测试本身就存在严重漏洞,那么"刷榜"的成绩就像是在考前泄题的情况下拿的高分,看起来光鲜,实际上没有太大意义。StepFun团队的工作最重要的贡献之一,就是系统性地指出了这个评测体系的漏洞,并且提出了一个可操作的修复方案。

OmniClean并不声称自己是完美无缺的。团队在论文中明确指出,剩余的8551道题并不能保证每一道都在任何情况下都无法仅凭视觉解答——这套评测视图的本质是"在固定的视觉筛查流程下未被判定为视觉可解的题目",是一种操作性定义,而非一种绝对的保证。但正因为有了这种相对严格的评测视图,研究者才能更清楚地看到不同训练方法的真实差异。

从OmniBoost的实验结果来看,这项研究还揭示了一个对整个AI训练领域都有参考价值的结论:训练数据的模态构成非常重要。如果想让AI真正整合多种感官信息,就必须在训练时给它提供明确要求这种整合能力的题目,单纯加强各个感官通道的独立能力是不够的。这就好比教人骑自行车,光是分开练习"平衡感"和"腿部力量"是不够的,必须让他真正坐上去骑才能学会。

此外,自蒸馏策略的成功也意味着,AI系统在一定程度上可以依靠自身生成的数据来提升自己,而不必永远依赖更大、更强的外部模型来提供"标准答案"。当然,这种自举能力是有边界的——自蒸馏是在强化学习阶段已经打开的能力基础上进行放大,如果本身什么都不会,自蒸馏也无从发力。

说到底,这项研究揭示的是一个AI领域经常面临却少有人正面回答的问题:我们评测的,真的是我们想评测的能力吗?StepFun团队用一套系统性的实验给出了"未必"的答案,同时也展示了在更严格的条件下如何通过精心设计的训练方案取得真实的进步。对于关心AI发展方向的人来说,OmniClean数据集已经公开发布在Hugging Face平台上,任何人都可以使用这套更严格的评测视图来检验自己的模型,而不是继续在存在漏洞的旧测试上"虚假繁荣"。

Q&A

Q1:OmniClean评测数据集是如何筛选题目的?

A:OmniClean的筛选方法是"视觉独立验证"。对每道原始题目,研究团队屏蔽掉音频信息,只把视频画面和题目文字提供给一个强大的纯视觉AI,让它独立生成16个回答。只要这16个回答中至少有一个是正确的,这道题就被认定为"靠视觉就能解决",随即从评测集中剔除。最终在16968道原始题目中,保留了8551道无法仅凭视觉答对的题目,构成OmniClean这套更严格的评测视图。

Q2:OmniBoost的三阶段训练为什么要按这个顺序进行?

A:三阶段的顺序有明确的逻辑递进关系。第一阶段先用大量双模态数据夯实基础,相当于打好体能基础;第二阶段引入明确包含视频加音频的强化学习训练,相当于专项竞技训练,这是带来真正全感官能力提升的关键环节;第三阶段基于第二阶段已经开拓的能力,通过自生成合成题目进行进一步强化,相当于用比赛录像针对性改进。如果跳过第二阶段直接做第三阶段,自蒸馏的基础就不存在,效果也会大打折扣。

Q3:30亿参数的小模型为什么能媲美300亿参数的大模型?

A:主要原因在于训练数据和训练策略的质量,而非单纯依赖模型规模。通过OmniBoost三阶段训练,尤其是第二阶段引入了大量专门要求整合视频和音频信息的训练题目,以及第三阶段使用经过严格筛选的高质量合成题目进行自蒸馏,30亿参数的模型获得了真正意义上的全感官理解能力提升。与此同时,由于评测换成了OmniClean这套更严格的标准,大模型靠视觉捷径获得的"虚高分数"被削减了,双方差距因此缩小。

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。

相关文章

« 上一篇:如何做营销策划 下一篇:奇正课堂|营销策划公司能提供什么服务? »