开云彩票·(中国)官方网站

栏目分类
你的位置:开云彩票·(中国)官方网站 > 新闻 > 开云彩票·(中国)官方网站这些立异贪图使得模子在仅需 3B 参数的情况下-开云彩票·(中国)官方网站
开云彩票·(中国)官方网站这些立异贪图使得模子在仅需 3B 参数的情况下-开云彩票·(中国)官方网站
发布日期:2025-09-01 05:30    点击次数:59

开云彩票·(中国)官方网站这些立异贪图使得模子在仅需 3B 参数的情况下-开云彩票·(中国)官方网站

3B 模子越过 Meta 7B 模子,超长视频融会 SOTA 刷新了!

来自上海交通大学、北京智源盘考院、特伦托大学的归并盘考团队推出了 Video-XL-Pro,已矣近一万帧视频的单卡解决,大海捞针准确率超 98%。

现存的多模态大模子在超长视频历练和应用中仍存在显贵瓶颈:一方面,难以大界限历练超长视频;另一方面,在解决长视频时,仍然濒临性能差和后果低的双重挑战。

对此,Video-XL-Pro立异弃取"重构式 token 压缩"手艺,何况使用较少的历练数据,在多个基准评测上越过了之前 Meta 发布的 7B 模子 Apollo-7B,以及同尺寸的闻明开源模子Qwen2.5-VL-3B、InternVL2.5-4B等,技俩代码,模子,历练数据均已开源。

模子结构

Video-XL-Pro 的中枢在于其淡薄的重构性 token 压缩手艺(ReCoT),该手艺通过自监督学习生玉成面且紧凑的视频 token,显贵擢升了视频融会的后果和质地。

ReCoT 包含两个要津组件:动态 token 合成器(DTS)和语义引导掩码(SGM)。

DTS 通过轻量级的时空防卫力块对 token 进行压缩,有用捕捉视频中的动态指引;而 SGM 则通过自安妥掩码计谋,减少冗余视觉 token,从而优化重构学习进程。

这些立异贪图使得模子在仅需 3B 参数的情况下,性能越过了好多 7B 参数的模子。

此外,为了增强模子对超长视频融会智商,模子还引入了查询弃取器,使得在输入高下文跳跃结果时模子大略弃取性关爱和查询相关的片断。

为了进一步擢升历练后果,盘考团队还淡薄了视频数据集剪枝计谋。

这些神态通过筛选高质地视频数据,显贵缩小了计较资本,同期保险模子的性能。

评测基准

Video-XL-Pro 接纳多个主流视频融会评测基准,对模子进行了全面的评测,关于长视频理撤职务,评测了LongVideoBench、MLVU、Video-MME,TempCompass 和 VNbench。

其中 MLVU,VideoMME,LongVideoBench 说合在评测模子的长视频融会智商。

VNbench 则是兼顾长视频与短视频,TempCompass 则是评测模子在视频中的时候融会智商。

如表 1 所示,Video-XL-Pro 在多个主流的长视频评测基准上展现了超卓性能。

在 MLVU 的 Dev、Test,以及 TempCompass 上,VIdeo-XL-Pro 均斩获了第又名,不光越过同参数目的闻明开源模子qwen2.5-VL-3B 和 internVL2.5-4B等,也越过了一众 7B 模子,包括 Meta 发布的 7B 模子Apollo-7B等。

在 VideoMME,LongVideoBench,Video-XL-Pro 也越过了绝大部分同参数目模子,并达到与 7B 模子迥殊的水准。

终末在 VNbench 上,VIdeo-XL-Pro 也取得有竞争力的结果,评释模子在增强长视频融会智商的同期,也能兼顾短视频智商。

值得防卫的是,VIdeo-XL-Pro 只使用了相对较少的 SFT 数据(1M),低于 Apollo 的 3.2M,远低于 Qwen2.5-VL,InternVL2.5 等闻明开源模子,进一步评释了神态的有用性。

Video-XL-Pro 还进行了视频「大海捞针」测试来评估其解决超长高下文的智商。

收货于 ReCot 模块和查询弃取器的贪图,使得模子不错输入极长的高下文序列,在交流硬件条目下,模子不错以 8192 帧为输入,达到了近 99%的准确率。

时候融会

为了更全面的评估模子性能,咱们还接纳了经典时候评测基准 Charades-STA 和最新的长视频时候评测基准 V-STaR。

V-STaR 遏止在极长视频中找出与问题相关的片断,精确回答片断时候范围,现存开源模子在 V-STaR 中很难取得很好的成绩,即等于 Qwen2.5-VL-7B,mIoU 得分也仅为 11.48。

Video-XL-Pro-3B 在最新的 V-STaR 长视频时候基准测试斩获 25.07 的 mIoU 得分,在 IoU>0.7 时仍能达到 15.58 的准确率,远上越过一众闻明开源模子,包括InternVL2.5-8B和Qwen2.5-VL-7B,并越过上一代冠军Video-LLaMA3,展现了超卓的长视频时候融会智商,何况在 Charades-STA 上也有着不俗的进展。

回首

该使命淡薄了 Video-XL-Pro 模子,专揽自监督学习压缩视觉标志,使用相对少许数据下历练的 3B 模子就能获取越过大多半 7B 模子的性能。

Video-XL-Pro 在多个主流长视频融会基准评测上进展优异。

模子有望在多个长视频融会的应用场景中展现出平庸的应用价值,成为过劲的长视频融会助手。

当今,模子、代码、历练数据均已开源,以促进长视频融会社区的合营和发展。

论文贯穿:

https://arxiv.org/abs/2503.18478

代码贯穿:

https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro

模子贯穿:

https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B

历练数据贯穿:

https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

一键三连「点赞」「转发」「小心心」

迎接在评述区留住你的念念法!

—  完  —

学术投稿请于使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿施行‍

附上论文 / 技俩主页贯穿,以及筹谋样式哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见开云彩票·(中国)官方网站



上一篇:彩票游戏app平台正股最新价为40.75元-开云彩票·(中国)官方网站
下一篇:开云彩票·(中国)官方网站谷歌也在前段期间发布了领导词工程白皮书-开云彩票·(中国)官方网站
友情链接:

Powered by 开云彩票·(中国)官方网站 @2013-2022 RSS地图 HTML地图