
生成分钟级的长视频天猫配资,只需要和短视频相当的成本?
字节 Seed 与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低 85%。
而且质量不减,还能够保持人物和场景的连贯性。
请看 VCR:
团队认为,长视频生成本质上是天猫配资一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务。
为此,团队提出了一种新的稀疏注意力机制—— Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频
先来看用这项技术生成的长视频效果。
首先是写实场景,这段视频长度 56 秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。
从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。
换成卡通场景,也能在长达一分半的时间之内保持前后一致性。
关键是天猫配资,生成这样长时间一致的视频成本,被 MoC 打下了一个数量级。
使用 MoC 机制生成一分钟的 480P 视频,仅需消耗 2.32 × 10 ¹² FLOPs 的计算量,而基线模型需要 1.66 × 10 ¹³ FLOPs,MoC 将计算量削减了 85%。

对于短片来说,MoC 也同样能实现降本效果。
多镜头 64 秒(8 × 8 秒)的 480P 视频中,基线为 1.7 × 10 ¹³ FLOPs,而 MoC 只用 2.3 × 10 ¹² FLOPs,同样节省约 86%。
并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头 8 秒的 320 × 192 短片测试里,基线 1.9 × 10 ¹ ⁰ FLOPs,MoC 为 4.1 × 10 ⁹ FLOPs,计算量减少约 78%。

那么,MoC 方法是如何实现的呢?
将长视频生成重构为信息检索
作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为 Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索。
而 MoC 的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询 token 只与最相关的少数块建立注意力连接。
这一系列操作不改变扩散 Transformer 主干,仅以稀疏检索的方式把计算集中在真正重要的历史。
"可训练稀疏路由"

MoC 的第一步是"内容对齐分块"——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。
因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。
随后进入"动态 top-k 路由",对于每个查询 qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的 k 个块参与注意力,再把必选锚点加入掩码中。
这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的"均值 +top-k "训练成高表达力的检索器。
为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:
其一是"跨模态"链接,保证所有视觉 token 始终可访问完整文本提示,维系主题一致且强化可编辑性;
其二是"镜头内"链接,使每个 token 至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。
另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为 DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。
除了机制本身,在工程实现方面,MoC 回把选中的键值一次性打包进 FlashAttention 可变长核,实现对数千万 token 的线性伸缩且访存连续,在 GPU 上可充分并行。
论文地址:
https://arxiv.org/abs/2508.21058
项目主页:
https://primecai.github.io/moc/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
� � 最新最专业的 AI 产品信息及分析 � �
� � 不定期发放的热门产品内测码 � �
� � 内部专属内容与专业讨论 � �
� � 点亮星标 � �
科技前沿进展每日见天猫配资
传金所配资提示:文章来自网络,不代表本站观点。