伟德国际爆火全网《猫和老鼠》背后模型竟是这家国产AI！掀二创风暴GitHub破万星

伟德国际新闻

公司新闻

行业动态

技术资讯

公司新闻

伟德国际爆火全网《猫和老鼠》背后模型竟是这家国产AI！掀二创风暴GitHub破万星

发布日期：2025-10-18 来源: 网络阅读量（）

伟德国际爆火全网《猫和老鼠》背后模型竟是这家国产AI！掀二创风暴GitHub破万星

　　【新智元导读】最近英伟达等机构爆火全网的《猫和老鼠》，背后模型被扒出来了——竟是来自智谱国产大模型CogVideoX-5B！原来，这个模型凭惊人的效果，早已在开源社区开发者中掀起一股全球的二创风暴。

　　只需要一个提示，不用任何剪辑，AI就可以帮我们任意创作这个童年经典动画，一次60s，童年回忆无限续杯！

　　这个神奇的「一分钟视频」生成器，由英伟达、斯坦福、UCSD等机构的研究者构建。

　　而且原理极其简单——只需在预训练Transformer中嵌入TTT层，就能让一个5B的小模型理解复杂提示，生成长达1分钟的视频了！

　　汤姆正在厨房的桌子旁高兴地吃着苹果派，伟德国际吧不料趁它去开门时，苹果派被杰瑞偷走了。两人上演追赶，最终杰瑞成功逃脱，汤姆撞到墙上。

　　杰瑞在水下找到了藏宝图，成功躲避汤姆后，它在沉船中发现了宝藏。然而正在庆祝时，汤姆的追逐却让它遇到一条饥饿的鲨鱼，陷入了烦。

　　有意思的是，当我们去深入调查背后技术时，发现这个爆火全网的研究，竟然是建立在一个来自智谱AI的国产大模型的基础上。伟德国际吧

　　具体来说，研究者们用了预训练的CogVideo-X 5B作为基础模型，在这个模型里加上TTT层，再进行微调。

　　而这个传说中的CogVideo-X系列图生视频模型，早在去年8月开源时，就在AI圈内引起了不小的轰动。

　　它是一个简单且可扩展的结构，包含一个3D因果VAE和一个专家Transformer，可以生成连贯、长时长、动作丰富的视频：

　　· 支持多种宽高比，分辨率高达768×1360，长度为10秒，帧率为16fps

　　· 是首批商业级开源视频生成模型，有5B和2B两种规模，包括文本到视频和图像到视频版本

　　在CogVideoX-5B中，只要输入「一张图像」+「提示词」，就能生成视频了。

　　比如输入狗狗图片，配文「开心狗狗」，一只张嘴微笑的开心狗狗视频就生成了。

　　而且，CogVideoX-5B的视频生成效果，在当时开源界就已经足够惊艳。

　　一只狗在雨中奔跑，还戴着墨镜，尤其是地面中的倒影更显真实。还有外星人与宇航员握手这种未来科幻的场景，以及满是蝴蝶及喷泉的梦想中的精美画面，都能实现。

　　支持多种推理精度，推理显存需求最低仅为11.4GB，单张3060显卡即可完成推理；

　　LoRA微调显存需求为63GB，SFT微调为75GB，单卡A100（80GB）同样可以完成微调任务。

　　相比于CogVideoX-5B，CogVideoX v1.5包含5/10秒、768P、16帧的视频生成能力，I2V模型支持任意尺寸比例，伟德国际吧大幅提升了图生视频质量及复杂语义理解。

　　一直以来，视频生成模型都存在着运动幅度有限、持续时间较短的问题。其中，基于文本生成具有连贯叙事性的视频尤为困难。

　　首先，团队设计并训练了一个3D因果VAE，在空间和时间维度上对视频进行压缩，从而实现了高维视频数据的高效处理。

　　与先前微调2D VAE的方法相比，这种策略不仅有助于显著减少序列长度和相关训练计算量，还能有效防止生成视频中的闪烁，从而确保帧间的连续性。

　　其次，为改善视频与文本间的对齐效果，团队提出了一种带有专家自适应LayerNorm的专家Transformer，用来促进两种模态的融合。

　　为确保视频生成中的时序一致性并捕捉大范围运动，建议使用3D全注意力机制，伟德国际吧从而在时间和空间维度上对视频进行全面建模。

　　第三，鉴于在线可用的大多数视频数据缺乏准确的文本描述，团队开发了一个能够准确描述视频内容的视频描述生成流程。

　　通过为所有视频训练数据生成了新的文本描述，CogVideoX精确理解语义的能力得到了显著的增强。

　　此外，团队还设计了渐进式训练技术，包括多分辨率帧打包和分辨率渐进式训练，用以进一步提升CogVideoX的生成性能和稳定性。

　　以及，提出了显式均匀采样（Explicit Uniform Sampling）方法——通过在每个数据并行单元上设置不同的时间步采样间隔，稳定了训练损失曲线并加速了收敛。

　　对于生成时间较长的视频，一些模型可能会为了获得更高分数而产生帧间变化极小的视频，但这类视频缺乏丰富的内容。

　　为解决此问题，团队使用了两种视频评估工具：动态质量（Dynamic Quality）和GPT4o-MTScore。

　　前者通过结合多种质量指标与动态得分，减轻了由视频动态性与视频质量之间负相关所带来的偏差；后者则是通过GPT-4o来测量视频内容的变化程度。

　　结果显示，CogVideoX-5B不仅在视频生成质量方面表现出色，而且在处理各种复杂动态场景方面也优于先前的模型。

　　其中，伟德国际吧CogVideoX-5B在7项指标中有5项取得了最佳性能，并在其余2项指标上也名列前茅。

　　在VAE重建效果方面， CogVideoX-5B取得了最高的PSNR值和最低的抖动。

　　在官方的Github页面上展示了十几个使用CogVideoX的开源项目链接，其中不乏一些实用、知名的项目。

　　该项目在CogVideoX-5B生成的视频基础上进行编辑和帧插值操作，以达到更好的效果。

　　被CVPR 2025录用为Highlight的ConsisID，是一种身份保持的文本到视频生成模型，基于CogVideoX-5B，通过频率分解在生成的视频中保持面部一致性。

　　显然，在未来我们还将见证更多基于CogVideoX-5B微调的项目如火如荼地上线，充分发挥CogVideoX系列开源模型的力量。

　　据说，3天后智谱的全新开源模型也要上线，包括基座模型、推理模型、沉思模型，实在是把期待值给拉满了。

　　原标题：《爆火全网《猫和老鼠》背后模型竟是这家国产AI！掀二创风暴GitHub破万星》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

伟德国际爆火全网《猫和老鼠》背后模型竟是这家国产AI！掀二创风暴GitHub破万星

相关资讯

官方微信