4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

2024-08-07 09:00:46

导读【新智元导读】国内首个人人可用的国产Sora「清影」，已经引起了AI视频圈的轰动!才发布6天，生成视频数就已经破百万。并且，智谱AI也将同源...

【新智元导读】国内首个人人可用的国产Sora「清影」，已经引起了AI视频圈的轰动!才发布6天，生成视频数就已经破百万。并且，智谱AI也将同源的视频生产模型CogVideoX，一并开源了。

7月26日，智谱发布AI 生视频产品「清影」，30秒将任意文图生成视频，并上线在他们的AI助手「智谱清言」上，被誉为是国内首个人人可用的Sora。

就在发布6天后，「清影」生成到视频数便已突破了百万量级。

今天，智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX正式开源。

团队表示，希望每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型，从而推动整个行业的快速迭代与创新发展。

打开AI助手「智谱清言」即可体验

随着大型模型技术的持续发展，视频生成技术正逐步走向成熟。

以Sora、Gen-3等闭源视频生成模型为代表的技术，正在重新定义行业的未来格局。

然而，截至目前，仍未有一个开源的视频生成模型，能够满足商业级应用的要求。

CogVideoX系列包含多个不同尺寸大小的开源模型。

目前已经开源的CogVideoX-2B，提示词上限为226个token，视频长度为6秒，帧率为8帧/秒，视频分辨率为720×480。

它在FP-16精度下的推理仅需18GB显存，微调则只需要40GB显存。这意味着单张4090显卡即可进行推理，而单张A6000显卡即可完成微调。

代码仓库:https://github.com/THUDM/CogVideo

模型下载:https://huggingface.co/THUDM/CogVideoX-2b

技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

目前，该项目已在GitHub上斩获了3.8k星。

下面，我们就来看看CogVideoX生成的效果到底如何?

一个木制玩具船，在模拟海浪的蓝色地毯上航行，宛如在真的海水行驶一般。

一辆白色越野车沿着松树环绕的陡峭土路快速行驶，可以看到车尾的尘土飞扬。

其实这个场景对于AI来说，相对较难，只有正确理解了物理世界，才不会让生成的尘土在车前扬起。

下面这幅在战乱中，人物表情细节的刻画，细腻丰富。

针对更宏观的场景，CogVideoX也能将白雪皑皑的森林、无人穿梭的宁静小路，生动地描绘出来。

舌尖上的美食，还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串，让人看了垂涎欲滴。

CogVideoX

见识到CogVideoX惊艳视频生成能力，你一定非常好奇这是怎么做到的?

VAE

视频数据因包含空间和时间信息，其数据量和计算负担远超图像数据。

为应对此挑战，团队提出了基于3D变分自编码器（3D VAE）的视频压缩方法。

其中，3D VAE通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。

模型结构包括编码器、解码器和潜在空间正则化器，并通过四个阶段的下采样和上采样实现压缩。

时间因果卷积确保了信息的因果性，减少了通信开销。而上下文并行技术的采用，则可以适应大规模视频处理。

实验中，团队发现大分辨率编码易于泛化，而增加帧数则挑战较大。

因此，可将分两阶段训练模型:

- 首先在较低帧率和小批量上训练;

- 然后通过上下文并行在更高帧率上进行微调。

训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。

专家Transformer

团队使用VAE的编码器将视频压缩至潜在空间，然后将潜在空间分割成块并展开成长的序列嵌入z_vision。

同时，使用T5将文本输入编码为文本嵌入z_text，然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。

最后，反向拼接嵌入来恢复原始潜在空间形状，并使用VAE进行解码以重建视频。

数据

视频生成模型训练需筛选高质量视频数据，以学习真实世界动态。但视频可能因人工编辑或拍摄问题而不准确。

为此，团队开发了负面标签来识别和排除低质量视频，如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。

通过video-llama训练的过滤器，团队标注并筛选了20，000个视频数据点。同时，计算光流和美学分数，动态调整阈值，确保生成视频的质量。

视频数据通常没有文本描述，需要转换为文本描述以供文本到视频模型训练。然而，现有的视频字幕数据集字幕较短，无法全面描述视频内容。

为了解决一问题，团队提出了一种从图像字幕生成视频字幕的管道，并微调端到端的视频字幕模型以获得更密集的字幕。

这种方法通过Panda70M模型生成简短字幕，使用CogView3模型生成密集图像字幕，然后使用GPT-4模型总结生成最终的短视频。

除此之外，团队还微调了一个基于CogVLM2-Video和Llama3的CogVLM2-Caption模型，使用密集字幕数据进行训练，以加速视频字幕生成过程。

性能

为了评估文本到视频生成的质量，团队使用了VBench中的多个指标，如人类动作、场景、动态程度等。并排除了不适用于评估需求的指标，例如颜色指标，因为它可能误导视频生成模型。

此外，团队还使用了两个额外的视频评估工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score，这些工具专注于视频的动态特性。

值得一提的是，团队已经验证了scaling law在视频生成方面的有效性!

未来会在不断scale up数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

团队表示，目前的视频质量还有很广阔的提升空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

此外，性能更强参数量更大的模型正在路上，敬请关注与期待。

参考资料:

https://huggingface.co/THUDM/CogVideoX-2b

https://github.com/THUDM/CogVideo?tab=readme-ov-file

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签： 4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

上一篇:在抖音电商做生意，如何“花小钱办大事”？这些商家有话说

下一篇:最后一页