视频生成模型哪家强？豆包可灵通义海螺全面评测【AI评测】

2024年9月29日下午10:27 • 公司, 资讯

比较贴切的表述是，豆包的视频模型这次的升级，已然将国内AI视频的美学境界拔高了一个档次，让AI视频也开始变得更加实用了。

作者 | 斗斗

出品 | 产业家

国内的文生视频领域，也是吃上“细糠”了。

最近，火山引擎宣布豆包大模型正式发布视频生成模型。至此，两大短视频平台在文生视频领域的较量正式开启。

产业家也是在第一时间提前感受了一把。先来几个demo，给你们一个小小的震撼。

很明显，这生成效果并不亚于Sora。

要知道，Sora在初期的宣传和报道中被赋予了很高的期望。然而，至今为止，Sora尚未真正面向普通人群应用，可以说是实实在在的期货。

为了更加客观的展示豆包文生视频模型的真实能力，产业家申请到即梦AI内测版的豆包视频生成-Seaweed模型测试机会，将其与国内几家主流文生视频模型，进行了同一提示词下的生成效果对比，意外看到了豆包文生视频模型的一些新亮点。

一、复杂指令下，足够听话

众所周知，拍摄电影时，导演会指导演员进行多个镜头的拍摄，然后剪辑成连贯的故事。如果一场戏的角色比较多，导演则需要统筹演员的站位、进场时间以及他们之间的对话、动作等。

只有这样，拍摄出来的画面，才会更加流畅。然而，对于当下的文生视频模型而言，大部分只能完成简单指令单一动作。比如只能生成单一的镜头，无法切换，人物动作也较为单一。

这样生成出来的效果，其实和照片差不多。但是在豆包视频生成模型的平台上，有了新的突破。

提示词：一群朋友在餐厅里聚餐，然后其中一人突然提出一个惊喜的计划。

图示：各家视频生成效果表现汇总

四、各种风格、尺寸，都Hold的住

根据介绍能看到，豆包视频生成模型采用的是Transformer深度学习模型的架构，并且进行了优化。这种架构，可以使模型更加强大，泛化能力也会更强。从风格来看，其可以生成3D动画、2D动画、国画、黑白、厚涂等多种不同的艺术风格的视频。

此外，生成的视频可以适应不同设备的屏幕尺寸，包含1:1，3:4，4:3，16:9，9:16，21:9五个比例。无论是电影大屏幕、电视、电脑还是手机，都能观看。

这些视频目前可以被用于电商营销（如产品展示视频）、动画教育（如教学动画）、城市文旅（如旅游宣传视频）、微剧本（如短视频故事）等多种商业用途。

除了商业用途，豆包还能帮助专业的视频创作者和艺术家们在创作过程中节省时间，提供灵感，或者完成一些复杂的视频制作任务。

最后对豆包的文生视频进行一个总结。

首先它是一个语义大师。它不仅听得懂你的指令，还能理解背后的深层含义，让视频里的每个动作都恰到好处。

还是一个镜头切换高手。在切换镜头时，它能保证故事的流畅和一致性，就像一个无缝连接的叙事大师。

更是一个动态捕捉专家。无论是快速的动作还是炫酷的镜头移动，它都能捕捉得生动活泼，让你仿佛置身于真实世界。

也可以是一个视觉艺术家：它创造的视频不仅清晰逼真，还具有专业的色彩和光影，支持多种风格和尺寸，让你的视觉体验丰富多彩。

比较贴切的表述是，豆包的视频模型这次的升级，已然将国内AI视频的美学境界拔高了一个档次，让AI视频也开始变得更加实用了。

在文章的最后，想要强调的一点是，文中所提到的生成的视频都是基于豆包视频生成模型S 2.0的非会员版本。目前，具备更强多主体互动、多镜头切换一致性能力的豆包视频生成模型-PixelDance，正在紧锣密鼓的内测上线中，或许能给大家带来更多惊喜。

豆包，多少是有点不露锋芒，闷声干大事了。

该文观点仅代表作者本人，企服科学平台仅提供信息存储空间服务。