中国的Sora在哪？何时到来？ - 网安 - 专业的网络安全产业、社区、知识平台

近日，OpenAI的Sora可谓炸裂登场，OpenAI再次成为顶流。

这不得不让“红衣教主”、360集团创始人周鸿祎感叹，OpenAI的CEO奥特曼（Sam Altman）是个营销大师。能够在合适的节点推出现象级产品，吸引全球流量，抬高公司估值……

“我相信OpenAI手里应该还藏着一些秘密武器，无论是GPT-5，还是机器自我学习自动产生内容，包括AIGC。奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”周鸿祎表示。

在AIGC领域，“文生视频”最难，难度排序是文本＜静态图像＜声音＜视频。

小冰公司CEO李笛曾在2023年上半年接受媒体采访时表示，文本生成视频当前主要短板是可控性。生成的质量不稳定，需要调整的时候不容易调整，这导致它可以用来Demo（演示），但很难实际落地。所以从这个角度看，文生视频应用空间远没有文生文本大，而且难度与成本也要高得多。

如今，Sora的出现标志着“文生视频”应用开始落地。

因为，OpenAI的Sora能在多角度的镜头切换中，就能实现对象的一致性，这是个奇迹！这种级别的多镜头一致性，是当前市面上“文生视频”模型无法企及的……更重要的是，在Sora身上，竟已经有了世界模型的雏形。通过观察大量数据，它竟然学会了许多关于世界的物理规律（当然，还不完善，比如，某人咬饼干，但饼干没有咬痕）。

专家预测，未来某天，Sora将冲击“文生3D视频”领域。

“文生视频”不是新鲜事

2022年下半年开始，谷歌、Meta以及一些创业公司相继发布了文本生成视频的系统，但这些系统效果并不理想，当时业界就等着OpenAI公司发布“文生视频”模型，看看领头羊的武器有多先进。

2022年10月Meta公布了文生视频工具Make-A-Video，这个工具可以把文字生成视频，也可以将静态图片生成连续图片，然后将这些图片连接成一段视频。尽管Make-A-Video尚显“生涩”，但当时还是引起业界“骚动”。

之后，谷歌公司CEO Sundar Pichai亲自发布了该公司的两个文生视频工具——Imagen Video与Phenaki，前者主打视频品质，后者主要挑战视频长度。

2023年2月6日，Runway发布Gen-1模型，这个模型可以通过应用文本提示或者参考图像所指定的任意风格，将现有视频转换为新视频。今年的奥斯卡将7项大奖颁给了《瞬息全宇宙》，在影片的制作过程中，就采用了这家公司的技术。

中国的Sora在哪？

从2023年初，“文生视频”赛道在中国渐热。

3月22日阿里达摩院在AI模型社区“魔搭”（ModelScope）悄悄放出“文本生成视频大模型”，在开源模型平台低调对外测试。

3月16日，百度发布文心一言也提供文字生成视频功能，在去年8月又上线了文本转视频原生插件。

现在，ICT茶馆掌柜在华为云官网上查找，可以发现华为盘古多模态大模型有视频生成功能选项，但写着“敬请期待”。

可以说，无论是国外的Runway，还是国内的基础大模型公司，各自都在做“文生视频”模型，但与Sora相比还有一定差距，一方面是体现在持续时长上，绝大多数视频时长还在4-10秒左右，其连贯性也有所不足。另一方面是镜头的组合，绝大多数视频都是单镜头；而Sora已实现了在一个视频里面，多角度镜头的组合。例如，在剪影动画中，视频从一只狼对着月亮嚎叫，直到它找到狼群，切换了不同景别的多个镜头。

这就是现实！人家目前仍是“学霸”！

但不管怎样，AI文生视频工具逐步增强，未来将会改变电商直播、产品广告、影视制作等多个行业的生态，下游应用的加速时刻也将到来。当然，技术是把双刃剑，以后版权侵权、色情视频泛滥、视频诈骗等问题也会层出不穷。

正如资深人工智能专家郭涛所说，AI文生视频、图生视频等赛道将会继续保持快速发展的趋势，未来一两年内，AI生成视频领域将会出现更多的创新和突破，包括更加智能的视频生成技术、更加丰富和多样化的应用场景和更加完善、成熟的技术标准和商业模式等。同时，这个领域也将会面临一些挑战和难点，例如数据安全和隐私保护、商业化模式和市场接受度等问题。

当然，在中美角力的当下，AI是主战场之一，我们还是期待着中国的Sora尽快到来！