OpenAI推新款大模型Sora,可根据文本生成60秒视频

Andrew2024-02-18 14:35:43

·Sora可根据文本指令生成60秒视频,可生成具有多个角色、特定类型运动及精确主题和背景细节的复杂场景,并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。


·OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。不过,Sora在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例。


Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。


开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。


OpenAI表示,Sora能够根据文本指令生成长达60秒的视频,同时保持视觉质量并遵守用户提示。Sora可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。


Sora生成的视频:一只猫叫醒了正在睡觉的主人。


“这个模型不仅能理解用户在提示中要求什么,还能理解这些东西在现实世界中是如何存在的。”OpenAI表示,正在教人工智能理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。


除了能够仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。

Sora有时会生成不合情理的动作,譬如在跑步机上倒着跑步。


不过,Sora仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。



Sora生成的视频:五只小狼在一条砾石路上嬉戏追逐,周围长满了草。Sora的缺点是动物或人会凭空出现,特别是在包含许多实体的场景中。


Sora生成的视频中,动物或人会凭空出现,特别是在包含许多实体的场景中。此外,Sora难以精确描述随时间推移发生的事件,例如跟踪摄像机的特定轨迹。


Sora生成的视频:一把普通的塑料椅子在沙漠中被发现,人们小心翼翼地挖掘并掸去沙子。在这个例子中,Sora没有将椅子建模为一个刚性物体,导致不准确的物理交互。


对于模型安全性的考量,OpenAI表示,计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器,用于审查每个生成视频的帧,以帮助确保它在显示给用户之前符合我们的使用政策。”


OpenAI表示,Sora将首先提供给网络安全教授,以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限,以此收集关于创意专业人士如何使用Sora的反馈。


Sora生成的视频:在“赛博朋克”背景下,一个机器人的生活故事。


市场研究公司ABI research高级分析师里斯•海登(Reece Hayden)表示,尽管多模态大模型并不新鲜,而且文生视频的模型已经存在,但OpenAI声称Sora具有的长度和准确性使其与众不同。海登认为,这类人工智能模型可能会对数字娱乐市场产生重大影响,新的个性化内容将在各个渠道传播,“一个明显的用例是电视,创造简短的场景来支持叙事。”

文本分类
本作品采用《CC 协议》,转载必须注明作者和本文链接
一.文本分类文本分类旨在对文本集按照一定的分类体系或标准进行自动分类标记,属于一种基于分类体系的自动分类。牛亚峰老师将传统的文本分类流程归纳如下图所示。在传统的文本分类中,基本上大部分机器学习方法都在文本分类领域有所应用。本文将采用词向量、TFIDF两种方式进行实验。
本文针对GDPR中的第13章对隐私政策进行合规性研究。 GDPR第13章对APP隐私政策进行了以下如图1所示的9项规定,例如1. Collect Personal Info → Data Retention Period 代表如果APP要收集用户信息,则必须告知用户数据保留期限
论文证明了利用仅有少量超参数的CNN在多个NLP任务上取得较好的成果;预训练的向量是可用于各种分类任务的“通用”特征提取器。
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。一.RNN文本分类1.RNN循环神经网络英文是Recurrent Neural Networks,简称RNN。假设有一组数据data0、data1、data2、data3,使用同一个神经网络预测它们,得到对应的结果。RNN常用于自然语言处理、机器翻译、语音识别、图像识别等领域。本文将采用词向量、TFIDF两种方式进行实验。
近日,OpenAI紧急发布了一个AI文本检查工具,能够检测输入内容是否是使用ChatGPT等人工智能工具生成的。
·Sora可根据文本指令生成60秒视频,可生成具有多个角色、特定类型运动及精确主题和背景细节的复杂场景,并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。
Python人工智能第10篇介绍TF实现CNN图像分类任务
在钓鱼攻击中,攻击者可以使用ChatGPT生成虚假电子邮件或消息,更好地伪装成受害者所信任的个人或组织,从而获取受害者的个人信息。这种行为对个人和组织的信息安全构成威胁。ChatGPT可以用于监控文本和消息内容本身,自动化检测机器生成内容,保护用户的信息和隐私,采取措施来限制ChatGPT的滥用,以确保其在网络安全领域的积极作用。
深度神经网络(dnn)在过去的十年中发展迅速,并已广泛应用在现实生活中。与此同时,DNN模型已被证明容易受到安全和隐私攻击。最近引起广泛关注的一种攻击是“后门攻击”。具体地说,对手毒害了目标模型的训练集,用一个附加的秘密触发器将所有的输入误导为指定的目标类。之前的后门攻击主要集中在计算机视觉(CV)应用上,如图像分类
AI就像一个黑匣子,能自己做出决定,但是人们并不清楚其中缘由。需要了解AI如何得出某个结论背后的原因,而不是仅仅接受一个在没有上下文或解释的情况下输出的结果。在本文中,我将介绍6个用于可解释性的Python框架。
Andrew
暂无描述