来看看Sora, OpenAI的文本到视频生成器

admin 13 2025-01-22 10:37:19

为了不被谷歌(Google)等竞争对手超越,人工智能初创公司OpenAI上周四推出了自己的文本到视频模型Sora。谷歌最近推出了一款文本到视频的工具。

和谷歌的Lumiere一样,Sora的可用性也是有限的。与Lumiere不同,Sora可以生成长达1分钟的视频。

文本到视频已经成为生成式人工智能领域的最新军备竞赛,OpenAI、谷歌、微软等公司都将目光投向了文本和图像生成之外的领域,并试图巩固自己在这个预计到2032年将达到1.3万亿美元收入的领域的地位,并赢得自ChatGPT问世一年多以来一直对生成式人工智能感兴趣的消费者。

根据ChatGPT和Dall-E的制造商OpenAI的一篇文章,Sora将提供给“红队”,即错误信息、仇恨内容和偏见等领域的专家,他们将“对对性地测试该模型”,以及视觉艺术家、设计师和电影制作人,以获得创意专业人士的额外反馈。这种对抗性测试对于解决令人信服的深度伪造的潜力尤其重要,这是使用人工智能创建图像和视频的主要关注领域。

除了从外部获得反馈外,这家人工智能初创公司还表示,它希望现在分享自己的进展,以“让公众了解即将出现的人工智能能力”。

的优势

Sora的与众不同之处在于它对长提示的解释能力,其中一个例子就有135个单词。OpenAI周四分享的样本视频显示,苍井空可以创造各种各样的角色和场景,从人物、动物、毛茸茸的怪物到城市景观、风景、禅宗花园,甚至是淹没在水下的纽约市。

来看看Sora, OpenAI的文本到视频生成器

这在一定程度上要归功于OpenAI过去在Dall-E和GPT模型上的工作。文本到图像生成器dall - e3于9月发布。CNET的斯蒂芬·尚克兰称其为“从2022年开始的戴尔- e2的一大进步”。(OpenAI最新的人工智能模型GPT-4 Turbo已于去年11月上市。)

特别是,Sora借用了dall - e3的重现技术,OpenAI表示,该技术可以为视觉训练数据生成“高度描述性的字幕”。

该帖子称:“苍井空能够生成具有多个角色、特定运动类型和精确主题和背景细节的复杂场景。”“这个模型不仅能理解用户在提示中提出的要求,还能理解这些东西在现实世界中的存在方式。”

OpenAI分享的样本视频确实看起来非常逼真——除了近距离出现人脸或海洋生物游泳的时候。否则,你可能很难分辨什么是真的,什么是假的。

该模型还可以从静止图像生成视频,扩展现有视频或填充缺失的帧,就像Lumiere所做的那样。

该帖子补充说:“Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。”

来看看Sora, OpenAI的文本到视频生成器

通用人工智能(AGI)是一种更高级的人工智能形式,更接近类人智能,具有执行更广泛任务的能力。meta和DeepMind也表示有兴趣达到这一基准。

弱点

OpenAI承认Sora有缺点,比如难以准确地描述复杂场景的物理现象,难以理解因果关系。

该帖子称:“例如,一个人可能咬了一口饼干,但之后饼干上可能没有咬痕。”

那些仍然需要用手画出L来分辨哪个是左的人可以振作起来了:苍井空也把左和右混在一起了。

OpenAI没有透露Sora何时会被广泛使用,但指出它希望首先采取“几个重要的安全措施”。这包括满足OpenAI现有的安全标准,该标准禁止极端暴力、性内容、仇恨图像、名人肖像和他人的IP。

“尽管进行了广泛的研究和测试,但我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用它的所有方式,”该帖子补充道。“这就是为什么我们认为,随着时间的推移,从现实世界的使用中学习是创造和发布越来越安全的人工智能系统的关键组成部分。”

来看看Sora, OpenAI的文本到视频生成器


 

上一篇:2023年改变马哈拉施特拉邦“均势”的人2024年面临最大的领导力考验
下一篇:青少年睡眠不好会增加多发性硬化症的风险吗?
相关文章

 发表评论

评论列表

2025-01-22 10:54:51

人工智能是一部引领科技潮流的杰作,它不仅展示了AI技术的魅力与潜力,同时引发了我们对未来社会的深刻思考和担忧!

2025-01-22 14:35:26

人工智能不仅是一部科技电影,更是一次对未来世界的深刻思考与警示,它以独特的视角展现了AI的魅力及挑战性影响!

2025-01-29 05:16:25

OpenAI是一家引领人工智能技术革新的先锋企业,其强大的研发能力和开放平台为全球带来了无限可能。