故事,是对现实的剖析和重构。讲好一个故事,需要创造性地把素材组织起来。在 AI 时代,一个好的故事又将如何被呈现出来呢?
今年,是视频生成类产品爆发式增长的一年。在AI生成的视频中,我们看到创作者在用一种新的方式讲述着自己的故事。
同样,AI 视频内容是通过新的创作方式诞生的新娱乐内容形态,有可能诞生2C平台级的机会。
小编近期发现了几个不同视频赛道的创业者,都瞄准了 AI 生成消费级内容,甚至成为下一个 “Netflix” 的机会。SenseAI盘点了视频模型层的 Odyssey,内容平台创新的DreamFlare,以及从动画制作 Agent System 切入的 Fable Studio,Enjoy!
01.
Odyssey
打造“好莱坞级”的视觉AI
视频生成模型的 AI 生成效果天花板往往决定了故事片的天花板。底层技术迭代是可行的一条路径。
Odyssey 选择了这条路径,希望通过构建一个类似OpenAI的 Sora 或 Runway 的 Gen3的强大底层模型,旨在为专业电影制作人和动画师打造“好莱坞级”人工智能视频工具。用户使用 Odyssey 的工具,可以直接将场景或镜头序列的文字描述转换成简短、高质量的电影视频。
从自动驾驶到视频生成
这家公司的核心创始人奥利弗·卡梅伦 (Oliver Cameron) 和杰夫·霍克 (Jeff Hawke) 此前都是自动驾驶汽车领域的从业者。Cameron 曾和他人共同创办了自动驾驶汽车公司 Voyage,并在2021年被Cruise收购。而 Odyssey 目前的 CTOHawke 曾是英国公司 Wayve 的创始研究和工程团队成员,Wayve 致力于打造自动驾驶汽车的软件大脑,是目前自动驾驶领域的独角兽企业。
自动驾驶算法的研发经历是如何与视频生成产品产生关联的呢?
Cameron 表示,本质上,自动驾驶汽车软件是关于人工智能软件如何从二维输入中学习三维世界,而视觉效果问题本质上是相反的——将三维世界压缩成二维运动图像。
Hawke 曾经在 Wayve 研究一个名为 FIERY 的 AI 模型,该模型是 GAIA 的前身,可以实现拍摄初始视频帧,然后使用它来构建整个逼真的街景视频,Wayve 使用该技术创建合成数据来训练其自动驾驶决策 AI 软件。类似的想法也可以用于制作高质量的电影镜头序列。
从自动驾驶汽车领域走出来的另一个好处是,两位联合创始人都明白收集自己的现实世界数据集来训练模型的重要性。与其他依靠从互联网上搜集视频数据来为 AI 软件提供数据的文本转视频公司不同,Odyssey 正在现实世界中收集自己的三维数据集,并利用这些数据来为其模型提供数据。Cameron 表示,互联网上根本没有足够大的三维数据集来构建具有足够大小和能力的 AI 模型,以满足 Odyssey 想要创建的目标。他和 Hawke 在自动驾驶汽车方面的经验让他们对如何收集 Odyssey 所需的现实世界数据有了一些聪明的想法。
好莱坞质感从何而来?
“好莱坞级”的视效意味着生成的视频不仅要保证一致性和连贯性,还要在画面细节上做到精准把控。传统的电影拍摄,需要摄影指导、灯光师、美术指导等一系列专业人员的共同参与。AI 生成视频中, 同样也需要在场景构建、镜头控制上做到流畅自然,而单一的文生视频模型在精细化控制上有很大的局限。
当前 AI 创作类产品普遍面临的问题是不可编辑性,AI 生成内容的过程更像是一个随机游戏,而不是一个创作流程,无法在生成的内容基础上进行打磨,生成效果不理想只能重新来一遍。涉及复杂剧情和较多的角色、对人物和场景的精雕细琢等,AI生成便难以达到创作要求。
Odyssey 这款产品,将重心放在视效提升上,恰好弥补了当前视频生成产品的不足之处。正如创始人所说,我们已经被低质量的内容所淹没,忘记高质量的故事是什么样子。AI 要做的,不是生产更多低质量内容,而是用在专业的故事讲述者手中,去制作出更多高质量内容。
为了能够实现这一目标,Odyssey 训练了四个生成模型,分别对应视觉生成的四个不同任务:
1)生成三维图形渲染,该模型创建场景和人物的基本形状和结构。
2)生成水或布料等材质效果,负责为几何形状添加真实的纹理和表面特性。
3)运动生成:处理场景中人物和物体的运动,生成可控的运动。
4)照明生成:该模型模拟复杂的照明场景,对于营造情绪和氛围至关重要。
Odyssey 不同模型的叠加
Odyssey 生成的电影级视频画面效果
通过将这些方面分离成不同的模型,Odyssey 旨在让用户对视频创作的每个元素进行精细控制,从而保证最终能够保持高质量的视频输出。
Odyssey 并不打算完全取代现有的制作工具。相反,他们正在设计自己的系统,以便与当前的行业标准工作流程无缝集成。使用 Odyssey 创建的所有内容都可以编辑并以标准3D 文件格式导出,例如 USD(通用场景描述)文件格式。
有了这些功能,Odyssey 的用户群体除了电影爱好者和 AI 爱好者之外,还能够触达电影制作人和视觉特效师,成为他们的创意生产工具。
Odyssey 目前获得了包括 GV(谷歌风投)在内的900万美金种子轮投资。团队希望构建一支复合型的视频模型团队,目前他们的员工来自三个群体:
1)来自Cruise、Waymo、Tesla、Meta、NVIDIA 等公司的AI 研究人员。
2)参与过 Spore(孢子)、SimCity(模拟城市)、The Sims(模拟人生)等视频游戏的计算机图形专家。
3)为DUNE(沙丘)、Godzilla(哥斯拉)、Jurassic World(侏罗纪公园)等大片做出贡献的技术艺术家。
Odyssey 的终极愿景
非常明确——利用 AI 视觉生成模型制作好莱坞级别的电影。以《阿凡达》电影为例,每部电影的制作时间都超过十年,数百名视觉效果艺术家参与其中,耗资数亿美元。Odyssey 希望在不牺牲视觉质量的情况下,缩短制作时间和降低成本——可能只需要一个五人团队,花费5万美元,工作六个月。
02.
Dreamflare,
前 Google 员工创业新的短视频平台
除了从技术上做提升之外,视频生成类产品还可以打造新的交互方式,并基于此建立新的内容分发机制。
Dreamflare 瞄准的正是这条路径,其定位于一个全新的消费者平台,专注于 AI 生成的优质娱乐,打造 AI 时代的 Netflix。
Dreamflare平台上目前提供两种类型的动画内容:
Flips:沉浸式故事
Flips,包括AI生成的短片和图像。Flips 既不像一个长视频,也不像一个漫画,而是几秒的视频短频和漫画图片组合成的一种故事片。这种新的内容形态很难说能否在观众群体中验证成功。同时对视频创作者的艺术功底也有比较高的要求。
平台中的Flips内容展示
Spins:互动式短片
在 Spins 中,观众可以改变故事的某些结局。以目前生成内容的质量来看,还无法达到皮克斯级别的质量,它的创新之处在于构建起互动剧情,将用户的被动消费变为主动参与。目前平台内的 Spins 产品出现了多种艺术风格,用户可以订阅后解锁后续剧集。
平台中的Spins内容展示
商业化与远景
Dreamflare 由前谷歌员工 Josh Liss 和纪录片制片人 Rob Bralver 共同创立,旨在帮助创作者制作 AI 短视频并从中获得收益。他们将好莱坞的制作团队与 AI 创作者协同起来,共同打造出沉浸式互动内容。
目前 Dreamflare 并不涉及到过多AI 内容创作上的指引,创作者可以通过Runway、Midjourney、ElevenLabs等第三方AI工具来制作视频,并上传至Dreamflare 平台。Dreamflare 更专注于帮助创作者在线订阅的方式分发视频,收获订阅收入分成,同时,创作者还可以通过广告分成、粉丝打赏等其他方式获得进一步收益。
目前内容风格比较多样
由于创作者可以使用任意AI工具来生成视频或图像,在生成内容上会存在道德或法律争议。Dreamflare声称其采取严格的审核流程,确保提交的内容不基于受版权保护的素材,并且不接受 R 级内容。
在订阅模式上,目前平台推出限时优惠,提供9.99美元的年费和每月2.99美元的早鸟价格。正常订阅费用设定为49.99美元/年,相比目前 Dramabox、Netflix 等平台的订阅费用还是显著更低。
在合作方面,Dreamflare创始人表示,公司目前已经与迪士尼、奈飞、环球影业等多位娱乐行业高管建立了创意合作关系。Dreamflare 通过在 AI 内容中有机地融入电影从业者的经验这种方式,确保 AI生成内容的质量,从而为平台带来持续稳定的收益。
03.
Fable Studio,
一个动画工作室的 Netflix 梦
当一个动画工作室有了批量规模塑造高质量内容的能力时,他就不仅仅是一家工作室,而是一个内容平台。就像皮克斯工作室在1995年推出了第一步《玩具总动员》,直到今天仍然是最强动画 IP 的塑造者,被迪士尼收购,进一步提高内容生产的可复制性。
Fable Studio 是AI时代的制片厂,不仅是由于其发布了 AI 制作的动画片 《南方公园》,还源于其 AI 内容制作领域的编排能力,通过 Agent System 的方式为用户提供一整套 AI 创作动画视频的工具,近期他们发布了Showrunner 平台,用于展示用户创作的剧情内容。
从视频创作系统到《南方公园》
Fable Studios 的创业想法起源于由 Fable 的主创成员发表的一篇论文,该论文在 OpenAI 和 Stable Diffusion 的AI 系统基础上创建,构建了一个 SHOW-1模型,模型能够在几分钟内生成脚本、多个场景和生成的对话,本质是一个节目统筹智能体系统。
该公司在去年将这项技术应用在制作新一集《南方公园》中。AI 完成了从编剧、导演到配音和剪辑的全部流程,观众只需要输入一句话便可以生成属于自己的《南方公园》影片。目前,这些剧集在X( Twitter)上的观看次数接近800万次。
此外,用户还可以通过上传自己的照片和声音来生成自己的角色,生成由自己主演的电视剧。观众不再是被动地观看剧情,而是能够参与到剧情创作当中,推动故事的发展,甚至将自己融入到剧情中。这种方式模糊了影视创作者和消费者之间的界限,能够让更多有想法的人参与到创作过程中来。
节目统筹智能体
这个 Agent 系统,能够通过系统内的智能体,实现剧集生成的工作流程,其中又包含了故事系统、统筹系统、角色系统、舞台系统、摄影系统等不同的子系统。
首先,Showrunner 会通过故事系统,获取标题、故事梗概以及模拟当前时间内发生的主要事件等高层次信息,从这些信息中,故事系统通过模拟数据作为提示链推断出14个场景。
随后,统筹系统会负责为每个场景选择角色,并通过一个情节来推动故事发展,每个场景与一个情节字母(如A/B/C)关联。角色系统会交替使用不同的角色组合,并跟进它们的故事线,以保持用户的参与度。
最后,在在舞台系统和摄影系统的协同下,场景将按照预设的情节有序呈现。
谁在推动故事?
Showrunner 的故事推动本身是由模拟器、用户和 GPT-4共同承担的责任。通常由模拟器提供基于 IP 的基础背景、角色历史、情感、事件和地点,这些是初始创作过程的种子。用户介绍他们的意图,对 Agent 施加行为控制,并提供启动生成过程的初始提示,同时用户还充当最终的鉴别器,在过程结束时评估生成的故事内容。GPT-4充当主要的生成引擎,根据从用户和模拟收到的提示创建和推断场景和对话。这应该是一个共生过程,每个参与者的优势都有助于形成一个连贯、引人入胜的故事。
Showrunner 的平台定义
CEO Edward Saatchi 表示,“Showrunner 的愿景是成为 AI 领域的网飞,当观众看完了所有的剧集后,点击按钮制作下一集,就可以决定节目的主题,或者让AI来制作”。官网显示目前 Showrunner 推出了10部不同类型和风格的动画片,除了音乐和一些转场之外,大多使用 AI 工具制作。
Showrunner目前的内容
针对创作者,Showrunner 希望用户只需输入10到15个单词,就可以生成时长从2分钟到16分钟不等的场景和剧集,所有剧集都带有 AI 对话、语音、剪辑、不同的镜头类型、一致的角色和故事发展。其目标用户画像是那些非技术、非专业的用户。
在创作者收益方面,showrunner 会在正式推出时,将最好的剧集收录到剧集目录中,创作者可以得到一次性奖励。如果该剧集被其他平台选中,创作者还可以获得后续分成。
创作者感知的工作流
04.
结语
不论是以技术的手段去提升视频生成的效果,还是基于新的创作模式构建分发平台,都离不开对精品内容的追求。在创作领域,精品内容永远是商业变现的保证。这也是 AI 能够在视频创作领域规模化应用的基础。
谁会成为下一个时代的 Netflix?这个问题还没有答案,但至今为止,我们看到了几条不同的路径在加速前进。
AI时代的皮克斯工作室,类似 Fable Studio 等公司,将自己的制作内容的管线通过编排Agent 的方式开放给用户,形成人机协同的内容共创。用户创作的内容沉淀在平台上,形成了新的内容平台。
新的内容平台不满足于过去的单向内容消耗,类似 DreamFlare 等产品,正通过互动式短片、互动游戏等方式构建新的娱乐内容平台。
还有 Sora、Runway、Keling、Odyssey等有底层视频模型能力的玩家,已不满足于工具本身,围绕其强大模型会逐渐建立起一批内容社区,逐渐向外扩展成为类似 GPTs Store 的内容展示平台,也有可能是下一代 Netflix 的雏形。