科技魔方

从全民跳“科目三”到AI重制经典影视IP,AI视频掀起创作热潮

AI视频

2024年01月19日

  本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:月山橘。

  最近这段时间,只要你还在网上冲浪,就肯定逃不过AI“魔改”视频的洗礼。

  只需一张图,无论是马斯克还是兵马俑,有生命的、没生命的通通跳起了网红热舞“科目三”。

  背后是阿里的AI“图生视频”技术搭载在通义千问新上线的“全民舞王”功能上,因为制作门槛足够低,引发无数网友跟风试玩,点燃了2024年AI视频的第一把火。

  去年11月份起,AI生成视频逐步成为各大公司、初创企业以及资本重点布局的热门赛道。

  2024开年,随着AI行业竞赛从文字、图片,转向视频,AI生成视频产品化加速,颇有“百团大战”的气势。前有Runway Gen2、“黑马”Pika拉低产品使用门槛,AI电影预告片、AI二创经典IP视频层出不穷;后有阿里字节入局开卷,卷出来一个爆火的“全民舞王”。

  AI视频何时会出一个“Midjourney”?

  《中国AIGC文生图产业白皮书2023》认为,AI绘画在2023年正式开启“全面商用”。2023年3月,MidjourneyV5版本上线,图片生成质量显著提升,经主流社交媒体平台传播发酵,国内掀起全民AI绘画热潮。

  彼时Midjourney V5生成的一对中国90年代情侣因细节处理逼真引发全网讨论

  如今,沿着文生图的老路,AI视频正向“Midjourney V5时刻”迈进。

  ‍‍‍全民跳“科目三”到AI魔改《千与千寻》 AI视频迎来新一轮创作潮

  从舞蹈视频到故事短片,越来越多人开始制作人生第一支AI视频。

  相比早前,AI在广告片、电商领域的应用,最近这波AI视频创作热潮,来势更加凶猛。

  先是#兵马俑跳科目三#爆火,冲上微博热门词条,背后通义千问APP最新上线的功能“全民舞王”随之走红。

  多少人还没学会跳“科目三”,照片中的数字分身经AI出手瞬间跳出科目三半崴不崴的灵魂舞步。

  目前,兵马俑跳科目三、全民舞王、通义千问等词条全网热度已经飙升至千万级。

  另一边是高阶玩家整活儿,打开了用AI变革专业影视内容创作的可能。

  近期在国内AI圈引起热议的作品《山海奇镜》,是视频号博主“闲人一坤”手搓发布的第一部AI电影预告片。

  闲人一坤,赞212

  《山海奇镜》故事灵感源于中国先秦古籍《山海经》。博主将《山海经》怪奇异兽视觉化的作业流程用到了这些AI工具:

  ChatGPT+Midjourney/DALL•E3+PixVerse。

  其中,ChatGPT负责将灵感变为可实际操作的脚本:

  Midjourney+DALL•E3配合出图与分镜制作。不得不说,这一步创作者的巧思——用“镜子照原型”,提升了预告片整体的悬疑和惊悚感。

  PixVerse则负责视觉化。

  用过Runway的Motion Brush功能、Pika1.0的图生视频功能后,目前支持4K高清视频生成的PixVerse是博主“图转视频”的主力工具。

  之所以选择从《山海经》下手,有20年影视行业经验的博主“闲人一坤”认为AI影视实现商业化落地,首先取代的一定是需要大量人力物力的影视类型,如科幻、玄幻等。

  无独有偶,近期在外网走红,随后被网友搬运到微博浏览量破百万的AI版《千与千寻》,创作者“Liber”也将目光着眼于用AI魔改动画中的奇幻元素。

  目前,该视频在X上播放量已达600万。

  可以说,无论是《山海奇镜》还是AI魔改版《千与千寻》,都靠的是视觉制胜。影视类型中,尤以奇幻、玄幻、魔幻等幻想类作品,最为强调营造视觉奇观。

  那么问题来了:AI有可能影响叙事类作品吗?

  “头号AI玩家”近期收到读者推荐X博主“Christine.F”结合OpenAI“宫斗戏”和漫威电影制作的两部AI短片,可以一窥当下用AI制作叙事类作品的现状和难点。

  人物设定上,OpenAI首席执行官Sam Altman扮演钢铁侠,OpenAI首席科学家 @Ilya Sutskever则化身为奇异博士。

  从成片效果上看,两部AI短片在人物一致性、面部细节(如嘴部、手部)处理上,即使小屏幕观看都能“一眼AI”。

  与早前我们制作的圣诞视频一样,相信创作者在视频连贯性上下了不少功夫,才达到了现在的效果。

  但不比静态图片生成,“动”起来的视频是多帧图像的组合。尤其在叙事作品中,涉及人物说话的近景或特写镜头,目前的AI视频技术仍达不到真实拍摄的自然效果。

  当然,这类结合时下热点和经典影视IP的二创作品,不管是传统制作,还是AI操刀,都容易引起粉丝共鸣,引爆传播。 AI视频打响“百团大战”, 新“黑马”上场对标Pika

  这轮AI视频创作热潮的背后,是工具的全面升级。

  赛道上的新老玩家轮番发布新产品、升级新功能。a16z合伙人Justine Moore在X平台上分享了一张AI生成视频的2023时间轴。

  “一月份还没有公开的文生视频模型。”2023年结束,“视频生成产品已达数十种,用户数百万。”

  一键让照片跳舞的“全民舞王”技术源自阿里通义实验室开发的视频生成模型Animate Anyone,去年12月,该项目对外只发布了研究论文和演示。

  两个月不到,阿里在通义千问APP上把Animate Anyone落地应用。

  只需手机下个APP就能玩,对大多数普通玩家而言,使用门槛足够低,生成的视频效果却很魔性,可玩性极高。

  不得不说,相继打造出“妙鸭相机”、“全民舞王”的阿里算是拿捏住了AI产品的流量密码。

  实际上,Animate Anyone推出后不久,字节跳动也发布了一个主打TikTok热舞的图生视频模型Magic Animate,还率先打开了体验通道。

  可惜,当时我们实测下来,生成视频效果寥寥。后续也没有看到字节有更多动作,反倒是让阿里在国内抢了AI一键生成“科目三”的先机。

  如果要问2023最火的AI视频产品,不得不提海内外爆火的Pika1.0,声势之大,直接撼动Runway在AI视频生成领域的领先地位。

  Justine Moore整理的AI视频产品发布核心推文热度

  彼时有“黑马”之称的Pika,如今也迎来挑战者。

  专注文生视频的AI初创公司Morph Studio,近期对模型进行了一次升级,生成的作品被业内玩家拿来对标Pika。

  对此,“头号AI玩家”也进行了一番对比测试。先看看早前我们测试过的一句提示词:

  a cinematic film still of a breaching whale, falling down into the water,splashes, sea foam

  一个电影定格画面,一只鲸鱼跃出水面,然后落入水中,溅起水花,海浪泡沫。

  进入Discord,打开Morph Studio的频道,选择带“PRO”字样的视频生成室,即可体验Morph Studio最新模型。

  仅就这组对比来说,Morph Studio生成的视频色彩饱和度更高,视频也更清晰。同样免费的情况下,Pika默认分辨率为720P,Morph Studio则直接拉到了1080P。

  语义理解上,可以看到Pika并没有准确理解文本。提示词要求的“鲸鱼跃出水面”“落入水中”“溅起水花”等动作直接被略去,仅生成与需求并不匹配的“鲸鱼游动画面”。

  再来看看难度更高的人像生成。

  Morph Studio照提示词要求给出了一个近景画面,虽然背景虚化掉了,但仍然能大概感受到人物所在的环境——城市中的热闹街道。

  相比之下,Pika给出的视频是人物特写,默认动态效果优于Morph Studio,但也相应暴露出AI生成视频的弱点,眼睛处理上出现了明显的变形。

  两轮测试下来,可以说当下Morph Studio的语义理解能力是优于Pika的。更让人直呼“真香”的是,Morph Studio既免费还能生成1080P的高清视频,而Runway和Pika都已经进入收费阶段,免费额度有限。 2024年我们离AI电影还远吗?

  从文本、图片到视频,AIGC各大细分赛道中,只有视频领域尚未跑出“头号玩家”。

  马斯克预言今年会有AI电影面世

  技术层面上看,AI视频生成经历了图像拼接生成、GAN/VAE生成、自回归和扩散模型等三个阶段。

  而基于用户输入的素材,又分成三种生成视频的方式,即文生视频、图生视频、视频生视频。

  其中,图生视频已经跑出了通义千问“全民舞王”这个小爆款。各路玩家也大多采用“静态图片到视频”的AI视频制作工作流,类似Runway的“指哪儿动哪儿”图片转视频功能最受青睐。

  文生视频则被视为AI创作多模态的“圣杯”。ChatGPT代表大模型在“文生文”的突破,Midjourney“文生图”引领AI绘画走向商用,在“文生图”的基础上,“文生视频”多了一个时间维度,面临的却是多方难题,如算力成本、语义理解、长视频生成以及视频连贯性等等。

  目前,国内已有玩家在攻克视频时长问题。HiDream.ai近期推出了支持15秒视频生成长度的模型技术,基本思路也是“文生图” 再到“图生视频”,只不过全程换成了大语言模型自动生成,无需用户手动操作。

  提示词:“A mouse is looking for a book by using ladder”,自动生成5个分镜脚本及关键帧,最终合成长视频

  据“头号AI玩家”观察,视频生视频大多应用在视频编辑或更换风格上。如早前在Discord上爆火的DomoAI,只需用户上传视频,选择相应风格,即可将真人视频转化为动漫视频。

  近期,Meta推出的V2V(视频生视频)模型FlowVid,结合提示词和原始视频,能在保留原视频动态的基础上,对画面内容做出大幅修改。

  原视频:

  提示词“a Greek statue wearing headphones”:

  进入2024年,包括英伟达高级科学家Jim Fan在内的不少业内大神将今年视为“AI视频年”。

  与此同时,AI视频赛道竞争日趋白热化,催生越来越多易用的产品面世,带动影视从业者、AI爱好者,甚至普罗大众的创作热情。

  消费端推动供给端进化,数据飞轮已经开启,AI视频正在无限逼近“Midjourney V5时刻”。

+1

来源:微信公众号 头号AI玩家 作者:月山橘

延展资讯