从全民跳“科目三”到AI重制经典影视IP，AI视频掀起创作热潮

　　本文来自于微信公众号头号AI玩家(ID:AIGCplayer)，作者:月山橘。

　　最近这段时间，只要你还在网上冲浪，就肯定逃不过AI“魔改”视频的洗礼。

　　只需一张图，无论是马斯克还是兵马俑，有生命的、没生命的通通跳起了网红热舞“科目三”。

　　背后是阿里的AI“图生视频”技术搭载在通义千问新上线的“全民舞王”功能上，因为制作门槛足够低，引发无数网友跟风试玩，点燃了2024年AI视频的第一把火。

　　去年11月份起，AI生成视频逐步成为各大公司、初创企业以及资本重点布局的热门赛道。

　　2024开年，随着AI行业竞赛从文字、图片，转向视频，AI生成视频产品化加速，颇有“百团大战”的气势。前有Runway Gen2、“黑马”Pika拉低产品使用门槛，AI电影预告片、AI二创经典IP视频层出不穷;后有阿里字节入局开卷，卷出来一个爆火的“全民舞王”。

　　AI视频何时会出一个“Midjourney”?

　　《中国AIGC文生图产业白皮书2023》认为，AI绘画在2023年正式开启“全面商用”。2023年3月，MidjourneyV5版本上线，图片生成质量显著提升，经主流社交媒体平台传播发酵，国内掀起全民AI绘画热潮。

　　彼时Midjourney V5生成的一对中国90年代情侣因细节处理逼真引发全网讨论

　　如今，沿着文生图的老路，AI视频正向“Midjourney V5时刻”迈进。

　　‍‍‍全民跳“科目三”到AI魔改《千与千寻》 AI视频迎来新一轮创作潮

　　从舞蹈视频到故事短片，越来越多人开始制作人生第一支AI视频。

　　相比早前，AI在广告片、电商领域的应用，最近这波AI视频创作热潮，来势更加凶猛。

　　先是#兵马俑跳科目三#爆火，冲上微博热门词条，背后通义千问APP最新上线的功能“全民舞王”随之走红。

　　多少人还没学会跳“科目三”，照片中的数字分身经AI出手瞬间跳出科目三半崴不崴的灵魂舞步。

　　目前，兵马俑跳科目三、全民舞王、通义千问等词条全网热度已经飙升至千万级。

　　另一边是高阶玩家整活儿，打开了用AI变革专业影视内容创作的可能。

　　近期在国内AI圈引起热议的作品《山海奇镜》，是视频号博主“闲人一坤”手搓发布的第一部AI电影预告片。

　　闲人一坤，赞212

　　《山海奇镜》故事灵感源于中国先秦古籍《山海经》。博主将《山海经》怪奇异兽视觉化的作业流程用到了这些AI工具:

　　ChatGPT+Midjourney/DALL•E3+PixVerse。

　　其中，ChatGPT负责将灵感变为可实际操作的脚本:

　　Midjourney+DALL•E3配合出图与分镜制作。不得不说，这一步创作者的巧思——用“镜子照原型”，提升了预告片整体的悬疑和惊悚感。

　　PixVerse则负责视觉化。

　　用过Runway的Motion Brush功能、Pika1.0的图生视频功能后，目前支持4K高清视频生成的PixVerse是博主“图转视频”的主力工具。

　　之所以选择从《山海经》下手，有20年影视行业经验的博主“闲人一坤”认为AI影视实现商业化落地，首先取代的一定是需要大量人力物力的影视类型，如科幻、玄幻等。

　　无独有偶，近期在外网走红，随后被网友搬运到微博浏览量破百万的AI版《千与千寻》，创作者“Liber”也将目光着眼于用AI魔改动画中的奇幻元素。

　　目前，该视频在X上播放量已达600万。

　　可以说，无论是《山海奇镜》还是AI魔改版《千与千寻》，都靠的是视觉制胜。影视类型中，尤以奇幻、玄幻、魔幻等幻想类作品，最为强调营造视觉奇观。

　　那么问题来了:AI有可能影响叙事类作品吗?

　　“头号AI玩家”近期收到读者推荐X博主“Christine.F”结合OpenAI“宫斗戏”和漫威电影制作的两部AI短片，可以一窥当下用AI制作叙事类作品的现状和难点。

　　人物设定上，OpenAI首席执行官Sam Altman扮演钢铁侠，OpenAI首席科学家 @Ilya Sutskever则化身为奇异博士。

　　从成片效果上看，两部AI短片在人物一致性、面部细节(如嘴部、手部)处理上，即使小屏幕观看都能“一眼AI”。

　　与早前我们制作的圣诞视频一样，相信创作者在视频连贯性上下了不少功夫，才达到了现在的效果。

　　但不比静态图片生成，“动”起来的视频是多帧图像的组合。尤其在叙事作品中，涉及人物说话的近景或特写镜头，目前的AI视频技术仍达不到真实拍摄的自然效果。

　　当然，这类结合时下热点和经典影视IP的二创作品，不管是传统制作，还是AI操刀，都容易引起粉丝共鸣，引爆传播。 AI视频打响“百团大战”，新“黑马”上场对标Pika

　　这轮AI视频创作热潮的背后，是工具的全面升级。

　　赛道上的新老玩家轮番发布新产品、升级新功能。a16z合伙人Justine Moore在X平台上分享了一张AI生成视频的2023时间轴。

　　“一月份还没有公开的文生视频模型。”2023年结束，“视频生成产品已达数十种，用户数百万。”

　　一键让照片跳舞的“全民舞王”技术源自阿里通义实验室开发的视频生成模型Animate Anyone，去年12月，该项目对外只发布了研究论文和演示。

　　两个月不到，阿里在通义千问APP上把Animate Anyone落地应用。

　　只需手机下个APP就能玩，对大多数普通玩家而言，使用门槛足够低，生成的视频效果却很魔性，可玩性极高。

　　不得不说，相继打造出“妙鸭相机”、“全民舞王”的阿里算是拿捏住了AI产品的流量密码。

　　实际上，Animate Anyone推出后不久，字节跳动也发布了一个主打TikTok热舞的图生视频模型Magic Animate，还率先打开了体验通道。

　　可惜，当时我们实测下来，生成视频效果寥寥。后续也没有看到字节有更多动作，反倒是让阿里在国内抢了AI一键生成“科目三”的先机。

　　如果要问2023最火的AI视频产品，不得不提海内外爆火的Pika1.0，声势之大，直接撼动Runway在AI视频生成领域的领先地位。

　　Justine Moore整理的AI视频产品发布核心推文热度

　　彼时有“黑马”之称的Pika，如今也迎来挑战者。

　　专注文生视频的AI初创公司Morph Studio，近期对模型进行了一次升级，生成的作品被业内玩家拿来对标Pika。

　　对此，“头号AI玩家”也进行了一番对比测试。先看看早前我们测试过的一句提示词:

　　a cinematic film still of a breaching whale， falling down into the water，splashes， sea foam

　　一个电影定格画面，一只鲸鱼跃出水面，然后落入水中，溅起水花，海浪泡沫。

　　进入Discord，打开Morph Studio的频道，选择带“PRO”字样的视频生成室，即可体验Morph Studio最新模型。

　　仅就这组对比来说，Morph Studio生成的视频色彩饱和度更高，视频也更清晰。同样免费的情况下，Pika默认分辨率为720P，Morph Studio则直接拉到了1080P。

　　语义理解上，可以看到Pika并没有准确理解文本。提示词要求的“鲸鱼跃出水面”“落入水中”“溅起水花”等动作直接被略去，仅生成与需求并不匹配的“鲸鱼游动画面”。

　　再来看看难度更高的人像生成。

　　Morph Studio照提示词要求给出了一个近景画面，虽然背景虚化掉了，但仍然能大概感受到人物所在的环境——城市中的热闹街道。

　　相比之下，Pika给出的视频是人物特写，默认动态效果优于Morph Studio，但也相应暴露出AI生成视频的弱点，眼睛处理上出现了明显的变形。

　　两轮测试下来，可以说当下Morph Studio的语义理解能力是优于Pika的。更让人直呼“真香”的是，Morph Studio既免费还能生成1080P的高清视频，而Runway和Pika都已经进入收费阶段，免费额度有限。 2024年我们离AI电影还远吗?

　　从文本、图片到视频，AIGC各大细分赛道中，只有视频领域尚未跑出“头号玩家”。

　　马斯克预言今年会有AI电影面世

　　技术层面上看，AI视频生成经历了图像拼接生成、GAN/VAE生成、自回归和扩散模型等三个阶段。

　　而基于用户输入的素材，又分成三种生成视频的方式，即文生视频、图生视频、视频生视频。

　　其中，图生视频已经跑出了通义千问“全民舞王”这个小爆款。各路玩家也大多采用“静态图片到视频”的AI视频制作工作流，类似Runway的“指哪儿动哪儿”图片转视频功能最受青睐。

　　文生视频则被视为AI创作多模态的“圣杯”。ChatGPT代表大模型在“文生文”的突破，Midjourney“文生图”引领AI绘画走向商用，在“文生图”的基础上，“文生视频”多了一个时间维度，面临的却是多方难题，如算力成本、语义理解、长视频生成以及视频连贯性等等。

　　目前，国内已有玩家在攻克视频时长问题。HiDream.ai近期推出了支持15秒视频生成长度的模型技术，基本思路也是“文生图” 再到“图生视频”，只不过全程换成了大语言模型自动生成，无需用户手动操作。

　　提示词:“A mouse is looking for a book by using ladder”，自动生成5个分镜脚本及关键帧，最终合成长视频

　　据“头号AI玩家”观察，视频生视频大多应用在视频编辑或更换风格上。如早前在Discord上爆火的DomoAI，只需用户上传视频，选择相应风格，即可将真人视频转化为动漫视频。

　　近期，Meta推出的V2V(视频生视频)模型FlowVid，结合提示词和原始视频，能在保留原视频动态的基础上，对画面内容做出大幅修改。

　　原视频:

　　提示词“a Greek statue wearing headphones”:

　　进入2024年，包括英伟达高级科学家Jim Fan在内的不少业内大神将今年视为“AI视频年”。

　　与此同时，AI视频赛道竞争日趋白热化，催生越来越多易用的产品面世，带动影视从业者、AI爱好者，甚至普罗大众的创作热情。

　　消费端推动供给端进化，数据飞轮已经开启，AI视频正在无限逼近“Midjourney V5时刻”。

从全民跳“科目三”到AI重制经典影视IP，AI视频掀起创作热潮

延展资讯