从画沙雕图到做视频 AI生成视频会给未来带来哪些变化？

当前位置 : 首页 > 智能 >

从画沙雕图到做视频 AI生成视频会给未来带来哪些变化？

来源：河北日报时间：2022-10-19 10:26:51

九月初的时候，AI绘画作品《太空歌剧院》在美国获得了人类艺术竞赛一等奖的新闻让许多人震惊不已。许多人没有想到，画沙雕图的AI竟然这么快就技能进步到超越了人类。AI作画的时间从年初以小时为单位到现在短到秒级别，并且绘出的图像质量越来越高，几乎接近人类专业画家的水平。我们在社交媒体中也看到越来越多的人分享他们在各种AI作画平台上的作品。

AI作画的风头正盛，用AI做视频的应用也悄然而至。九月底Meta小扎公布了自家Make-A-Video的AI视频制作工具。这款工具可以生成高质量的短视频。Meta AI做视频的新闻还没有焐热，谷歌也不甘示弱，推出了两款AI生成视频的工具：Imagen Video 和 Phenaki。前者倾向于打造视频质量，后者倾向于视频的逻辑与时长。这几款AI视频制作工具各有特色。

文本生成图像的AI技术大火才不过几个月，就直接跃升至文本生成动态视频。从画图到做视频，AI的发展速度令人讶异，同时令人对未来的数字媒体憧憬。那么，这种跨越到底会给未来带来什么呢?

AI做视频是AI作图的延伸

在讨论AI生成视频会给未来带来哪些改变前，我们先梳理下，AI生成视频的技术原理和应用场景。

先从Meta家的Make-A-Video看起。在小扎公布的视频中，我们可以看到一场AI制作的视频秀，其中一幕是泰迪熊正在画自画像。仅仅通过文本描述，Make-A-Video就可以生成一段视频。官网的案例中，我们会发现还有一些会飞的超人狗狗、喝水的马等，这些视频都是由AI生成的。

谷歌的Phenaki工具也类似Make-A-Video，可以通过一系列的文本提示生成有故事性的连贯视频。如官网展示的骑马太空人、游泳的小熊等。

从AI作画到AI制作视频，静态的图像创作又转化为动态的视频演绎一些简单的情节片段，这些是如何依靠技术达成的呢?

AI绘画的原理，简单来说是通过神经网络模型将图像与文本连接，基于大规模的图文训练集对比学习训练，提取文本与图像特征互相匹配，最终生成关联程度较高的图像。

与AI作画相比，AI生成视频需要多个AI模型的配合来完成视频的制作。作画与做视频的第一步都需要预训练文本-图像模型，先由文本生成大量的图像。而后续的步骤就出现较大的差别。AI生成视频，在完成基本的图像生成之后，还需要将这些图片连起来，变成动态清晰有逻辑的视频。这就需要额外增加插值模型来处理图片变成一帧帧流畅的视频动作，用超分辨率模型来提升图像的像素。通过这些模型的处理，让前后帧之间的过渡动作更加平滑，画质的像素质量更高，最终生成高分辨率和帧率的视频。

相较于AI作画，从技术上来看，视频可以认为是多张“图片”有逻辑、连贯的组成。视频帧是一张张图像，各帧之间有画面、逻辑等层面的关联。因此，由文生图与由文生视频完全是两种难度级别。AI生成视频，是AI生成图像的深度延伸。

AI生成视频相对更难实现。为什么AI研究人员会向视频领域的创作进发?AI做视频到底有什么应用价值呢?

AI做视频价值几何?

移动互联网的繁荣，催生出了各类社交和流媒体平台。这些平台中丰富的图文、视频内容，成为当代人碎片时间的精神食粮。伴随短视频平台和直播行业的兴起，人们对内容的需求越来越旺盛。这也筑造了规模庞大的泛内容产业。

对于内容的创作，核心的是创意与效率。但以人为核心模式的创作模式在高速迭代的内容产业中似乎越来越赶不上趟。应用AI技术来辅助内容创作的AIGC模式，开始渗入到泛内容领域中。

从视频的创作角度来说，在脚本外，寻找匹配适合的视频素材是创作的核心。虽然行业内有大量的素材库，但寻觅素材的过程耗费时间，并且也不一定能找到符合脚本内容的视频素材。

面对提升效率与贴合脚本内容的需求，AI生成视频工具可以很好地解决这类问题。谷歌和Meta的AI视频工具都可以基于文本描述生成视频。

Make-A-Video目前可以实现文字转视频、图片转视频、视频生成视频三种功能场景。谷歌Imagen Video不仅能生成高清视频，而且能理解并生成不同艺术风格的作品。而谷歌Phenaki目前可以做到文字转视频，并且根据文字描述可以生成较长、情节连贯的作品。Phenaki瞄准的是长视频的制作。

无论是短视频领域，还是长视频领域，面向这些行业，AI生成视频都会为视频内容行业的发展赋予价值。

1.提升视频制作效率的同时降低制作成本。传统的视频制作需要脚本、收集素材、剪辑等流程，每一项工作都需要耗费大量的时间与成本。AI生成视频可以通过文本生成视频，或者由图片、视频等素材生成视频，可以降低拍摄或搜集视频素材的成本。AI可以对应着脚本文本的描述，就能生成视频，大幅提高视频制作的效率。

2.增加丰富的创意。AI大模型可以遍历学习所有的创意与风格。从内容的丰富度来说，人类无法企及。通过不同风格、创意素材的喂养，AI视频生成可以创作出多种风格融合的作品，补充人类制作视频的创意。

3.增加内容产业价值。AI视频生成对视频内容领域的革新，为行业带来新的应用场景与新工种。AI作画已经诞生出了新的职业AI画师。类似AI作图，AI做视频也会诞生出新的职业，AI剪辑师，应用AI工具创作视频。未来AI生成视频将会与游戏、影视、媒体等多行业结合，与元宇宙、AR、VR等场景碰撞，创造出更多的场景与产业价值。

不过现下AI生成视频的发展处于非常初级的阶段，并不能完全生成出较完善的视频。我们在谷歌和Meta中看到的视频，仍然存在许多问题。比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。这些情况的出现原因在于AI工具模型的能力不高，对模型投喂的素材数据质量有一定的要求。如果这些问题得不到较好的解决，也会限制未来一些场景的应用可能，如对于像素和逻辑要求较高的商业影视剧。而短平快的小视频根据分发渠道的不同，质量的参差带来的影响不同。但归根结底，高质量的视频内容商业化的可能性会更大。

上一篇：没有开放给普通人使用百度的自动驾驶汽车好用吗?

下一篇：最后一页

X 关闭