爱迪网-别玩ChatGPT了，更酷炫的AI视频创作工具来了

2023/02/27360收录域名

当我还在跟ChatGPT聊有利地势，AIGC圈子里现已刷起了新玩意儿——

AI生成的乔布斯，他似乎从画中醒来，对着镜头侃侃而谈ChatGPT，嗓音也颇似原声。

据作者“汗青”介绍，视频中的案牍选自于他与ChatGPT的对话，乔布斯的形象由AI作图东西midjournery生成，AI拟声东西ElevenLabs供给了嗓音复刻，最后经过AI视频东西D-ID将图画转为视频。

爱迪网凭借相似的AI东西，网友用“魔法”生成的纸片人都能动起来了，乃至还能轻松发明一个自己的数字分身。

AIGC降低了创造门槛，越来越多的人正企图让AI参加内容创造，从案牍、录制到配音、编排，简直能够让AI全包了。据国外商业咨询机构Acumen Research and Consulting预测，若考虑下一代互联网对内容需求的敏捷进步，2030年AIGC市场规模将到达1100亿美元。

近年来，AI对话、AI绘画、AI语音技能其实都有一定的开展，而相对来说，视频领域的模型研制和使用才起步不久。像D-ID这样仅需一张静态图片就能创建虚拟人视频的技能，属实令人惊讶。

图源:国泰君安证券研究

现在国内外有哪些AI视频创造东西?AI又将给视频内容出产和交互体会带来什么改动?本文对此进行了盘点和剖析。

AI拼接材料，套上模板秒出视频

一般视频创造包含这些环节:写脚本/案牍，拍照视频或寻觅第三方材料，编排材料，配音，配乐，增加转场、特效、字幕、标题、封面图等。

其中，AI现在现已能够辅佐完成很多使命了，比方图文智能匹配视频材料、AI主动编排、AI抠像、AI换脸、画质优化修正。

“图文成片”的功能在各平台推出的编排使用中非常常见，抖音的剪映、快手的快影、百度的百家号、B站的必剪都支撑依据案牍，一键拼接图片和视频材料，并同步生成字幕和配音。

输入的案牍能够参阅AI助手的答复。举个比方，“养猫会对一个人发生什么影响”，ChatGPT答复说养猫能减压缓解焦虑、增强社交才能、进步心理健康、增加运动量，咱们能够在此基础上进行修改再导入剪映。

剪映不到一分钟就主动生成了视频，画面跟案牍内容根本符合。如果对材料不满意，比方想把静态图片换成视频，能够到在线材料库中搜索更适宜的进行替换。

值得注意的是，这些材料往往来源于网络或第三方服务，比方免版权图库Unsplash、Pexels，AI编排使用所做的是经过AI和机器学习对案牍进行语义剖析，分镜头处理，智能匹配相应的画面。

因此，一键图文成片对创造者最大的协助是节约搜集材料的时刻，削减人工编排劳动量，经过主动化、模板化的方法进步视频出产功率。

相似的视频主动编排东西还有“Lumen5”，主打长图文转视频，供给了很多视频模板，操作上门槛更低，像制造PPT相同拖曳文字即可转成画面。Lumen5自2017年推出至今，官网介绍已有超100万家企业客户将其作用于社交媒体营销和传播。

图源Lumen5

“vidyo”出自于印度的AI初创团队，支撑长视频转短视频，经过AI语音识别技能能够从材料中主动编排出精彩片段，适用于直播视频切片、播客编排，不过现在视频言语仅支撑英文。

图源vidyo

尽管现在视频创造软件的AI功能以文字匹配视频材料为主，但之后或许会参加更多AIGC东西。

例如海外的AI视频东西“Fliki”，擅长短图文转视频，输入Twitter等博客链接即可快速生成短视频，在图片材料上它还供给文字生成AI图画，由DALL·E供给技能支撑。

图源Fliki

“Copydone”出自于国内AIGC初创公司，支撑小红书、淘宝等各平台AI营销案牍生成，一起也能依据案牍主动生成配图或拼接视频。

图源Copydone

海外AI视频网站“QuickVid”集成了GPT-3、DALL·E2等AI生成图文的才能，用户只需给定一个视频主题，剩余的都能够主动生成。不过它在二次修改上的自由度和丰厚性比较有限。

图源QuickVid

此外，视频创造中的特定需求也能够尝试用AI完成。比方AI修正老视频已有很多热门事例，历史材料、早年的影视片段都能经过“Video Enhance AI”等视频增强软件进步画质和分辨率。

图源B站

让相片说话，跨模态AI做到了

现在的AI只能算是辅佐视频创造的小助手，如果想要原创度更高、从无到有地快速创造视频还比较困难，但更强大的跨模态生产视频的模型（例如文字生成视频，图画生成视频）现已在路上了。

文字生成视频，除了从已有材料库中拼接而成，实际上还有更接近于人类的作业方法，就像AI绘画模型相同学习文本和图画的抽象概念。

2022年5月，清华大学曾联合智源研究院发布“CogVideo”，这是国内首个开源的文本生成视频模型。在其Demo网站中，选择“青年女子在餐厅里喝奶茶”就能够看到AI生成的4秒视频，分辨率为480×480。

图源CogVideo

在设计模型上，CogVideo含94亿参数，将预练习文本-图画模型（CogView2）有用有利地势用到文本-视频模型，并使用了多帧率分层练习策略。

CogVideo生成的32帧的4秒编排

从技能本质上来看，视频便是一帧帧的连续图画，AI文字生成视频也可看作文字生成图画的一种延伸。大致原理便是经过文本生成几个单帧的图画，再用插值算法在几个帧之间绘制图画，生成前后连接的视频。

之前Disco Diffusion走红时就有玩家使用其动画模式生成2D或3D视频，由此也延伸出一些使用门槛更低、创造更简便的AI生成视频使用。

比方AI视频网站“Kaiber”，用户输入图画或文本描绘，也能够从预设中选择几个词，就能快速生成4种视频结果。

图源Kaiber

近期美国盛行摇滚乐队Linkin Park发布的新MV《Lost》，便是由Kaiber为其制造的动画。

不过现在跨模态生成视频的AI模型仍处于探索阶段，谷歌、Meta等大厂去年都发布了相关研究论文，只要演示事例，详细产品还未上线。

据Meta官网介绍，“Make-A-Video”加快了文本到视频模型的练习（它不需要从头开端学习视觉和多模态表明），也不需要成对的文本-视频数据，却能够完成丰厚的文字生成视频，图画生成视频(让单个图画或两个图画间动起来)，以及改动原始视频的风格。

图源Make-A-Video

谷歌发布的“Imagen Video”和“Phenaki”也能完成相似以上的作用，并且Phenaki能够依据一系列提示生成2分钟以上的长视频。

太空行走的焰火使用的提示:宇航员穿过火星上的水坑的侧视图宇航员在火星上跳舞宇航员在火星上遛狗宇航员和他的狗看焰火

人工智能公司Runway曾参加构建了第一个版别的Stable Diffusion，最近他们又发布了一个新的视频生成器“Gen-1”，行将开放内测，宣称能够把视频转换成恣意风格。

图源Gen-1

依据Gen-1官网演示，用户供给一张参阅图，就能对原视频进行指定风格化的渲染，或许用文字指示修改视频中的部分材料，乃至还能够输出3D模型渲染和定制视频。

图源Gen-1

在AI生成3D短视频方面，近期国内的深氧科技完成了千万元级天使轮融资，引入GPT3.5、transformer、Diffusion Model等AI技能红利，其发布的O3.xyz引擎V1.0版别支撑一站式生成3D短视频内容，百万粉博主“特效卡卡西”等创造者已参加内测。

图源O3.xyz

可见跨模态AI生成视频正在加快开展中，“用嘴做视频”，未来在短视频、影视、设计、游戏、电商等诸多职业都存在使用的或许。

回到最初说到的“D-ID”，生成数字人/虚拟分身也属于图画生成视频的一种类型，这类东西现在在企业培训和营销方面的使用事例比较多。

2020年推出的AI视频创造产品“Synthesia”显示已有数千家公司在使用，用户能够从现有艺人库中选择或上传自己的视频来创建AI形象，然后输入脚本，让AI配音、拼接材料就能输出视频了。

图源Synthesia

Synthesia经过练习神经网络来达成逼真的组成作用，相比传统视频制造来说，削减了真人出镜录制等环节，能节约制造费用和周期，而且能一键生成多国言语的视频，便于本土化服务。因此，企业多用于大规模生成员工培训、产品入门演示、市场营销等视频。

D-ID则在更早以前就开端研制图画处理技能，曾与MyHeritage合作推出“深度怀旧”计划而闻名，凭借AI东西，用户能够让已故亲人的静态相片变成绘声绘色的动态视频。

最近乘着ChatGPT的热潮，多种AI东西组合制造的视频被更多人看见了，D-ID的体会门槛较低，即使是不懂视频创造的新手，只要上传一张图片，几分钟内就能够生成有人物解说的视频。

图源D-ID

D-ID主动为人物增加了一系列面部动作，会模拟一些轻微的头部运动，不过有时表情显得有点奇怪，太逼真的相片或许会令人发生“恐惧谷”的反应。

一起，用户无法上传涉及政治、性、违法、名人、歧视性图画，D-ID会提示违规危险。这意味着AI生成视频技能同其他生成内容相同会面临版权、道德等问题。

下一波AIGC浪潮，咱们怎么应对

去年Stability AI的CTO Tom Mason曾判别，继文字生成图画后，下一波浪潮肯定是视频、音频和3D。

当AI能够写文章、画画、做视频，企图包办大部分创造使命时，人类接下来该做什么呢?

这儿仅谈谈我的思考，首先技能人员能够持续开发和完善AI模型。在TikTok的官网上，现已挂出了AIGC方向机器学习工程师的招聘需求。

图源TikTok Career

TikTok表明，“AIGC最近的突破使咱们信任能够将AIGC技能用于商业目的，尤其是构思制造。想想AI生成/辅佐的广告构思脚本，乃至是AI生成的商业图画和视频，它们将永远改动构思制造职业。”

当下的AI视频模型还不能很快生成像AI绘图那样高质量的著作，比方存在视频含糊、动作不自然、缺少细节等问题。但随着国内AIGC的技能开展，相关场景使用生态或许有很大的幻想空间，包含上文说到的一些AI技能公司现在现已开端供给付费服务了，为个人和企业有针对性地进步内容出产功率。

关于内容创造者来说，与其忧虑会不会被AI取代，不如去学习认识和使用AI东西，让AI替代重复性的琐碎作业，将更多时刻花在自己的核心优势上，发生更高质量的内容。

的确有了AI的参加，内容竞争会愈发剧烈。有创造者说D-ID出现后，“所有念稿式、新闻播报式的纯转移类视频都将受到巨大冲击”。

从用户角度出发，我想只要是高质量内容，即使是AI批量生成的又怎么?咱们忧虑的其实是低质内容的泛滥。

平台和用户都需要防止AI被乱用，比方生成虚假、仇恨、歧视或有害的内容，乃至是引发诈骗等违法行为。谷歌曾说到出于安全和道德的考虑，在Imagen Video的内部试验中使用了输入文本提示过滤和输出视频内容过滤，但现在仍存在重要的相关危险，暂时不会发布两个视频生成模型的代码或Demo。

总之，AI技能一方面大大降低了从文本到视频内容创造的门槛，另一方面AIGC也推进着内容职业改造，现在至少能到达一定程度的降本增效，但开展初期还未建立起新的规矩和次序，终究怎么改动职业还得看人的作用。

说米网