工业信息化部-文生视频时代已到,百度、讯飞、字节谁能率先做出“国产Sora”?
工业信息化部:继ChatGPT后,OpenAI又在文生视频的范畴中扔下了一颗深水炸弹,引爆了海内外AI圈。
2月16日,OpenAI的文字生成视频模型——Sora初次问世。据介绍,Sora可以依据所输入的prompt,直接输出最高长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及赋有情感的多个人物。
在OpenAI创始人阿尔特曼的交际网站上,其也放出了Sora生成的视频,如下就是以“A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view”(一场在海洋上举办的自行车比赛,不同的动物作为运动员骑着自行车,经过无人机摄像机视角进行拍照)为提示词生成的视频。
此外,用更详细的prompt也可以获得时长更久的视频,如下就是以“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京大街上。她穿着黑色皮夹克、赤色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着赤色口红。她走路自信又随意。大街潮湿且反光,在五颜六色灯光的照射下形成镜面作用。许多行人走来走去”为提示词生成的视频。
上述两个视频,如果不告知你它们是由AI生成的,谁又能辨别出来呢?
那么,OpenAI的首款文生视频模型Sora是怎么完结文生视频的?其与Runway Gen-2、Pika等AI视频工具比较,有着什么样的前进,又有哪些不足?Sora的呈现,会让哪些职业呈现翻天覆地的变化?对国内的AI企业,又有哪些启示呢?
AI,人工智能,机器人,202472cda48a91d4
1
Sora的底层逻辑,其实和大言语模型相同?
要深入探索Sora的多方面特征,咱们首先需从其技能根基着手。换句话说,咱们最早需求明白的是,Sora生成视频内容的背后,究竟是依托于怎么样的技能完结的?
在当今的人工智能范畴,大模型的发展都离不开Transformer架构。这一架构的中心思想是使用海量数据进行学习,以便在特定的方针场景中完结泛化作用,即经过剖析从前的内容来预测后续的内容。
这种方法在文本生成范畴中表现出色,由于文本数据的结构和标准相对一致。然而,关于视频数据,状况就大不相同了。视频数据包含了图画内容、时刻、颜色等多种维度的信息,怎么将这些不同维度的要素有用结合,成为了构建AI视频模型的关键应战。
在Sora项目的推进过程中,OpenAI深入考虑并参阅了大型言语模型的成功之道,即经过互联网上的超大规模数据训练,以获得通用的处理才能,然后成功将代码、数字和各种天然言语进行了有用的一致处理。
而为了让视觉数据模型承继这样的好处,Sora也选用了与大言语模型相同的思路,即LLMs已然可以运用token标记,那么Sora与选用相似于视觉范畴中的token不就可以解决问题了吗?
详细来看,Sora模型构建了Visual Encoder视频紧缩网络,将视频转换到低维空间Latent Space,然后将Latent Space分解成Patch表明,将视频生成的使命转化成经过已知Patch预测接下来的Patches的使命,然后经过Decoder将Latent还原成人类可理解的高像素视频并拼接起来,最终生成方针视频。
图片
图源:OpenAI-Sora技能文档
也正是由于将视频转换成Patch表明,所以Sora模型并不像传统的视觉模型那样,需求被高宽比、分辨率、时刻等要素约束,让整个模型的范化才能和通用性变得更强,还支撑更多的Prompt类型,完结图生视频、视频扩展、多个视频之间连接等功能。
与从前的文本生成视频软件如Runway、Pika和Stable Video等“长辈”比较,Sora不只在技能层面获得了打破性的前进,视频作用上更是完结了如代际碾压般的降维打击。
首先,最直接间隔的就是视频长度的提高,交际渠道上一位名为“Gabor Cselle”的博主将相同的prompt“美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市大街,跟从几个人享用美丽的雪天,在附近的货摊购物,艳丽的樱花花瓣跟着雪花随风飘扬”输入给Sora、Pika、Runway、Stable Video四个模型后,它们给出的结果是这样的。
可以看到,当时干流的AI视频生成软件Pika、Runway和Stable Video视频生成的时长遍及被约束在5秒内,在特定状况下,使用户要求,这些渠道能扩展至16秒,这已是2024年曾经AI生成视频范畴公认的最长时刻纪录。而Sora则打破常规,其独特的才能答应它生成长达一分钟的视频,这一时长无疑将其置于职业绝对的抢先地位。
而在简略的时长增加外,Sora多镜头切换的才能,也让人非常惊叹。
众所周知,在真正的视频拍照中,多镜头场景的拍照并不是件易事,不只需求多个机位一起参加,还需求在后期进行复杂的编排,所以曩昔的AI视频大多都是单镜头呈现,但Sora放出的文生视频许多都呈现了多角度的镜头切换,并可以在不断的切换之间完结拍照方针的一致性,这都是其他AI视频软件无法完结的。
此外,Sora创造出的场景和人物,现已达到了以假乱真的境地,从各种细节上来看,都好像是真实拍照的一般,比如下图人物的瞳孔、睫毛等细节处理,都看不出任何的AI味道。
不过尽管Sora在文本生成视频的范畴获得了明显的发展,它依然仅仅文生视频革新的开始测验。OpenAI在其技能文档中也坦白,Sora存在不少局限性,例如,其无法准确地模仿许多涉及到交互的物理特性比如玻璃破碎等,也会呈现吃掉饼干一部分后饼干依然完好无损的状况。
然而,虽然Sora间隔完美还有绵长的路途,但它的问世现已在海外被广泛视作第四次科技革新的一个里程碑。这可以类比于榜首次工业革新中火车上初次使用蒸汽机,那一刻人们意识到,本来需求数日骑马车完结的旅程,现在只需几小时即可抵达。
360公司的董事长周鸿祎对Sora的评价更是高度肯定,他表明,“Sora不只仅是一次简略的测验,它所展示的,是大模型在理解和模仿真实世界方面获得的新成就和打破”,“就像做梦一样”。他乃至预言,Sora的呈现或许会将通用人工智能(AGI)的完结时刻从10年缩短至一到两年,这无疑是对Sora以及人工智能未来潜力的极大认可和期待。
2
Sora,将推翻这些传统职业
OpenAI Sora的推出,让咱们见证了一个技能奇迹的诞生。这个可以快速且优质地将文字描述转化为引人入胜视频的AI工具,不只仅代表着技能上的一次巨大飞跃,也预示着咱们熟悉的许多职业行将面对一场革新。
受其影响最大的职业,莫过于视频职业大类下的许多细分职业了。
现在,全球有超过60亿人口是视频工具和短视频的用户,而其间与视频工业相关的从业者或许现已超过了将近10亿人,占到了全球总人口的13%到14%,这些从业者涵盖了影视职业、短视频职业以及咱们日常触手可及的各种视频展示范畴,包含广告制造等职业。跟着人工智能(AI)技能在视频范畴的交融与立异,这些从业者所在职业正在阅历一场由AI视频技能引发的革新。
关于影视职业来说,AI视频模型的呈现,将极大地降低拍照剧集的门槛。
博主快刀青衣发文表明,在与业界人士的沟通中,做了20年影视导演的陈坤看到Sora后说的榜首句话是“要变天了”,第二句话是“我直到今天才庆幸自己是个导演”。
而在诘问中,陈坤表明现在的影视职业,分工极端精密,许多工种和里面的从业者都是阶段式配合,只需导演是需求从前期跟到后期的,然后去不断协调各个工种,从舞美、化妆、道具到灯光、摄像、拍照,从艺人、编剧、剧务到动画特效,可以说一个环节掉链子,整个戏就或许功亏一篑。而如果AI视频依照现在的发展速度,至少许多简略的镜头、群演、灯光布景等,都可以用AI去完结了。
可以说,那些曩昔需求拍一年,花费数千万乃至上亿的影视作品,在未来凭借AI的才能,或许只需求一个月时刻,本钱也将大幅紧缩,一革新不只将对影视制造的功率产生深远影响,更或许引发对从业者技能要求的严重改动,未来有构思、会写prompt的导演,或许才是最需求的人才。
如果说关于影视职业从业者来说,AI视频模型是好帮手的话,那么关于广告职业从业者来说,更像是一场突如其来的“灭顶之灾”。
本来高度依靠人力构思和精密制造流程的广告拍照与后期制造,在AI技能的赋能下,得以完结大规模的功率提高与本钱优化。比如,以往制造一支高品质广告片,从策划、脚本编撰、场景建立、模特挑选到拍照编排、特效组成等环节,或许耗时数月并消耗昂扬预算。
而跟着AI视频模型的使用,部分标准化及重复性高的工作内容,如背景替换、动态贴图、群演模仿等,均可以凭借AI快速生成,然后极大地缩短了项目周期。
一起,AI作为“无情的学习机器”,完全可以替代人类依据品牌需求主动生成多版本广告构思,并经过机器学习不断优化传达作用,这无疑将对广告职业传统的构思出产形式带来史无前例的应战,试想,在未来的竞标中,许多友商报出数百万元价格的时候,AI视频广告公司却能以数十万元乃至数万元的本钱完美解决用户需求,谁又能中标呢?
可以说,关于广告职业来说,AI视频带来的影响并不只仅激烈的竞赛,更意味着整个职业的组织形式与商业形式的重构。
此外,关于短视频职业来说,可以生成一分钟视频的Sora,现已对短视频从业者构成了极大的要挟。
在全球范围内,无论是我国的抖音、快手、B站和小红书等渠道,还是国际版的TikTok,短视频内容消费正处于史无前例的顶峰,而跟着Sora的呈现,用户现在可以敏捷制造出各种类型的视频内容,未来稀缺的不再将是视频拍照或许编排的才能,只需具有独特的构思,便可轻松入局,也将会在短视频职业中掀起另一场风暴。
在Sora这一技能现象的辐射范围内,在其对视频工业带来的应战与革新之外,也正悄然为其他范畴开辟出新的机遇。其间,算力职业天然首当其冲,获益于Sora驱动的AI视频生成技能对强大计算才能的继续渴求,商场需求将迎来明显增长。但此处先按下不表,转而聚集于另一个重要范畴——安全职业。
海外研讨界遍及认为,在AI视频生成广泛使用后,安全范畴的革新将会是最受惠的方向之一。可以预见的是,跟着技能的发展和遍及,商场大将呈现一大批专注于视频真伪辨别技能研发与服务的新式企业。这些公司将使用最早进的算法和技能手段,为全球范围内的政府、企业和个人用户供给视频内容真实性验证服务,以及相关的数据安防解决方案。
Sora带起的这一波浪潮不只会推进视频认证技能本身的前进,还将带动整个信息安全工业链的晋级与完善,包含但不限于数字水印技能、深度学习检测模型、区块链存证等前沿技能的深度交融使用。一个全新的、围绕视频内容安全防护的生态系统也将在全球范围内逐步构建起来,为维护信息社会的公信力与秩序供给有力支撑。
3
百度、讯飞与字节,谁能摘下国产Sora桂冠?
在探讨了OpenAI的Sora模型与其对其他职业带来的深远影响之后,咱们也该将视角转向国内,关注一下我国企业在文生视频范畴的发展了。
年后A股开盘后,在Sora的催化之下,许多概念股敏捷升温,当日当虹科技、中文在线、因赛集团等公司均以涨停收盘,盘后也有许多企业在投资者沟通渠道沟通相关发展。
其间,2月19日虹软科技官微宣,其间心大模型技能引擎——虹软ArcMuse再次晋级。而此次晋级将支撑面向商拍的商业视频主动生成。
据介绍,与Open AI Sora相似,虹软ArcMuse大模型视频生成根据diffusion-transformer技能架构,具备丰厚多样的构思力和想象力。经过图画,ArcMuse大模型可以捕捉到产品的细节特征、质感、颜色等方面的准确信息,生成更能展示产品真实面貌的动态商拍视频。
而因赛集团则在与记者的沟通中表明,其AIGC项目团队依照计划,将在三月进行文生视频功能的开发,等候时机成熟后投入公测。
而在大模型的干流玩家行列里,字节跳动早在年头就发布了超高清文生视频模型MagicVideo-V2。据悉,该模型输出的视频在高清度、光滑度、连贯性、文本语义还原等方面,比现在干流的文生视频模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。
而就在前几日,阿里云旗下魔搭社区(Model-Scope)上线文本生成视频大模型。现在由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。
但整体看下来,除去字节跳动的MagicVideo-V2有一定的水平之外,其他大多都处于一言难尽,乃至还无法看到作用的阶段,同Sora的间隔还有很远很远。
至于国内何时能复现Sora,复现过程中会遇到哪些问题,也有媒体采访了某大模型团队的工程副总裁。
在采访中,对方表明,“Sora的’核弹效应’表现为业界广泛认可,是视觉AI的’ChatGPT时刻’”,“可是Sora打通的这条路途并不神秘,总体上没有许多超预期的技能,它是沿着大一统多模态大模型的既定路线,在工程上获得的一项成果,没有改动既定的技能范式和设计理念。”
但关于国内大模型团队的复现速度,他提示道,“魔鬼在细节里,而细节在闭源模型的技能陈述里几乎没有任何发表。追赶的速度也会由数据、算力和工程才能等硬约束。”
换一种说法就是,其实Sora完结文生视频的大致思路和逻辑都现已在技能文档中公之于众了,但想要真正完结复现乃至逾越,依然需求检测国内AI企业包含算力、数据和工程才能在内的许多的综合实力。
从这样的角度来看,那最有望做出并肩乃至逾越Sora模型的企业,也无外乎在大言语模型中抢先的百度、科大讯飞。
百度其实在好久之前就推出了文生视频的才能,在百度的百家号中,当用户上传文章之后,会有一部分文章被百度精选出来,主动生成视频,而在最近也发布了一款名为“UniVG”的视频生成模型,相关作用也坐落除Sora之外的前列。
一起,百度作为国内深耕AI职业最深的企业,无论是算力的充足、数据的丰厚还是工程才能的先进,都处于国内榜首队伍,只需其以正常的速度进行推进,那么百度版的才能更强的文生视频模型,也将于未来不久上线。
除百度外,科大讯飞作为专精AI赛道的公司,也是大言语模型竞赛中的佼佼者,1月底,星火认知大模型刚完结了V3.5的晋级,并在华为的协助之下,相关算力与工程才能得到了较快的提高。也有接近科大讯飞人士泄漏,科大讯飞现在内部正在研讨文生视频。
而在“传统”抢先的大模型企业外,字节跳动或将凭借存储数据的优势弯道超车。
字节跳动在短视频和交际媒体方面的海量数据资源,使会其在文生视频模型的研发上占有独特优势。MagicVideo-V2的发布及其作用上的明显提高,现已证明了字节跳动在该范畴的技能实力与立异才能。
跟着火山引擎大模型服务渠道“火山方舟”的推出,以及与多家合作伙伴共建的生态系统不断完善,字节跳动不只可以使用本身的庞大用户根底产生的实时、多样的数据流进行训练优化,还有望经过高效的模型迭代和协同立异,在未来开宣布能与Sora对抗乃至逾越的新一代文生视频模型。
但这样的优势也未曾不是一种包袱,作为数据层面最占优势的字节,又能否快速补上工程才能上的短板,摘下国内首个正式敞开文生视频的桂冠,仍需求时刻来证明。
4
写在最后
Sora的呈现,无疑是AI范畴的一次严重打破。它不只展现了AI在视频生成范畴的巨大潜力,更为内容创作和多个职业带来了全新的考虑和机遇,抖音、Tiktok、B站、P站等视频渠道,都需求重新审视自己的内容生态了。
而关于我国企业来说,Sora的呈现既是应战也是动力,国内AI企业前方又呈现了一个需求追赶的方针,百度、科大讯飞等在大言语模型中抢先的企业,以及具有海量数据资源的字节跳动,都应该加快了。
参阅资料:
1.《OpenAI最新文生视频模型Sora技能才能解密:根据Patch的数据规范性、多模态Prompt支撑、物体持久性和远程相干性才能》,Garvin Li;
2.《Sora模型发布,哪些职业要变天?》,IT魔术师;
3.《国内复现Sora才能几许?李维:不存在跨不过的技能门槛》,中证金牛座;
4.《Sora技能文档》,OpenAI。