google网站推广-不做Sora背后:百度的多模态路线是什么?

当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。
Sora再掀视频生成风潮,却传出李彦宏内部讲话“Sora不管多么火,百度都不去做”。
一时刻,困惑、不解、争议,纷至沓来。
面临这些声响,在刚刚完毕的百度国际大会会后采访中,李彦宏揭露回应。
他不只重申了不做Sora的决定,并且说明晰百度是如何运用和开展多模态的。
在大会发布中,李彦宏发布了百度从年初开端要点霸占的iRAG技能,这项技能旨在处理AI范畴最棘手的”错觉”问题。有趣的是,这个开端正好是在Sora风正热之时。
百度的挑选背面原因,究竟是什么?
元宇宙 科幻 赛博朋克 大模型 (2)绘画
图源补白:图片由AI生成,图片授权服务商Midjourney
加速处理错觉问题

google网站推广,先从iRAG技能看。它所处理的是图片生成的错觉问题。
在年初,不做Sora,转头将资源放在错觉处理上。为什么?
结合这届百度国际大会主题“使用来了”来了解:
错觉已经成为限制大模型使用大规模落地的一大拦路虎。
现代社会对计算器已有绝对的信赖,只要保证输入是对的,就可以百分百放心地把计算结果用到下一步作业流程中。
但关于已知可能存在错觉的大模型来说,还敢给予同等的信赖吗?
有错觉,即意味着模型行为不完全可控,不能完全放心的自动化作业流程,仍然需求人工介入。
AI使用正面临这样的困境。
事实上,ChatGPT面世之后,大模型的几个首要改善方向都是经过不同办法来处理大模型错觉问题。
长上下文窗口,让模型获取更完好的输入,削减因信息不全发生的错误推理。
RAG(检索增强生成),检索外部常识库补充信息,弥补模型参数存储常识的不足。
联网查找,获取实时、动态的在线信息,扩展模型的常识边界。
慢考虑,经过分步推理削减直觉性错误,进步推理进程的可解释性。
乃至从某种意义上说,多模态技能也是让模型多一种信息输入途径,不用在“看不见”视觉信息的情况下为了完成任务随便假造。
……
所以再次总结一下,为什么处理错觉问题是现在AI职业的当务之急?
从技能层面,不处理错觉问题就难以猜测和操控模型的行为边界。
从使用的视点来看,错觉问题阻止了用户对AI产品的信赖。
从产业视点,处理了错觉问题才干扩展AI可使用的场景范围,进步AI体系的商业价值。
再将目光转向百度,处理AI错觉问题,恰恰也是百度的“主战场”。
iRAG,全称Image-based Retrieval-Augmented Generation,是一种全新的检索增强文生图范式,结合了百度多年的查找积累,帮助大幅提升图片的生成可控性和准确性。
其核心是将百度查找的亿级图片资源与文心大模型的生成才能相结合,经过联合优化,让生成图片愈加实在可信。
具体而言,iRAG先使用检索模块在海量图库中找出与文本描绘最相关的若干图片,然后提取其视觉特征,与文本特征一并输入到生成模块。生成模块在此基础上,对图画进行了解、重组、立异,终究输出高质量、符合需求的全新图片。
可以说,iRAG巧妙地将认知智能(检索)与生成智能(创造)结合在一起,取长补短,相辅相成。
一方面,海量图画的参阅让生成更”接地气”,大幅削减了错觉、违禁内容等问题。
另一方面,强大的生成才能让输出图片更多样、更具构思,远非单纯的拼贴、修改那么简略。
更重要的是,iRAG在诸多职业范畴都具有广阔使用远景,尤其能显著下降AI生图的创造本钱。比如在影视制造、动漫设计中,iRAG可完成从文本脚本直接生成高质量的分镜、概念图,大幅削减中间环节的人工干预。
多模态,不止Sora一条路

明晰了错觉问题是AI职业的优先级,百度还需求回答另一种质疑:多模态已经是公认迈向AGI的重要一步。
多模态有助于增强AI体系的感知和了解才能。经过处理视觉、语音、文本等不同模态的信息,AI可以更全面地感知环境,增强其认知和交互才能,与人类经过多种感官认知国际保持一致。
但这里要明晰的是,Sora道路并不能代表多模态技能的悉数。
首要,投入做Sora代表的通用视频生成模型投入的本钱十分高昂。商场研究机构Factorial Funds报告估算,Sora模型至少需求在4200~10500块英伟达H100GPU上练习1个月。而假如Sora得到大范围使用,为了满足需求,需求约72万张Nvidia H100GPU,假如按照每片英伟达H100AI加速卡3万美元本钱计算,72万片需求216亿美元。
而现在通用视频生成模型在技能老练度上间隔iPhone时刻也还有较远的间隔。此前与艺术家协作短片《Air Head》后来就被指出实践有很多人工参与,估算只有约1/300的AI素材用到了终究成片里。
图片
△图源fxguide.com
现在商场视频生成使用从短剧内容出产到影视特效制造,很多努力都在探索视频生成技能的想象空间,但尚未形成老练的商业化计划和安稳的营收形式。
其实,关于做多模态来说,也存在Sora之外的多种途径。
Meta首席科学家、图灵奖得主Yann LeCun就一直坚持“国际模型”道路。他认为生成视频的进程与基于国际模型的因果猜测完全不同,经过生成像从来对国际进行建模是一种糟蹋,注定会失利。
斯坦福教授李飞飞则看重具身智能,她认为AI仅仅看是不行的,“看,是为了行动和学习”。比如经过大言语模型,让一个机器人手臂执行任务,翻开一扇门、做一个三明治以及对人类的口头指令做出反响等。
百度对多模态技能的了解,最近也在数字人场景得到集中体现。
百度从2019年起就开端布局数字人范畴,触及语音克隆、唇形同步、表情动作捕捉等一系列关键技能。到现在百度“曦灵”数字人、“慧播星”数字人已广泛使用于新闻播报、直播电商等场景。
正如李彦宏着重的,百度不做Sora,并不意味着在多模态赛道上缺席了。
数字人语音与口型、动作的同步问题,或许终究可以靠通用场景下的视频生成完成,但需求很长时刻,本钱很高。
但既然可以用更简略、本钱更低的办法做到,为什么不先把事务跑起来呢?
首要,通用计划追求”大而全”,试图用单一模型掩盖所有场景,但这在技能上尚不老练,往往带来作用的参差不齐;而数字人聚焦特定笔直范畴,可以更精准地优化模型,追求极致的人机交互体验。
其次,视频生成好就是固定的素材了,缺少实时交互才能;而AI驱动的数字人却可以完成动态多轮对话,乃至还可以依据用户反馈实时调整状态,愈加符合实在使用的需求。
最后,视频生成对算力和数据的要求极高,当时可以真正驾御的企业百里挑一,商业化进程困难重重;相比之下,数字人技能门槛相对较低,且使用场景明晰,更简单形成可复制的商业形式,开启数据飞轮。
AI大规模落地需求什么条件?

不论是投入处理图片错觉问题,仍是从事务需求出发开展多模态的道路,百度的方针似乎都围绕着李彦宏所说的:让技能被更多人用起来。
李彦宏这段时刻不断着重的一个观点是“模型本身不发生直接价值”,只有在模型之上开发各种各样使用,在各种场景找到所谓的PMF,才干真正发生价值。
百度需求做的,是为个人和企业供给开发使用的基建,帮助更多人、更多企业打造出数百万“超级有用”的使用。
长远来看,错觉问题的处理为职业使用消除了障碍,使得AI技能可以在更广泛的范畴得到使用和推广。
用事务需求的多模态技能支持事务先跑起来,能让更多的AI使用场景为大家所用。
一起,很多的职业使用所发生的数据,又能为AGI的开展供给丰厚的营养,形成良性循环,推进数据飞轮的高速运转,然后加速我们迈向AGI的步伐。