web文件服务器软件-阿里云发布全栈AI负载高可用 与用户共建AI时代云上IT新治理
12月17日上午,在我国信息通信研究院主办的2024第五届“GOLF+IT新办理领导力论坛”主论坛上,阿里云重磅发布了全栈AI负载高可用架构,以满意AI大模型企业级运用在大规划参数量、杂乱结构和高功能算力布景下,对云服务处理才能可扩展性、服务接连性、服务质量和毛病快速康复的需求。
以为生成式 AI 打造继续的杰出用户体会为目的,阿里云全栈AI负载高可用架构可达到GPU毛病猜测准确率92%,千卡规划集群接连练习有用时长大于99%,秒级模型自动保存、分钟级毛病康复;每分钟10000个pod扩展,分钟级自动扩容;中心模型服务99.99%的API SLA,模型运用服务全链路可观测等重要的AI事务高可用方针,在大规划数据处理和训推场景下,完成了对Gen AI运用事务接连性、响应速度、安稳性和安全性的全面保证。
web文件服务器软件,在论坛上,2025年我国数字化办理范畴最新评价成果揭晓,阿里云成为首批经过信通院“企业用云办理才能成熟度评价”评测的两家企业之一,一起取得该项才能评价最高等级。
阿里云全栈AI负载高可用架构正式发布
在AI算力需求逐步逾越通用需求的今天,以GenAI为代表的运用场景和技能倍增,云上企业需求处理和存储的数据量呈指数增长,AI驱动的运用在高负载情况下,对保证事务的接连性、响应速度、安稳性和安全性均提出了更高要求。
为此,阿里云在晋级云渠道本身的技能服务才能的一起,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习渠道等AI负载高可用全面融入云渠道架构规划,环绕大模型练习微调、推理、多模态数据处理等环节,构建具备“高可用模型练习、灵敏弹性的推理资源、数据高牢靠”特性的全栈AI负载高可用架构,完成了从通用负载向AI负载的可用性演进,为客户AI事务构建供给安稳的事务服务和超卓的用户体会。
WPS图片(1).png
在高可用模型练习方面,阿里云AI根底设施高可用才能融入云服务全体架构规划,依据AI算法的毛病猜测,完成训推环节的功能瓶颈剖析和潜在毛病剖析,GPU毛病猜测准确率达92%,一起将异常猜测接入自愈链路,练习康复自愈率超90%、千卡规划集群接连练习有用时长大于99%,完成秒级模型自动保存、分钟级毛病康复;一起,CPFS 高功能存储集群,在超大集群中 20TB/s 的吞吐才能,支持更大及愈加频频的 Checkpoint 读写,可以更好地避免数据丢掉,并提高练习的安稳性和牢靠性。在网络层面,阿里云自研的高功能网络,业界创始双平面的高可用网络架构,网络Link和设备中止,练习使命不中止。
在推理资源方面,阿里云容器核算服务ACS的弹性才能完成每分钟可以进行10000个pod扩展,分钟级自动扩容;PAI-EAS模型在线服务,适用于实时推理、近实时异步推理等多种AI推理场景,能感知每个恳求的执行进展,做到更公正的使命调度,提高扩缩容功率。一起,阿里云将跨区域的自动式重路由技能运用到数据中心间的通信,从而在跨数据中心推理网络上,达到跨域带宽业界最高的 99.995% SLA,完成秒级内重新路由,供给一个愈加安稳的网络通信延迟。
关于在实时语音交互、实时AI查找等高功能场景有推理需求的客户,阿里云百炼模型服务渠道,依据预练习模型为用户供给模型推理与运用构建托管服务,中心模型服务API达到 99.99% SLA,高功能场景中心用户用例中的首包延时小于300毫秒,可以有用解决运用开发、模型调用等过程中的跨区域TPM约束、高并发需求下API响应变慢等问题,提高Gen AI运用推理与构建时的用户体会。
在数据高牢靠方面,阿里云数据存储与数据库服务面向不同核算引擎、多种 AI 框架进行了深度集成,构成承载PB级乃至EB级大规划数据统一的存储底座,同城冗余容灾,高达99.995% SLA,数据多副本冗余、大文件断点续传、批量和多线程数据操作保证数据服务高牢靠,向上支撑面向单AZ, 双AZ, 三AZ及跨Region的高可用服务,跨Region AI数据的就近读写和负载均衡,满意AI数据多活的强一致性,AI数据冷备、热备、毛病自动切换,解决AI数据毛病危险。
AI年代与用户共建云上的IT新办理
AI年代的浪潮中,企业关于高可用架构的需求不只仅停留在节点的安稳性上,而是在更高的层面追求智能化运营。阿里云全栈AI负载的高可用架构已为企业奠定了坚实的技能根底,而进一步的挑战则在于如何提高云上体系的运维办理与办理才能。经过与用户携手,阿里云致力于在云环境中构建一个AI-Native的智能化、自动化和可继续的IT办理体系,为企业的立异之路保驾护航。
阿里云依据多年服务客户的经验总结为一系列的方法论和架构规划准则,推出了阿里云杰出架构 Well-Architeched Framework,意在协助企业在云上构建一个安全、安稳、高效的运用环境。面向AI技能融入带来的更杂乱更大规划的,依据云核算的弹性、实时交付、自助化等特色,阿里云杰出架构进一步晋级了用云企业运维办理和办理规矩基线的最佳实践,依托Well-Architeched云杰出架构来学习-衡量-优化,落地办理潜在的危险隐患,从安全、安稳、功率、本钱、功能五大支柱全面提高体系全体韧性和运营功率。
1735270078120682.png
阿里云敞开渠道负责人何登成表明,“在云上构建牢靠的体系是云厂商与用户共同的职责。云厂商负责供给云渠道的牢靠性,确保供给的云服务可用性符合或超越阿里云服务等级协议;用户需求依据事务需求,挑选适宜的产品服务,并依据云相关文档的指导建立高可用架构,来确保云上运用的牢靠性。”
1735270088913021.jpeg
尤其在AI迅猛开展的今天,企业更应让事务体系利用现代云渠道的根底设施达到高可用,总结成三个”面向”:面向失利的规划架构,面向精细的运维管控,面向危险的应急快恢。一起,用户可以在建造继续安稳的云环境过程中,面向AI并结合AI,经过杰出的AI模型训推架构规划、AI数据资产处理与存储、智能诊断与危险猜测等手法,进一步提高体系可用性、牢靠性、可继续性。
阿里云获信通院企业用云办理才能成熟度评价最高等级
据信通院发布的《企业用云办理才能成熟度分级要求》,企业用云办理才能成熟度评价共分为L1-L5共5个等级,分别为L1根底级、L2运用级、L3优秀级、L4先进级、L5杰出级。该分级要求不只适用于对云服务运用方用云办理才能成熟度进行评价,也适用于对云服务供给商云服务办理产品、技能才能成熟度进行评价。阿里云测评成果为L4+,是现在阶段云服务供给商实际取得的最高等级。
此前,阿里云企业用云办理才能曾两度取得信通院评测认可,包括2022年“企业云办理才能成熟度模型”获信通院科技办理范畴年度明星解决方案及产品;2023年“云办理中心”获信通院科技办理范畴年度明星解决方案。
1735270099580152.png
本年,针对企业用云开展路径、企业云办理开展趋势剖析与洞察,阿里云联合埃森哲发布《云办理企业成熟度开展2024年度陈述》(https://developer.aliyun.com/ebook/8419),陈述调研取样来自400多家企业客户,横跨互联网、金融、新零售、交通等多个职业,旨在协助用户了解云办理概念、企业用云实践的现状及变迁趋势,并依据云办理框架的五大分类(即安稳性、安全合规、本钱效益、高效功能、杰出运营),陈述作为企业云上旅程的实践样本,为面向AI年代做好IT新办理和云上架构优化供给更多的参考与决策依据。