全球邮-基调听云:应云而生,可观测性的用武之地才刚刚开始

2021 年下旬,有关可观测性的研讨如雨后春笋般层出不穷,在解读 CNCF 云原生核算基金会 2021 年度云原生查询时,CNCF 履行董事 Priyanka Sharma 曾表示:“跟着容器根底设施的上层和底层不断成熟,2022年将成为边际、可观测性和安全等新式云原生范畴的标志性一年。”

当时传统监控体系所面临的许多局限真的可以经过可观测性处理吗?企业又该怎么构建适配自身的可观测性体系?

可观测性“炽热出圈”

“可观测性”并不是一个新词,其概念最早由现代操控理论之父 Rudolf Kalman 提出:“如果对于状况和操控向量的任何可能演变,仅运用输出的信息就可以估计当时状况,则称体系是可观测的。”

那为什么近年来可观测性的热度不断飙升,一度炽热出圈呢?

主要原因在于云原生年代下,体系杂乱性的逐渐增强。数字化浪潮推动,企业 IT 事务开端向云上搬迁,为进步搬迁功率、运转功率以及全球邮服务的灵活性,企业大多会选用多云/混合云架构,这将大大添加 IT 模型的杂乱性。

过去简略、变更不频繁的单体式架构可以运用监控查看体系运转状况,但跟着分布式架构、云原生架构的变迁,越来越多的新诉求开端逐渐闪现。

用户体会和运用比以往任何时候都重要, 企业依赖于体系化的 IT 体系来完成添加。

数字化转型过程中,运用的数量、数据的体量、变化的频率和添加的速度,都现已远远逾越了仅经过固定仪表盘就可以办理杂乱 IT 体系的才干。

多云/混合云的布置方法都是容器化且动态变化的, 容器创立的速度和规划及其生命周期,已超出数据中心年代办理鸿沟。

多种多样的开发言语、运转时以及当时选用的支撑软件和数据库等,都现已逾越了IT从业者的交流界面,独自的交流方法难以满足开发者之间的交流需求。

企业资源是有限的, 不断添加的体系杂乱性、毛病排查难度正在盗取企业的创新时间,耗费 IT 从业者的时间。

点亮监控变革信号灯

企业上云或服务改造的过程中,通常会引进很多新式东西,服务事务爆炸性添加。云、微服务及容器的运用,将会对 IT 运维及数字化转型带来巨大应战。显然,开源集成或传统监控东西的办理方法已不达时宜,难以助力企业的数字化转型。

每位用户每一秒的体会都非常重要,APM采样方法无法做到全面、全量监控。

微服务快速更新的需求会使得监控的目标和目标量呈指数级添加, 传统方法难以完成海量数据的搜集和剖析。

相比传统监控,可观测性的侧重点不同。 传统监控是对被监控设施所进行的清晰的、可猜测的审视和衡量,是为了进步体系可观测性而运用的手法,重视现实状况的变化。而可观测性是一种方法,经过查看体系的外部输出衡量体系内部状况的才干,也是体系的中心才干。

因而,Gartner认证的运用功能办理(APM)处理方案供给商基调听云认为,可观测性是 IT 建造过程中的必要手法。 在开发与维护的生命周期中,都应具有可观测性才干,动态高效地定位并处理突发性问题,在体系不可用时,快速了解问题现状及原因,有效防备毛病发生,而不是简略地降级限流。

可观测性构建的正确打开方法

既然可观测性相比传统监控体系具有许多优势和价值,那么该怎么构建呢?首先需求了解一个优异的可观测性渠道应具有什么样的才干:

全面、全量的数据搜集才干,扩大数据搜集的广度、深度及数量;

经过自动化技能完成数据搜集的可伸缩和完整性;

高基剖析的才干;

超大规划实时核算才干;

多源集成才干;

根据AI和确定性因果关系的根因剖析才干;

事务实时洞察才干。

基调听云智能事务可观测性渠道

不同企业诉求不同,又该怎么快速构建适合自身事务体系的可观测性呢? 以基调听云可观测性渠道的发展为例,构建完备的可观测性渠道可以分三步走。

融汇:以用户体会和事务为中心,夯实数据根底

全面丰富的数据是全部剖析东西及决议计划的来历,尽可能搜集根底数据将有利于后续剖析,不然当体系毛病需求排查剖析时,将难以有效评价当时的状况。

为完善技能栈可观测性数据的搜集才干,基调听云以Tracing为中心,全面搜集APP、Web、小程序及体系运用的目标数据,以事务承载关系搜集主机、云原生组件、数据库、信息行列目标数据。

交融拨测渠道(STM)自动搜集可观测性数据;

OneSDK / OneJS 搜集集DEM终端的功能,会话和行为可观测数据;

一体化 Agent 搜集后端运用功能、根底组件及日志数据,覆盖从事务层、运用层到云原生根底资源层全量可观测数据搜集;

支撑 OpenTelemetry,第三方 APM 数据接入,目标体系根据 OpenMetrics 完成广泛第三方可观测性目标及元数据的接入。

融通:重视数据的办理与运用,数据相关丰富化

众所周知,传统意义上可观测性有三大支柱:Metrics 、Logging、Tracing,但分裂、无相关的数据会对数据检索带来严峻的应战,更难进一步定位根因。

基调听云将用户体会、Metrics 、Logging、Tracing为可观测性的四大支柱,重点关注用户体会数据,以Tracing为中心,连通Mertrics、Logs 数据,完成数据间的相关剖析、一致建模与转化相关,做到问题的精准定位与数据的精准检索,有效处理传统监控的数据孤岛问题。

以 Tracing 为中心交融可观测性三大支柱

此外,基调听云经过实时的事务洞察、事务影响及流程剖析,完成功能数据与客户事务数据的有机结合, 让 IT 和事务在同一套渠道下协作,这也是基调听云可观测性渠道的中心竞争力之一。

如上图所示,经过目标与 Tracing 的结合可以对 VIP 用户进行识别,设置 VIP 用户的事务功能阈值,终究完成 VIP 用户的告警和体会保证。

融智:多元数据整合,增强数据运用才干及可观测性

智能化技能在可观测性数据剖析中的效果不可或缺,可观测性的数据只有被相关起来一同剖析时才干发挥出它们最大的价值,但可观测性的数据是海量的,只靠人力剖析、运维很难全面考虑,而人工智能算法是当时处理海量数据最有希望的方法。

此外,智能化技能在云原生体系运维中还将作为可观测性的重要补充,发挥不可替代的效果,经过引进 AI 算法模型和机器学习,整合原有数据,可以进一步增强可观测才干,如运用 AI 进行容量猜测,提前发现体系功能容量瓶颈,完成毛病发现与防备。

智能毛病办理

可观测性体系的实践事例

事例一:常见场景之客户投诉

任何职业都有可能遇到客户投诉的场景,面临客户投诉,在运用可观测性渠道的情况下,只需知道一个用户标识即可轻松查询相关信息。

相较传统监控将信息传给运维部分,再由研发人员检索日志的方法,运用可观测性渠道可以大大提高检索功率,减少时间本钱。此外,除了快速呼应客户投诉处理问题外,还可以经过对投诉时间段内所观测信息的剖析复盘,挖掘深层次的原因并把握毛病的影响范围。

事例二:某大型银行可观测性实践

跟着运用体系架构由传统向新的架构渠道转化,硬件架构由独立服务器向虚拟资源池、容器环境转化,某大型银行面临监控数据分裂,缺少端到端运用功能观测手法、用户体会观测手法亟待建造等许多事务应战。

如上图所示,交融基调听云SDK、SkyWalking和 OpenTelemetry 的调用连数据,经过抽取链路目标、相关日志,完成可观测数据的相关交融。经过UserId及 TraceId的相关,完成端到端的交易全链路问题追溯;经过根据真实用户的用户旅途,复原用户会话行为;经过异常检测、相关性剖析和根因剖析,完成IT体系问题的根因定位。

事例三:某运营商可观测性建造

面临运营商短少一致的DevOps监控东西、缺少全链路调用追踪和毛病异常快速剖析手法、难以保证严重体育赛事直播等种种事务应战,基调听云沉着迎战。

经过基调听云智能可观测性渠道,将听云APM监控、Zabbix根底监控、日志易日志监控有机调集,完成一体化可观测渠道。

终究该运营商沉着地支撑了高达70万tps的事务峰值,在国家级奥运盛事的直播期间,经第三方中立机构评测,用户体会功能得分第一。

事例四:某头部城商行可观测性一体化渠道建造

某银行跟着信息科技体系架构日趋杂乱、 客户人数急剧添加,对需求快速交付,体系的稳定性、高效性、服务水平等方面都提出了更高的要求。

针对该银行对完成办理目标一致调度、数据一致加工、东西一致办理,以及一致采控、一致数据、东西打通,优先处理毛病告警剖析的需求,基调听云从多个方面助力改造:

经过可观测性一体化渠道对接已有各专业运维东西,形成一体化的智能运维渠道,提高体系运转状况感知才干,问题剖析定位,应急处置才干,并供给一致运维门口,提高运维功率和事务连续性服务水平;

经过可观测性一体化渠道构建智能运维大数据渠道,供给运维办理数据加工,目标体系核算才干,功能容量剖析才干,事务体系健康度剖析才干,智能告警剖析才干;

经过可观测性一体化渠道建造以用户旅程为抓手的事务体会端到端可观测体系,为提高用户体会、体系健壮性供给支撑。

可观测性的用武之地才刚刚开端

巨大的数据量,体系架构的演化,让容器、数据之间的关系变得错综杂乱,毛病排查扎手,此时打造具有可观测性的体系成为应对之策。

可观测性是云原生年代下可以联动 IT 与事务的才干,它本质上符合云原生环境以事务运用为中心的趋势。从监控到可观测性的发展,拓宽了传统监控的才干鸿沟,打破了传统被迫监控方法,形成了自动、全局式的一致智能观测才干,更有利地帮助我们把握体系健康程度。

未来,跟着云原生的快速发展,可观测性的发展潜力巨大,其用武之地才刚刚开端。