阿里巴巴 万网-Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目

全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时刻 2022 年 6 月 16 日宣告,Apache Doris 成功从 Apache 孵化器结业,正式成为 Apache 尖端项目(Top-Level Project,TLP)。

Apache Doris 官方网站:http://doris.apache.org

Apache Doris GitHub:https://github.com/apache/incubator-doris

Apache Doris 是一个根据 MPP 的现代化、高功用、实时的剖析型数据库,以极速易用的特色被人们所熟知,仅需亚秒级呼应时刻即可回来海量数据下的查询成果,不只能够支撑高并发的点查询场景,也能支撑高吞吐的杂乱剖析场景。根据此,Apache Doris 在多维报表、用户画像、即席查询、实时大屏等许多事务范畴都能得到很好运用。

Apache Doris 最早是诞生于百度内部广告报表事务的 Palo 项目,2017 年正式对外开源,2018 年 7 月由百度捐赠给 Apache 基金会进行孵化,之后在 Apache 导师的辅导下由孵化器项目办理委员会成员进行孵化和运营。

“咱们很骄傲 Doris 能够顺畅从Apache孵化器结业,这是一个重要的里程碑。在整个孵化阶段,依托 Apache 理念的辅导和孵化器导师的协助,咱们学会了如何故Apache的方法去展开咱们的项目与社区,也在这一进程中获得了巨大的生长。” Apache Doris VP 陈明雨说道。

现在 Apache Doris 社区现已聚集了来自不同职业近百家企业的 300 余位贡献者,而且每月活泼贡献者人数也挨近 100 位。在孵化期间,Apache Doris 总共发布了 8 个重要版别,完结了包含存储引擎晋级、向量化履行引擎等许多严重功用,并正式发布了 1.0 版别。正是依托这些来自开源贡献者的力气,才使得 Apache Doris 取得了今日的成果。

与此一起,Apache Doris 现在在我国甚至全球范围内都拥有着广泛的用户集体,截止现在, Apache Doris 现已在全球超越 500 家企业的出产环境中得到运用,在我国市值或估值排行前50的互联网公司中,有超越 80% 的公司长期运用 Apache Doris,包含百度、美团、小米、京东、字节跳动、腾讯、快手、网易、微博、新浪、360, 阿里巴巴 万网等闻名公司。一起在一些传统职业如金融、动力、制作、电信等范畴也有着丰厚的运用。

“你能够根据 Apache Doris 快速构建一个简略易用而且功用强壮的数据剖析渠道,十分易于上手,所需要支付的学习本钱十分低。而且 Apache Doris 的散布式架构十分简练,能够极大下降体系运维的作业量,这也是越来越多用户挑选 Apache Doris 的关键因素。”

作为一款老练的剖析型数据库项目,Apache Doris 有以下优势:

– 功用优异 :自带高效的列式存储引擎,削减数据扫描量的一起还完结了超高的数据压缩比。一起 Doris 还供给了丰厚的索引结构来加快数据读取与过滤,运用分区别桶裁剪功用,Doris 能够支撑在线服务事务的超高并发,单节点最高可支撑上千 QPS。更进一步,Apache Doris 结合了向量化履行引擎来充分发挥现代化 CPU 并行计算才能,辅以智能物化视图技能完结预聚合加快,并能够经过查询优化器一起进行根据规划和根据代价的查询优化。经过上述多种方法,完结了极致的查询功用。

– 简略易用 :支撑规范 ANSI SQL 语法,包含单表聚合、排序、过滤和多表 Join、子查询等,还支撑窗口函数、Grouping Set 等杂乱 SQL 语法,一起用户能够经过 UDF 和 UDAF 等自定义函数来拓宽体系功用。除此以外,Apache Doris 还完结了 MySQL 协议兼容,用户能够经过各类客户端东西来拜访 Doris,并支撑与 BI 东西的无缝对接。

– 架构精简 :体系只要两个 Frontend(FE)和 Backend(BE)两个模块,其间 FE 节点担任用户恳求的接入、查询方案的解析、元数据存储及集群办理等作业,BE 节点担任数据存储和查询方案的履行,本身便是一个齐备的散布式数据库办理体系,用户无需装置任何第三方管控组件即可运转起 Apache Doris 集群,而且布置和晋级进程都十分简易。一起,任一模块都能够支撑横向拓宽,集群最高能够拓宽到数百个节点,支撑存储超越 10PB 的超大规模数据。

– 安稳牢靠 :支撑数据多副本存储,集群具有自愈功用,本身的散布式办理结构能够主动办理数据副本的散布、修正和均衡,副本损坏时体系能够主动感知并进行修正。节点扩容时,仅需一条 SQL 指令即可完结,数据分片会主动在节点间均衡,无需人工干预或操作。无论是扩容、缩容、单节点毛病仍是在晋级进程中,体系都无需中止运转,可正常供给安稳牢靠的在线服务。

– 生态丰厚 :供给丰厚的数据同步方法,支撑快速加载来自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel 等体系中的数据,也能够直接拜访 MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch 等体系中的数据而无需数据仿制。一起存储在 Doris 中的数据也能够被 Spark、Flink 读取,而且能够输出给上游数据运用进行展现剖析。

“‍结业不是最终方针,它是新征途的起点。”陈明雨提到。“在曩昔,咱们主张 Doris 的方针是为更多人供给体会更佳的数据剖析东西、处理他们数据剖析的难题。成为 Apache 尖端项目一方面是对 Apache Doris 社区曩昔一切贡献者一直以来辛勤作业的必定,另一方面也意味着咱们在 Apache Way 的指引下建立了一个强壮的、昌盛的、可持续展开的开源社区。未来咱们将会持续以 Apache 方法运作社区,信任会吸引到更多优异的开源贡献者参加社区中来,社区也会在一切贡献者的协助下得到进一步生长。”

“Apache Doris 后续将展开更多赋有应战且有含义的作业,包含新的查询优化器、对湖仓一体化的支撑,以及面向云上基础设施的架构演进等等。欢迎更多的开源技能爱好者参加Apache Doris 的社区,携手共生长。”

“咱们再次由衷地感谢一切参加建造 Apache Doris 社区的贡献者们,以及一切运用 Apache Doris 并不断提出改善主张的用户们。一起也感谢一路走来,不断鼓舞、支撑和协助过咱们的孵化器导师、IPMC成员以及各个开源项目社区的朋友们。”

关于 SelectDB

SelectDB 是一家开源技能公司,致力于为 Apache Doris 社区供给一个由全职工程师、产品司理和支撑工程师组成的团队,昌盛开源社区生态,打造实时剖析型数据库范畴的世界工业界规范。根据 Apache Doris研制的新一代云原生实时数仓 SelectDB,运转于多家云上,为用户和客户供给开箱即用的才能。