大硬盘-宝塔面板-UCloud优刻得US3在海量数据归档存储下的成本优化实践,使存储成本再降

UCloud优刻得在2020年8月正式发布了根据US3的全新一代归档存储产品,该产品选用UCloud优刻得全新自研存储架构,相较标准存储下降近80%存储本钱的一同,与市场同类归档存储产品比较下降近30%的价格。据IDC的猜想,全球年新增数据量到2025年将达175ZB,真正能存储下来的数据仅有15ZB左右,流失率超越91%。在现在企业数据的冰山模型里,80%的数据量来源于冷数据。在公有云领域,UCloud优刻得认为容量型存储通过技术手法前进发展的空间还非常巨大。

怎么最大化运用最新的高容量硬件来进一步下降存储本钱?怎么在归档存储长时间保存的场景下充分保证用户的数据安全?这些都需求UCloud优刻得对US3归档存储的整个IO路径做较大的优化以及硬件适配作业,一同我们还需求保证产品的易用性,避免给用户带来额定的运用本钱。

接下来本文将从UCloud优刻得怎么运用硬盘技术前进存储密度以及优化IO调度来下降运营本钱这两个角度,详细解析US3归档存储的底层存储引擎的软件以及硬件选型优化细节。

选用SMR盘+JBOD设备前进存储密度

下降硬件层面的本钱,首要体现在前进存储密度上。这儿我们探求过包含蓝光,磁带、大硬盘宝,塔面板等不同的存储介质,也有参考过微软的Pelican系统的硬件设计。考虑到我们终究结束的政策是希望用户可以在紧迫情况下分钟内结束数据的激活与读取,正常情况下可以在小时内结束激活与读取,关于用户的最短保存时间不需求以年来核算。因此,UCloud 优刻得结合本身的存储技术优势,暂时排除了蓝光以及磁带的存储介质结束,首要选用高密度硬盘的办法来结束归档型的云存储服务。

这儿先介绍一下传统硬盘是怎样记载数据的。

这种传统的硬盘一般来说是归于笔直磁记载PMR类型的硬盘。数据通过写入彼此平行而不堆叠的磁道来记载数据,前进数据存储容量只能通过前进磁道数量来前进。

相较于这种传统的硬盘还有一种根据叠瓦磁记载SMR的磁存储数据记载技术的硬盘可以前进存储密度以及整体硬盘的存储容量。这儿介绍SMR硬盘的硬件结束之前还需求先了解一个布景常识,首要我们将磁盘的磁头扩展来看。

由于物理上的原因,磁盘写入磁头所需求的宽度要比读取的磁头宽上许多,这就导致了读写两个操作关于磁道宽度的需求其实是不对等的,写入需求的宽度更多,这就给前进磁盘密度带来了可能性,下面我们再来看一下SMR磁盘的结构。

SMR硬盘写入的新磁道与早年写入的磁道部分堆叠,从而使早年的磁道更窄,因此能具有更高的磁道密度。由此可以看出,运用叠瓦磁技术的磁道相互堆叠,与用作房顶的瓦片堆叠办法类似,所以叫做叠瓦磁记载硬盘。

从SMR硬盘的硬件结构我们不难看出在前进硬盘存储容量的一同,关于写入其实会形成很大的困难,一旦当时磁道的下一条磁道被写入过数据,这个磁道假如再想写入,由于磁道有堆叠,写入的磁头又较大就会对后边的数据形成影响。所以从运用的角度来看,SMR硬盘会被划分红若干的Zone,每个Zone中的数据只可以进行追加写入,这其间又会有1%的Zone,磁道不堆叠,叫做CMR Zone,可以支持随机读写。

可想而知假如要对上层屏蔽SMR盘带来的束缚的话会带来不少的价值,这儿有device managed、host aware两种办法来简单屏蔽掉SMR的次第写入束缚,但不管哪一种,都是将随机IO转化为次第IO,这样会带来必定的写扩展以及读功用下降,以及在特定IO场景下的硬盘寿数影响,且上层对其影响不可控。

UCloud优刻得存储团队在多个现有产品上,都有绕过文件系统直接对块层存储操作的技术堆集,为避免对底层存储落地文件系统有强依托,我们选取了host managed的办法来对SMR盘进行读写处理。

在硬盘数据落地的一同,我们也将相关的少数元数据与数据吞并在一同写入,这样做有三方面考虑:一是这部分少数元数据,我们会包含这一次IO的整体CRC,用于避免硬盘的静默过错(Silent Data Corruption),前进用户在运用US3归档存储时的数据可靠性,因此在冷存储这种海量且长时间存储场景硬盘的比特位反转(bit flip)等过错仍是需求我们特别关注的。二是当我们的元数据遭到一些毁灭性的软硬件问题导致不可用时,我们可以通过从头读取这些随IO写入的元数据恢复出整体的结构,当然这个价值也是比较大,预期也是在应对一些黑天鹅工作时的处理方案。三是可以下降我们的写扩展,在写入时不会由于需求更新元数据而写入两次IO,这在随机IO才能不是强项的HDD硬盘场景下也格外重要。

我们选取了其间头部的若干CMR Zone用于自解析当时盘的元数据,并冗余多份,这儿由于本身1%的CMR Zone关于元数据来说仍是较多,所以这儿我们将部分CMR Zone和只能追加写的SMR Zone都笼统成了只能追加写的Data Zone,来最大化的运用磁盘的空间。

至此我们前进了单块磁盘的存储密度,使单块硬盘存储空间前进150%,相较于之前,我们还前进了单机柜的磁盘密度来进一步前进整体的存储密度。相较于传统36盘位的传统高密机型,我们选用了JBOD的办法。这儿获益于 UCloud优刻得自建机房的优势,早年单机柜机房地板承重以及高功率机柜稀缺的束缚不再存在,从而可以在单机柜存放更多的JBOD存储设备,使单位机架的存储容量前进5.375倍,硬盘数量添加59%。

除此之外,我们还选用了双机头硬件架构,全部JBOD中的硬盘保证一同双机头可见,这样保证了在单机宕机的情况下,仍然可以通过我们的选主算法立刻切到其他一个机器上,保证服务的可用性。

优化IO调度算法下降运营本钱

前进密度本质上下降的是我们的CAPEX(Capital Expenditure)本钱性开销,在归档存储的场景下长时间的OPEX(Operating Expense)运营本钱也占比较大。这儿我们做出的优化是在不影响用户运用体会及存储功用的前提下下降我们的电费开销(即下降OPEX本钱)。

为此我们在IO调度层添加根据硬盘Spin-up、 Spin-down的调度算法。用来下降在高密度机型的冷存储场景下许多硬盘空转的电力浪费。

这儿整体的调度算法需求考虑的要素许多,我们首要根据缺点域把JBOD中的磁盘分红若干个磁盘组,保证在恰当的EC条带以及JBOD个数下,可以忍耐磁盘以及JBOD层面的缺点,之后Spin up-down的操作都根据磁盘组为单位进行操作。

一同我们需求考虑在满意用户紧迫读取需求的一同保证硬盘的Spin up-down次数在必定的规划之内,这儿我们将硬盘运用寿数内的可操作上下电次数均匀到每天每小时,在算法上保证磁盘的每次Spin up-down会有必定的冷却时间,而用户的普通读再通过正常的轮询上电的时间片内进行读取,这样既可以下降用户的运用本钱也保证了用户数据在硬盘运用办法层面的可靠性。

除了可靠性上面的考虑,我们也需求保证写入的功用是否可以吃满我们的硬件,由于SMR盘以及事务逻辑的特殊性我们的写入包含之后的Compaction都是许多次第写入,所以我们配合EC条带的大小保证一个磁盘组的写入数据带宽可以吃满我们整体设备的网卡带宽,这样在功用上就不会有额定的浪费。

写在最后

根据上述前进磁盘存储密度以及下降运营本钱(即电费)两个首要方面的设计考虑,UCloud优刻得研发了US3归档存储的底层存储引擎(如上图所示),在大幅下降US3归档存储本钱的一同,保证了在归档存储这种长时间冷存储下的数据高可靠性。

后续UCloud优刻得US3归档存储会继续从各个方面前进产品的运用体会,例如愈加便捷自动的数据降冷处理,愈加智能化的下降存储本钱,让用户充分享受UCloud优刻得技术创新带来的价格红利。还会探求深度归档场景下磁带等其他存储介质的运用,让UCloud优刻得用户不必与凌乱的底层硬件进行直接的交互,就能满意海量冷数据存储的需求。