AI与大数据时代的数据存储:如何将成本降低一半?

2024-02-01 17:57

前言

在云计算、湖仓一体(Data Lakehouse)大数据架构和生成式大模型AI浪潮中,存储的降本增效具有重要的意义和价值。这些领域通常涉及处理和存储大量数据,以及运行计算密集型的模型,存储所需要的成本投入颇高,如何有效降低存储成本,成为IT部门管理者的关键考虑因素。

在云技术与大数据环境中,数据量巨大且持续增长,有效管理存储成本对于保持大数据解决方案的可持续性至关重要。湖仓一体结合了数据湖和数据仓库的优点,旨在提供更灵活、更高效的数据管理和分析服务。在这种架构中,优化存储成本对于维持系统效率和性能至关重要。生成式大模型AI通常需要大量的数据进行训练和运行。存储成本的优化可以使这些模型的训练和部署在经济上更加可行。

分布式存储方兴未艾

分布式存储是替换传统SANNAS磁盘阵列的一种新型数据存储方法,它将数据分散存储在多台物理服务器上,甚至可部署在不同数据中心。在云计算、湖仓大数据、生成式AI等领域,分布式存储能有效解决数据存储与管理的难题,并在降低成本方面具备潜在优势。

分布式存储系统可以轻松扩展,以容纳更多数据。随着数据量的增长,可以简便地增加更多的存储节点,而无需重构整个系统。

以常见的三副本方式为例,分布式存储系统通过在多个节点间复制数据,以提高数据的可用性和容错性。即使某个节点发生故障,数据仍然可以从其他节点访问,从而确保业务连续性。

分布式存储系统通常提供高度灵活的数据管理功能,如数据的自动分层、快照、备份和恢复等,这对于大数据和AI应用尤其重要。

同时,分布式存储可以通过并行处理和负载均衡提高数据处理速度,这对于处理大规模数据集和复杂的AI模型训练至关重要。

革新数据存储- 道熵分布式存储,高效、经济、绿色的未来

分布式存储系统通常采用三副本的方式,其存储使用效率仅为33.3%。为了提升存储使用效率,分布式存储还可通过跨节点的纠删码(k, m),即ECk, m)码,来实现数据保护。其中,"k" 表示用户原始数据的数量,即原始数据块的数量,"m" 表示冗余数据的数量,即在原始数据块之后添加的冗余数据块的数量,它代表了抵御硬件故障的能力,通常为23,表示能够抵御同时出现2个或3个故障点而数据仍然不丢失。

EC码常见的有EC(22)EC(42)(82)(83)、(163)等。ECk, m)码的一个突出优势在于它具有较高的存储使用效率,其存储使用效率为k/(k+m),例如EC(22)的存储使用效率为50%,是三副本的1.5倍;EC(42)的存储使用效率为66.7%,为三副本的2倍;而EC(163)的存储使用效率可达到84.2%

然而,EC码在进行小文件或小块数据读写时,面临读写放大的弊端。以EC(22)为例,每个小块数据的读操作,需要至少读出两个数据块,即两次IO操作,而每个小块数据写操作,至少需要写入四个数据块,及四次IO操作;如果是EC(163),每个小块数据读操作被放大到16IO操作,而每个小块数据写操作被至少放大到19IO操作。与三副本相比,其IOPS性能相当于降低20倍左右,除非是大块数据读写如视频监控应用场景,在云计算、大数据、机器学习与AI应用等通用场景,这样的IOPS性能损耗是不被接受的。

针对上述问题,道熵分布式存储推荐使用相对较短的的EC码,如EC(22)EC(42),并采用道熵独特的自适应混合闪存优化技术,提升小块数据的IOPS性能。具体而言,在使用EC码时,针对每个OSD,可配置一个较大容量的固态缓存盘,作为该OSD的读缓存,通过自适应Cache替换算法,使得Cache命中率提升到90%左右,从而提供大约10倍左右的IOPS性能加速。这样可以将EC(22)配置条件下的总体性能提升到三副本的3倍左右;而EC(42)配置条件下的总体性能可提升与三副本相当的水平。

同时,道熵在基于EC码的分布式存储系统中,对OSD的读写流程进行改造,增加了在线数据压缩功能,通过LZ4ZSTD压缩/解压缩算法,对落盘的数据进行在线实时压缩与解压缩,平均数据缩减比可达1.52.0倍,进一步有效提升存储的使用效率。

总结

在这个数据驱动的时代,云计算、大数据和生成式AI正在重塑我们的世界。但随之而来的是对更高效、更经济、更环保的存储解决方案的迫切需求。道熵分布式存储,以其前沿技术,应运而生,为您的企业带来革命性的存储优化:

高效存储,性能卓越:通过采用创新的极短ECEC22)和短码EC42),结合先进的在线数据压缩技术,道熵分布式存储将存储使用效率从传统的33.3%大幅提升至66.6%甚至更高。这意味着您可以在相同的物理空间内存储更多数据,大幅提升数据处理能力。

加速算法,提升IOPS性能:我们的自适应混合闪存缓存加速算法进一步提升了存储系统的IOPS性能,确保数据处理的高速和流畅,满足云计算、大数据处理和生成式AI应用中对速度的严苛要求。

降低成本,经济高效:道熵分布式存储的高效率不仅意味着更强的存储和处理能力,也意味着更低的成本。通过提高存储效率,减少了对额外硬件的需求,从而显著降低了您的投资和运营成本。

绿色环保,责任未来:在提升性能和降低成本的同时,我们还致力于环保。通过优化存储效率和减少硬件需求,道熵分布式存储有助于降低硬件能耗和减少碳足迹,为企业实现绿色、可持续的发展目标贡献力量。

道熵分布式存储- 您数据存储的未来,从此刻开始。