分布式存储市场及发展趋势报告

分布式存储是将大量普通PC服务器通过Internet互联，对外作为一个整体提供存储服务。该存储方案将数据分散存储到多个存储服务器上，并将这些分散的存储资源构成一个虚拟的存储设备【点击了解更多】

文件系统

存储大量的文件、图片、音频、视频等非结构化数据，该数据以对象的形式组织，对象与对象之间没有关系，而且，数据都是二进制数据，例如GFS、HDFS等。
Key-Value系统

用于存储关系简单的半结构化数据，提供基于Key的增删改查操作，缓存、固化存储，例如Memached、Redis、DynamoDB等。
数据库系统

存储结构化数据，提供SQL关系查询语言，支持多表关联，嵌入查询等，例如MySQL Sharding集群、MongoDB等等。

高扩展性

分布式存储会对集群服务器进行扩展，让系统的存储容量、计算和性能的能力都得到提高。而有些企业因为业务量过大，对底层的分布式存储系统性能也会有所要求，分布式存储是具有合理的分布架构，可以帮助企业进行扩展弹性计算。
低成本

自动容错、自动负载均衡的特性，允许分布式存储系统可以构建在低成本的服务器上，线性地扩展能力也减少服务器成本，实现自动运维。
高性能

分布式存储能够有效地管理读写缓存，能够自行分级存储。写缓存技术配合高速存储，能够使整体存储性能得到提高，将热点区域内的数据直接映射到高速存储中，这样可以更好地提高系统的响应速度。
易用性

分布式存储系统需要对外提供方便易用的接口与完善的监控、运维工具，并且可以方便地与其他的系统进行集成。
容灾与备份

在分布式存储的容灾中，一个重要的手段就是多时间点快照技术，使得用户生产系统能够实现一定时间间隔下的各版本数据的保存。另外，多副本技术，数据条带化放置，多时间点快照和周期增量复制等技术为分布式存储的高可靠性提供了保障。

分布式存储的优势

随着社交网络、移动互联网和物联网的兴起，互联网信息爆炸式增长产生了海量数据，数据量级也从最初的GB、TB逐渐发展到PB（1024TB）、EB（1024PB）甚至更高。

数据类型从简单的文本扩展到了复杂的高维度数据，比如半结构化数据、图片数据、视频数据、传感器数据和流数据等。预计到2030年全球数据总量将进一步达到35000EB。

海量非结构化数据带来的存储挑战主要在于如果采用传统集中式存储的Scale-Up架构（在单节点上添加资源，如CPU，内存和存储，在纵向上扩展从而获得更多计算或存储能力）的扩展方式，这种纵向扩展架构处理海量数据环境中会存在扩展成本高、耗时长、难度大的问题，性能与容量无法灵活扩展，造成扩容成本较高。

而采用Scale-Out架构（在分布式环境下，通过添加节点计算或存储资源，在横向上满足更多的计算存储需求），通过分布式接入技术将独立的低成本存储节点组成一个大而强的存储系统。通过添加存储节点来进行处理和存储能力的扩展。

目前的云存储系统也是通过分布式接入扩展储存容量已经可以达到PB级，每增加一个存储节点，性能和容量同时增长，大大降低了存储系统采购、部署和升级的成本。
分布式存储介质

目前，存储的介质有很多种，现在最常用的是磁盘、SSD，还有光盘、磁带等。一直以来，磁盘以其性价比的优势占据了存储介质霸主的地位。不过，磁盘的控制部分是由机械部分+控制电路来构成，机械部分的速度限制，使磁盘的性能不可能有大的突破。因此，更多分布式存储产品选择了SSD为存储介质的全闪存解决方案。

据IDC预测，在分布式存储产品方面，全闪存在所有采用存储的企业中的使用率已高达80%。

SSD是以闪存作为存储介质再配合适当的控制芯片组成的存储设备。目前用来生产SSD的NAND Flash有三种：单层式存储（SLC，存储1bit数据）、二层式存储（MLC，存储4bit数据）、三层式存储（TLC，存储8bit数据）。

其中，SLC成本最高、寿命最长、但访问速度最快，TLC成本最低、寿命最短但访问速度最慢。为了降低成本，用于服务器的企业级SSD都用了MLC。

不过，全闪存方案的普及还有一定的障碍，比如成本较高、写入次数限制、损坏时的不可挽救性及当随着写入次数增加或接近写满时候速度会下降等缺点。但是，随着时间的推移，技术的完善，全闪存方案也将会有更大的市场空间。

传统存储

传统储存通信依赖网络，带宽成本昂贵；存储媒介易被垄断、数据上传与下载速度慢、存储空间升级难扩容存储成本昂贵。
分布式存储

聚合亿万节点，系统稳定可靠加密碎片数据，数据安全无忧、弹性存储容量，可扩展性能高就近多点传输，上传下载极速、去中心数据库、打破数据垄断、区块链技术扶持、数据溯源确权。
相比于本地存储，分布式存储不仅提高了存储空间的利用率，还实现了弹性扩展，降低了运营成本，避免了资源浪费。
分布式存储依靠IPFS发布的信息不会突然在服务提供商或托管网络的突发事件中消失，安全性增加，IPFS没有中央分发系统、速度也很快。
IPFS所具备的优势，恰好能解决传统中心化云储存数据易泄露、硬件易损坏、修复能力弱、安全性低，并且随时面临运营终止的风险。
分布式存储通过IPFS底层协议，将数据库复制成多份，分散存储在网络众多节点上，这样只要足够多的节点运作正常，数据就是安全的。就是基于IPFS底层协议和分布式存储网络的基础节点。
随着云计算的发展，特别是互联网企业云数据中心的成功实践，分布式存储替代传统存储势在必行。

块存储

（1）云平台：私有云建设，分布式存储非常适合云平台的场景，传统集中式存储，一般都是标准iscsi协议挂载卷到openstack端，每个lun都需要单独挂载。而分布式存储是通过rbd协议挂载存储池给openstack，openstack端直接在存储里划分和创建卷，调用快照等高级功能，分布式存储和openstack是非常适配，更加适合openstack的私有云的发展。

（2）容器场景：容器本地数据服务的需求对于支持微服务结构变得非常重要，这些需求包括硬件不可知性、API驱动、基于分布式架构，能够支持边缘、核心或公共云部署等。超过 70% 的容器应用需要有状态数据持久化保存，SDS可以解决，但需要敏捷地数据迁移、从多个应用容器同时访问数据的需求。所以容器场景的弹性灵活的需求也是非常适合分布式存储。
文件存储

分布式文件适合大容量文件存储场景，横向扩展灵活，性能优于双控存储，例如非线编，共享NAS，高性能计算等等都非常适合，文件存储也是现阶段三种存储中市场使用最高的，但有些也在慢慢转对象存储，对象存储接口协议在逐步开发中，会有一个过渡阶段。
对象存储

海量小文件需求，检索需求，大数据方向，金融的影像平台，有互联网传输需求，和公有云整合，企业高校的网盘，监控等等非结构化场景都适合，包括一些医疗的pacs也在逐步过渡到对象存储，未来最有爆发潜力的存储。

Ceph技术

Ceph经过多年的发展之后，已得到众多云计算和存储厂商的支持，成为应用最广泛的开源分布式存储平台。Ceph根据场景可分为对象存储、块设备存储和文件存储。

Ceph相比其他分布式存储技术，其优势点在于：它不单是存储，同时还充分利用了存储节点上的计算能力，在存储每一个数据时，都会通过计算得出该数据存储的位置，尽量将数据分布均衡。同时，由于采用了CRUSH、HASH等算法，使得它不存在传统的单点故障，且随着规模的扩大，性能并不会受到影响。

Ceph的最底层是RADOS（分布式对象存储系统），它具有可靠、智能、分布式等特性，实现高可靠、高可拓展、高性能、高自动化等功能，并最终存储用户数据。
GFS技术

GFS是google的分布式文件存储系统，是专为存储海量搜索数据而设计的，2003年提出，是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加，如大文件的读写。注重大文件的持续稳定带宽，而不是单次读写的延迟。

GFS的主要架构GFS架构相对简单，一个GFS集群一般由一个master 、多个chunkserver和多个clients组成。在GFS中，所有文件被切分成若干个chunk，每个chunk拥有唯一不变的标识，所有chunk都实际存储在chunkserver的磁盘上。
HDFS技术

HDFS（Hadoop Distributed File System），是一个适合运行在通用硬件（commodity hardware）上的分布式文件系统，是Hadoop的核心子项目，是基于流数据模式访问和处理超大文件的需求而开发的。该系统仿效了谷歌文件系统（GFS），是GFS的一个简化和开源版本。
Swift技术

Swift最初是由Rackspace公司开发的分布式对象存储服务，2010年贡献给OpenStack开源社区。作为其最初的核心子项目之一，为其Nova子项目提供虚机镜像存储服务。

Swift的主要架构Swift采用完全对称、面向资源的分布式系统架构设计，所有组件都可扩展，避免因单点失效而影响整个系统的可用性。
Lustre技术

Lustre是基于Linux平台的开源集群（并行）文件系统，最早在1999年由皮特·布拉姆创建的集群文件系统公司（Cluster File Systems Inc.）开始研发，后由HP、Intel、Cluster File System和美国能源部联合开发，2003年正式开源，主要用于HPC超算领域。
BMJ技术

BMJ是一个高速、安全、可拓展的区块链基础设施项目。面向5G，对IPFS底层技术深度开发及优化，通过切片技术对节点的P2P传输，实现数百兆文件的秒传。

从全新的角度出发，BMJ基于区块链的分布式云存储系统设计思想提出新的方案，在数据传输方面引入数据交换机制和秒传机制来提高数据传输速度；在数据存储方面，通过采用一种高效的数据存储架构来提高数据存储效率。

OceanStor

华为大数据存算分离方案，核心和基础是2019年发布的新一代智能分布式存储OceanStor（原FusionStorage）。方案中，以OceanStor分布式存储替换Hadoop中的本地HDFS存储，计算节点和存储节点分别组成独立的资源池。

使用存算分离架构后，首先获得的收益就是存储和计算资源的独立扩展，计算不足扩计算，存储不足扩存储。以前面提到的日志历史库场景为例，假设初始计算存储融合方案需要

而且，存储周期延长2倍，计算存储融合方案需要扩容400台一体化服务器，存算分离方案仅需要扩容68个存储节点，机柜空间占用可节省50%以上，功耗可节省30%以上。
UniStor X10000

新华三UniStor X10000分布式融合存储采用了分布式全局缓存，能够满足IPFS场景对数据读写的高需求；同时，X10000分布式存储的多副本数据保护模式，具有更高的实际存储利用率，提高可靠性同时，能极大地帮助用户压缩成本。

此外，IPFS还要求存储系统有良好的扩展性。作为IPFS存储服务商，需求订单是连续不断地，所有的数据都需要计算设备的处理，并在计算设备对数据进行密封之后，把数据传输到存储里面。这样链上每进行一个动作，后台都需要进行密封存储，一旦拥堵将导致密封效率降低。

为此，往往需要前端服务器扩容得到更大的算力，来获得更多的竞争优势。当计算设备数量增加后，数据读取的压力对后端存储也会越来越大。新华三UniStor X10000分布式融合存储基于性能和容量选型能够随着节点数和集群规模能够呈现稳定的线性增长，完美适应了IPFS服务商业务规模扩张而带来的性能和容量的扩容问题。
aStor-EDS

深信服企业级分布式存储aStor-EDS采用全对称分布式架构，支持数千节点集群部署，灵活扩展的同时保持更高的性能，最大可扩展EB级存储空间、1000万IOPS高性能支撑，实现了一套硬件资源池上，可同时提供块、文件、对象三种存储服务。

深信服企业级分布式存储aStor-EDS内置AI人工智能大脑，向上灵敏感知业务数据，判断写入数据类型给予最佳的处理方式；判断即将读取的数据给予最优的性能资源。

另一方面，进行自我管理，包括温冷数据的转化，将冷数据归档甚至断电休眠，从而降低使用成本。同时基于AI智能大脑实现简化运维。深信服基于大量的错误代码数据进行建模学习，训练AI模块的错误预警机制，可实现对存储的全集群监控，故障预警。

作为新IT时代的云数据存储资源，深信服aStor-EDS适用于政府、教育、制造、广电、医疗、金融等行业数据存储大户，将在海量存储与云数据中心存储场景等为用户带来优质的智能存储体验。
Amazon S3

亚马逊云计算面向用户提供包括弹性计算、存储、数据库、物联网在内的一整套云计算服务，帮助企业降低IT投入和维护成本，轻松上云。

从概念来看，亚马逊云计算提供了一系列的托管产品，帮助我们在没有物理服务器的情况下，照样可以正常完成软件开发中的各种需求，也就是我们常说的云服务。

比如，从存储来说，亚马逊云计算提供了S3 作为对象存储工具，可以帮助我们存储大量的数据，并且S3可以被亚马逊云计算的其他服务所访问。

从服务器资源来说，亚马逊云计算提供了EC2作为虚拟化的云服务器，提供各种类型的主机，如计算型、通用型、内存计算型、GPU计算型等，来满足业务对服务器的需求。

在亚马逊云计算的计算模块中，除了最常见的EC2(Elastic Compute Cloud),也就是云上的虚拟机，除了EC2外，亚马逊云计算提供了诸如：LAMBDA: 用于提供开发ServerLess Application，支持Java、Python、Go等主流语言。

可以看出，亚马逊云计算在每一个模块下，都提供了很丰富的产品来供用户选择使用。使用亚马逊云计算可以做到，不依赖任何一台物理服务器就能支撑起全公司所有的业务。
Virtual-SAN

当前云计算技术快速发展，越来越多的应用、数据部署在云平台上，分布式存储是云计算技术的基础性技术和典型应用，经过大量的研究与实践发现，在实施分布式存储架构时，VMwareVSAN架构技术具有高性能、可伸缩性、高兼容性、分布性等优良特性。

Virtual-SAN在分布式存储项目中被广泛地使用，简称VSAN，它是VMware针对软件定义数据中心（SDDC）范围中的软件定义分布式存储的典型代表，通常被简称为软件定义存储。

从设备形态和架构的角度来讲：它将传统集中存储体系SAN（Storage Area Network存储区域网络）进行了抽象，并且将存储架构分散到多台物理主机之上，这属于一种对存储设备的虚拟化行为。经过这种抽象之后，形成虚拟的SAN（VSAN），虚拟机的SAN仍然具备共享特性，仍然是属于共享存储的范围。

换言之：计算虚拟化中的高级特性如热迁移、高可用性HA、容错机制FT等都可以与分布存储VSAN无缝融合。
对象存储服务OSS

阿里巴巴做存储与其他公司不太一样，他们做了一个存储平台，把各个业务统一起来，然后用同一套系统去支持这个业务。十年前阿里巴巴开始做系统，随后在2010年、2011年阿里基于盘古系统发布了公有云的产品，像大数据的ODPS、ECS，还有对象存储OSS服务。

在2013年有一个关键事件——阿里巴巴的飞天5K项目落成。同一时代在阿里内部还有其他的存储云梯1和云梯2系统在用，2013年把这两个系统合并了，这是离线大数据上的标志性事件，2016年，盘古2.0项目启动等等。

阿里巴巴做这些新的技术，自己内部关键的电商业务也是跑在同一套系统上。

比如电商交易的核心系统，比如双11和双12，用户在淘宝上下单，淘宝的数据库、消息界面系统，都是由同一套系统来支撑的。阿里巴巴主力云产品包括ECS和OSS的存储，也都是在自己的系统上。
对象存储COS

腾讯云的文件存储，可与腾讯云服务器、容器服务或者批量处理等服务搭配使用。腾讯云文件存储符合标准的NFS文件系统访问协议，为多个计算节点提供共享的数据源，支持弹性容量和性能的扩展。

现有应用无需修改即可挂载使用，是一种高可用、高可靠的分布式文件系统，适合于大数据分析、媒体处理和内容管理等场景。

腾讯云的文件存储提供一个标准POSIX，可支持文件系统访问语义。通过 NFS v3.0/v4.0 协议，您可以使用标准系统挂载命令来挂载文件系统。

此外，该方案部署比较简单，只需三步即可完成文件系统的接入和使用：创建文件系统及挂载点、启动服务器上文件系统客户端、挂载创建的文件系统。
Azure Blob Storage

Storage是在云上将非结构化数据存储为对象或者blob形式。blob存储可以存任何形式的文本或二进制数据，比如：文档、媒体文件或者app（应用程序安装包）。blob存储也可以当成对象存储。

其中，Windows Azure Storage(WAS)是微软云服务的基础，提供了文件、结构化数据、消息等多种类型的存储。

Azure Blob存储是Azure用来存储大量松散数据的一种服务，例如文本数据或者二进制数据。通过这一服务，用户可以从全世界各地通过HTTP或者HTTPS来访问自己的数据。包括对外开放的或者是您私有的数据。
Platform Computing

IBM的软件定义基础架构主要涉及三个层面，分别是软件定义计算、软件定义存储和基础架构管理。具体来说，就是通过Platform Computing、Spectrum Scale、Cluster Manager、Cloud Manager、SoftLayer等一系列软件，来帮助用户实现分布式计算环境的整合，从而为不同类型水平扩展的应用提供弹性的共享资源池，实现IT应用的灵活性和资源调度管理的智能化。

IBM提出的一个可行办法是通过资源管理和应用管理软件，来在一套弹性的资源池上整合不同的应用负载。这套软件就是IBM Platform Computing系列家族产品，包括Symphony、LSF、Application Service Controller(ASC)等。

此外，IBM已经推出了全新的存储软件产品系列IBM Spectrum Storage(光谱存储)，将之前分散的存储管理软件重新整合，涉及“监控、保护、虚拟化、加速、备份、扩展”等6大类功能。

IBM承诺未来5年将投入超过10亿美元开发下一代技术，以强化其在软件定义存储领域的领导地位。这些投资将主要用于新的云存储软件、对象存储与包括OpenStack在内的开放标准技术的研发。

在基础架构管理层面，对用户而言，数据中心的异构化也日益突出，传统集群、私有云、公有云都可能涉及，从而形成一种混合云的IT环境。

对此，IBM也推出了不同的方案来应对这些基础设施的管理，比如Cluster Manager可以实现多个物理机的管理和部署，基于OpenStack的Cloud Manager可以实现多个虚拟机的部署，同时这些技术也在IBM的云数据中心SoftLayer上面应用，提供平台即服务的软件。通过这一系列技术，IBM得以帮助用户实现异构基础架构的管理。

随着业务的不断发展，企业通常都需要面对多云环境，而多云环境下的数据治理一直都是痛点。采用标准化的存储容器接口，支持云、核心或边缘部署，是多云环境存储的趋势。分布式存储可以在一套系统内提供文件、块、对象、大数据等多种存储服务，支持多种接口对接【点击了解更多】