版权归原作者所有,如有侵权,请联系我们

[科普中国]-数据存储

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。

存储介质磁盘和磁带都是常用的存储介质。数据存储组织方式因存储介质而异。在磁带上数据仅按顺序文件方式存取;在磁盘上则可按使用要求采用顺序存取或直接存取方式。数据存储方式与数据文件组织密切相关,其关键在于建立记录的逻辑与物理顺序间对应关系,确定存储地址,以提高数据存取速度。

三类存储方式DASDAS(Direct Attached Storage)直接附加存储方式与我们普通的PC存储架构一样,外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。

DAS存储方式主要适用以下环境:

1)小型网络

因为网络规模较小,数据存储量小,且也不是很复杂,采用这种存储方式对服务器的影响不会很大。并且这种存储方式也十分经济,适合拥有小型网络的企业用户。

2)地理位置分散的网络

虽然企业总体网络规模较大,但在地理分布上很分散,通过SAN或NAS在它们之间进行互联非常困难,此时各分支机构的服务器也可采用DAS存储方式,这样可以降低成本。

3)特殊应用服务器

在一些特殊应用服务器上,如微软的集群服务器或某些数据库使用的原始分区,均要求存储设备直接连接到应用服务器。

4)提高DAS存储性能

在服务器与存储的各种连接方式中,DAS曾被认为是一种低效率的结构,而且也不方便进行数据保护。直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态却无法利用。如果存储不能共享,也就谈不上容量分配与使用需求之间的平衡。

DAS结构下的数据保护流程相对复杂,如果做网络备份,那么每台服务器都必须单独进行备份,而且所有的数据流都要通过网络传输。如果不做网络备份,那么就要为每台服务器都配一套备份软件和磁带设备,所以说备份流程的复杂度会大大增加。

想要拥有高可用性的DAS存储,就要首先能够降低解决方案的成本,例如:LSI的12Gb/s SAS,在它有DAS直联存储,通过DAS能够很好的为大型数据中心提供支持。对于大型的数据中心、云计算、存储和大数据,所有这一切都对DAS存储性能提出了更高的要求,云和企业数据中心数据的爆炸性增长也推动了市场对于可支持更高速数据访问的高性能存储接口的需求,因而LSI 12Gb/s SAS正好是能够满足这种性能增长的要求,它可以提供更高的IOPS和更高的吞吐能力,12Gb/s SAS提高了更高的写入的性能,并且提高了RAID的整个综合性能。

与直连存储架构相比,共享式的存储架构,比如SAN(storage-area network)或者NAS(network-attached storage)都可以较好的解决以上问题。于是乎我们看到DAS被淘汰的进程越来越快了。可是到2012年为止,DAS仍然是服务器与存储连接的一种常用的模式。事实上,DAS不但没有被淘汰,近年来似乎还有回潮的趋势。

NASNAS(Network Attached Storage)数据存储方式全面改进了以前低效的DAS存储方式。它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备,自形成一个网络。这样数据存储就不再是服务器的附属,而是作为独立网络节点而存在于网络之中,可由所有的网络用户共享。

NAS的优点:

1)真正的即插即用

NAS是独立的存储节点存在于网络之中,与用户的操作系统平台无关,真正的即插即用。

2)存储部署简单

NAS不依赖通用的操作系统,而是采用一个面向用户设计的,专门用于数据存储的简化操作系统,内置了与网络连接所需要的协议,因此使整个系统的管理和设置较为简单。

3)存储设备位置非常灵活

4)管理容易且成本低

NAS数据存储方式是基于现有的企业Ethernet而设计的,按照TCP/IP协议进行通信,以文件的I/O方式进行数据传输。

NAS的缺点:

(1)存储性能较低 (2)可靠度不高

SAN1991年,IBM公司在S/390服务器中推出了ESCON(Enterprise System Connection)技术。它是基于光纤介质,最大传输速率达17MB/s的服务器访问存储器的一种连接方式。在此基础上,进一步推出了功能更强的ESCON Director(FC SWitch),构建了一套最原始的SAN系统。

SAN(Storage Area Network)存储方式存储方式创造了存储的网络化。存储网络化顺应了计算机服务器体系结构网络化的趋势。SAN的支撑技术是光纤通道(FC Fiber Channel)技术。它是ANSI为网络和通道I/O接口建立的一个标准集成。FC技术支持HIPPI、IPI、SCSI、IP、ATM等多种高级协议,其最大特性是将网络和设备的通信协议与传输物理介质隔离开,这样多种协议可在同一个物理连接上同时传送。

SAN的硬件基础设施是光纤通道,用光纤通道构建的SAN由以下三个部分组成:

1)存储和备份设备:包括磁带、磁盘和光盘库等。

2)光纤通道网络连接部件:包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器

3)应用和管理软件:包括备份软件、存储资源管理软件和存储设备管理软件。

SAN的优势:

1)网络部署容易;

2)高速存储性能。因为SAN采用了光纤通道技术,所以它具有更高的存储带宽,存储性能明显提高。SAn的光纤通道使用全双工串行通信原理传输数据,传输速率高达1062.5Mb/s。

3)良好的扩展能力。由于SAN采用了网络结构,扩展能力更强。光纤接口提供了10公里的连接距离,这使得实现物理上分离,不在本地机房的存储变得非常容易。1

三种存储方式比较存储应用最大的特点是没有标准的体系结构,这三种存储方式共存,互相补充,已经很好满足企业信息化应用。

从连接方式上对比,DAS采用了存储设备直接连接应用服务器,具有一定的灵活性和限制性;NAS通过网络(TCP/IP,ATM,FDDI)技术连接存储设备和应用服务器,存储设备位置灵活,随着万兆网的出现,传输速率有了很大的提高;SAN则是通过光纤通道(Fibre Channel)技术连接存储设备和应用服务器,具有很好的传输速率和扩展性能。三种存储方式各有优势,相互共存,占到了磁盘存储市场的70%以上。SAN和NAS产品的价格仍然远远高于DAS.许多用户出于价格因素考虑选择了低效率的直连存储而不是高效率的共享存储。

客观的说,SAN和NAS系统已经可以利用类似自动精简配置(thin provisioning)这样的技术来弥补早期存储分配不灵活的短板。然而,之前它们消耗了太多的时间来解决存储分配的问题,以至于给DAS留有足够的时间在数据中心领域站稳脚跟。此外,SAN和NAS依然问题多多,无法解决。2

存储价格陷阱有时候需要对系统进行叉车式升级,但在采购过程中稍加推敲,可以避开存储采购中可能遇到的价格陷阱。

存储价格变化万千存储设备是由技术变革而造成浪费性支出的典型,但也存在其必然性和必要性。在2005年,集成驱动电子设备(IDE)主要被用作低端数据存储,而小型计算机系统接口(SCSI)硬盘主要用于高端服务器。IDE非常慢,直到其发展为增强型IDE,之后就是SATA技术登场。SATA III2015年以及可以与高端存储选项——串行链接SCSI(SAS)媲美——而且成本更低。
所有这些存储设备都使用旋转硬盘,这样的硬盘无法与2015年的闪存抗衡。闪存一开始是作为摄像机存储介质,脆弱而小众,但2015年已经成为大多数数据中心设备厂商首选的存储介质。

隐藏成本即使硬件相对便宜,管理和大部分相关工具都会增加存储的成本。
只能识别物理阵列的工具已经被虚拟化抛弃。那些能够处理虚拟化世界存储的软件,发现虚拟存储依旧依赖于底层的物理驱动器平台支持。

需要有一个战术策略,需要在下一次技术叉车升级之前,最大化现有技术的利用。但战术决策并不是战略,将两者混为一谈会导致IT机构走向错误的技术方向。

如果当前存储供应商一直灌输——你闪存存储十分脆弱,并且可用性未经证实,那么很可能你已经买了大型SAS阵列,作为一项战略投资。它曾经是最好的存储,而且你希望其能够在很长一段时间内充分发挥性能而不至于贬值的太厉害,可是2015年该战略已经遇到问题。

以SAS驱动器故障为例,这将导致RAID6重建而严重影响性能。如果遇到需要的尺寸已经停产,寻找替代故障驱动器的备件会变得困难,阵列无法接受不同类型的驱动器。用户会抱怨所有的应用非常缓慢。你想着要添加闪存存储层来提升性能,却发现阵列没有接口支持固态硬盘驱动器。

选择是购买一台新存储,将所有数据都搬走,然后丢掉旧系统——根本无须更换驱动器,它甚至不值得去卖掉以回收资金。

在考虑更新IT平台之前,超前思考——看起来正确的决定,在未来就不那么确定了。了解战术/战略对立和,如果需要长期的解决方案,就必须有标准与商业化。

问问供应商,现有的产品如何与旧版本协同工作。如果厂商2015年销售的产品与旧系列不那么兼容,那么很有可能——无论销售代表如何承诺——这预示着下一个叉车升级时刻。

咨询供应商需要坚持一些标准:是否有坚持及时了解市场变化,产品是否完全支持行业标准?超出这些标准是否会与其他厂商的产品出现互操作性方面的问题?

其他厂商是否能够为你正在采购的产品提供互补以提高附加价值?与这些合作伙伴与第三方交流,咨询他们在供应商产品变化时,应对和变更是否容易。3

杀死数据中心数据存储容量的真凶数据中心数据存储架构和控制器的异质性,是标准化基础设施实现支撑不同工作负载目的的一大障碍。
针对所有的意愿和目标,数据存储系统核心是产品化,然而在实现不同厂商数据存储阵列互操作的这场战斗上,依旧存在着不同级别上的差异。
分布式计算意味着数据中心数据存储必须和来自不同厂商的服务器互操作,这增加了数据存储架构标准化的要求,云计算促使标准化有更大的进步。

数据存储管理数据中心存储容量管理一直都依赖于某个相对不变的数据存储基本技术:传统机械硬盘。机械硬盘只有少数几个制造商——西部数据与希捷,还有日立和东芝——硬盘本质上是一种商品。
问题需要通过实现不同品牌的阵列和控制器协同工作来解决。有些公司购买了高端、昂贵的存储,如EMC的Symmetrix VMAX,希望通过单一的工具集来管理整个数据存储。然而,磁盘阵列的运行是通过阵列控制器中的专用软件和数据存储来控制,这对创建完整功能的数据存储管理工具来说是存在问题的。
数据存储供应商——IBM有SAN Volume Controller,EMC则使用VPLEX,还有日立的Hitachi Data Systems,HP以及NetApp,都在吹捧各自专有的数据存储管理工具,宣称其能实现虚拟化存储架构的融合。然而这些工具基本只支持自己厂商的数据存储系统,而且在大多数情况下,还只针对部分产品。最终用户在寻找真正的数据存储,高功能异构数据存储管理工具的道路上无果而终。
云计算正在改变我们对数据存储的看法。工作负载变得越来越混合,数据存储需要根据不同的I/O需求管理对象,文件和块模式。尽管如此,要支持云架构,数据存储基础设施必须被作为单一的资源池来看待,组织需要能够自动化适应工作负载的变更。只有通过提供高度标准化的数据存储工具才可能实现这样的功能。这一举措已经开始,但仍然有很长的路要走。

闪存数据存储救场标准化数据中心数据存储容量很难只通过磁盘存储来单独创建。介质依赖于磁盘盘片之间的互相作用,读/写刺头需要智能磁盘控制器进行调解以管理不同工作负载的需求。
闪存数据存储的数据管理方法不同于硬盘。闪存数据存储是直接访问存储架构;不需要通过磁头寻找正确的磁盘区域来检索数据,所以没有延时。数据存储管理速度的优势意味着闪存可以应用在相同阵列的不同工作负载类型上。它也更统一跨越不同供应商的数据存储产品实现虚拟化。
最后,标准化数据存储可能是个真正的承诺额,而不仅仅是个谈论的焦点——但还很遥远。
数据存储销售商仍旧有许多不同的方式来推销部署闪存。许多老牌数据存储厂商通过一种混合的方式兜售:在磁盘阵列前增加独立的闪存层。工作负载需要的数据存储不在这个闪存层时可能会出现问题,因为控制器需要从硬盘拉取这些数据存储。这使得某些数据存储操作可能比纯硬盘阵列还要慢。
最大化现有数据中心数据存储容量投资的一个必要步骤是层叠纯闪存和磁盘阵列系统。尽管如此,这些现有的传统阵列会成为建造单一管理层时候的麻烦制造者。EMC ViPR数据存储虚拟化产品已经展示了自己的承诺,为混合数据存储架构提供了更大的控制权限。
全闪存阵列被一起捆绑在混合数据存储的激烈竞争中。闪存数据存储如Pure Storage、Violin Memory和Nimble Storage,提供了智能软件可以最小化数据存储卷,并且提供先进的数据存储管理系统管理整个虚拟化环境。

数据存储系统融合融合基础设施(CI)系统遇到云数据存储管理时,有点搅混水的势头。
Nutanix——一家以数据存储空间起家的供应商,提供超级CI平台服务,其中包括先进的数据存储管理软件。IBM的PureFlex系统和PureData系统,Dell的PowerEdge FX2系统,HP的Converged Infrastructure,以及其他数据存储产品也提供了各种方法来实现直连数据存储与CI系统整合,不仅是现有的阵列还是新型阵列都在加紧扩张与CI的融合。
还有一招可以提高服务器端数据存储连接的速度,如PCIe接口的闪存数据存储器。IBM已经开发了用于自己系统内部连接的方式,可以进一步加快数据存储速度。这个CAPI连接器再次带来了专属问题——这将取决于IBM是否会让连接器能与其他厂商数据存储系统保持高水平的统一协作。融合系统仍然必须集中资源来分享利用。这将需要比我们能看到的还要先进的数据存储工具来支持。4

本词条内容贡献者为:

李宗秀 - 副教授 - 黑龙江财经学院