南方李锦记有限公司 DiskXtender™ ——分级存储解决方案
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
目录
一、前言...................................................................................................................... - 3 -
1.1、在线存储....................................................................................................... - 3 -
1.2、离线存储....................................................................................................... - 3 - 1.3、近线存储....................................................................................................... - 4 - 二、数据价值与存储投资的矛盾................................................................................... - 4 - 三、分级存储重在管理................................................................................................. - 6 -
3.1、分级存储管理................................................................................................ - 6 - 3.2、信息生命周期管理......................................................................................... - 6 - 四、采用分级存储的优点 ............................................................................................. - 8 - 五、EMC|Legato DiskXtender分布式分级存储 .............................................................. - 9 - 六、方案描述............................................................................................................. - 11 -
6.1、拓扑图及方案描述....................................................................................... - 11 - 6.2、本方案的优点.............................................................................................. - 12 - 七、相关资源............................................................................................................. - 13 -
- 2 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
一、前言
随着信息量的增长的越来越快,数据存储必然是IT基础架构中的首要考虑问题之一。在现有的解决方案中,越来越多的硬件厂商所提供的存储技术越来越先进,容量扩展越来越大,同时也满足不同用户、不同级别的存储要求。
但是,不同的存储设备,在存储性能、可用性及成本上,差异很大,用户随着数据的不断增长,存储的压力越来越大,不得不通过购买新的存储来解决这类问题。但从用户的数据结构来看,真正的生产数据其实很少,约占总体数据的20%都不到,80%的空间都存放着不常用的历史数据,在些数据占据着用户宝贵的存储性能和空间。这就迫切需要将生产数据与历史数据分开存放,采用不同的存储产品,以节约存储成本,在生产数据上投入更多,保证业务数据的顺畅与高安全性。
在投资要求和资源管理一般花费和企业发展要求面前,选择和布置存储环境是很重要的。根据现行存储技术,可以简单的将存储分为如下的几类:
1.1、在线存储
在线存储又称工作级的存储,存储设备和所存储的数据时刻保持“在线”状态,是可随意读取的,可满足计算平台对数据访问的速度要求。如我们PC机中常用的磁盘基本上都是采用这种存储形式的。一般在线存储设备为光纤磁盘阵列等高性能磁盘设备,价格相对昂贵,但性能最好。
FC SAN和DAS存储就是属于这个范畴。DAS技术是最初的存储技术,造价高、管理困难。SAN技术是近几年新兴的存储技术,它经历了市场考验,能够比较好提高存储的效率。主要是缺点是成本较高。
1.2、离线存储
离线存储主要是用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子定位到零位置,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线海量存储的访问是慢速度、低效率的。
- 3 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
也就是我们通常的备份与恢复的存储技术,这是一个最为低廉的解决方案。但是同时面临着数据的不可直接读取的问题,所以它这是一个保护数据的措施。
1.3、近线存储
所谓近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些的设备要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但由于不常用的数据要占总数据量的大多数,这也就意味着近线存储设备首先要保证的是容量。
NAS就是这样的一种存储方式,成本相对较低。EMC为了让近线存储更容易部署及管理,在现有的CX光纤磁盘阵列上支持大容量的ATA硬盘(目前最大为单盘500GB),来实现数据的分级存储。不常用的数据,存放在性价比较低的ATA硬盘上,生产数据存放在高性能的FC硬盘上。
二、数据价值与存储投资的矛盾
“今天企业的数据中心非常复杂,数据保护是其关键。但是,并非所有的数据都具有同样的价值;并非所有的企业都具有同样的需求。”,IDC存储研究部副总裁这样认为。
企业拥有海量的数据,但往往只有有限的预算用于数据保护。因此,很有必要基于精心定义的风险规避政策来为精选的数据分配适当的保护资源。
IT企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件。用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。因此,目前的潮流是购买更多的软件。然而,这种解决方案产生了非常复杂和笨拙的存储环境,不仅需要更多的维护和管理,而且需要更多的金钱来维持。
- 4 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
系统中60%至80%的数据经常在一个月,甚至一年中都不会被访问。(如上图所示)而在经常访问的数据中,重要性差别也十分突出,有的数据与用户的业务联系紧密,可靠性、可用性及性能要求都很高,有的尽管经常使用但是与业务联系不是特别紧密。
一般来说,重用数据的概率自数据创建3天之后就会下降50%,当数据创建30天后,重用的概率通常会降至很低,而高达90%的数据超过90天后就不会或很少被读取。
为了提供良好的数据保护,IT部门通常都保留巨大的空余空间,用以防止出现容量不足的现象。分析专家曾报告说,Unix和Windows的存储利用率只有20%至50%。这也就是说,许多企业支付巨资购买的大量存储空间都被浪费掉了。这种浪费是体系结构造成的,使用者要支付系统资源费用,系统需要管理员的维护,备份的成本也增加了,而且恢复数据的时间也更长。
只要解决了这种效率低下的问题,企业就能避免为这些未使用的存储空间进行灾难恢复操作,并且能够通过合并硬件来减少日常运营开支。但怎样才能实现这一目标呢?解决办法看起来应该是对比较陈旧或未使用的数据进行删除或存档。这样做可以释放大量的空间,但这种办法远不够理想。删除是一项手工作业,要冒数据丢失风险,甚至会导致法律纠纷。存档虽然是一个自动的过程,但却要迫使企业对用户进行存档应用的培训和支持,而且经常需要专用的存储设备。
还有一个很重要的问题是,在一个大型用户那里,拥有从高端存储系统到低端带机、带库全系列的存储设备。高端存储系统中存放的数据不一定都为价值最大的数据,相反,在低端带机、带库中也会有价值很高的关键数据。这样的坏处是,增加了数据保护工作的风险也降低了整体存储资源的利用率,一定程度上造成了投资的浪费。因此,合理利用存储资源并且尽量降低数据保护的风险是一个巨大的挑战。
- 5 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
三、分级存储重在管理
存储实现分级以后,在线、近线与离线存储存放的数据价值不同,在同一级别存储内部(比如在线和离线存储),存放的数据也应该不同,实现每一级别内的“分级存储”。如何将各个级别存储中数据统一管理起来便成了最为关键的问题。
3.1、分级存储管理
分级存储管理(Hierarchical Storage Management,HSM) 起源于1978年,首先使用于大型机系统。近10年来,HSM被广泛应用于开放系统的Unix和Windows平台。
分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到ATA磁盘、磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在ATA磁盘、带库、盘库等离线介质上,只在高速盘阵上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到高速盘阵中;同样,盘阵中很久未访问的数据被自动迁移到ATA硬盘或磁带介质上,从而大大降低投入和管理成本。
HSM应用也具备监测磁盘容量并在关键容量情况下作出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,如20%。
如果软件发现该卷的剩余容量已经不足20%,数据就会被从该卷移动至备用存储介质。这样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。
由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。
3.2、信息生命周期管理
目前,许多厂商和用户都认为,数据是具有生命周期的。因此,有厂商提出了信息生命
- 6 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
周期管理(Information Lifecycle Management,简称ILM)理念。EMC是最早提出ILM概念,并推出全系列产品的公司。
EMC|Legato认为ILM不是某个硬件或软件产品,而是评估和管理信息的存储方式。它教育客户平衡信息价值和管理费用,根据数据对企业生存的关键性以及企业发展带来的价值决定存储费用。信息从产生到使用直到灭亡,其全部过程都需要进行管理,因此,信息生命周期管理是用户发展到一定阶段的存储需求,只不过它是一种很复杂的需求,具体来说,就是如何建立一个更完整、更具有价值的信息系统,能够完全满足用户对于数据的以下五种需求:随时访问、按时间恢复、方便的共享、所有数据受到适当的保护以及按照一定的时间规定(比如法律规定)管理数据。
企业的业务信息随着时间的推移而变化,企业的存储策略也应随之改变。以高投入存储那些已经不再为其产生收入的信息得不偿失。信息生命周期管理为企业提供了平衡信息价值与存储费用的战略手段。
EMC|Legato将信息生命周期划分为7个阶段,包括了数据从产生直至灭亡的全部过程。(如图所示)
所以,仅仅意识到用户的需求而简单地提出一种概念是远远不够的,由于是一个“周期”的管理,因此,在这个周期的每个环节都要有相应的产品来满足需求,包括系统咨询、信息采集、数据保护、迁移、归档等等产品。在一定的时期,用户可能只会应用到其中的某个或某几个环节,但是,把整个信息系统作为一个整体来管理是一个必然的趋势。而分级存储则是信息生命周期中的重要一环。
- 7 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
四、采用分级存储的优点
数据分级存储,是指数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理软件实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。。 据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。
数据分级存储之所以重要,是因为它既能最大限度地满足用户需求,又可使存储成本最小化。数据分级存储的优点具体表现在:
减少总体存储成本。不经常访问的数据驻留在较低成本的存储器中,综合发挥磁盘.
驱动器的性能优势与磁带的成本优势。
性能优化。它使不同性价比的存储设备发挥最大的综合效益。 .
改善数据可用性。它把很少使用的历史数据迁移到辅助存储器中,或归档到离线存.
储池中,这样就无需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系统要求的水平上。
数据迁移对应用透明。当数据移动到另外的存储器时,应用程序不需要改变。 .
信息量增长,带来了总体存储成本的提高和存储管理的复杂性,使数据的分级存储显得十分必要。信息量的急剧增长,吞占了更多的存储空间,企业存储设备的购买成本和维护成本直线上升,降低总体拥有成本迫在眉睫。总体拥有成本的最低化,意味着管理某一段信息的成本,和这段信息对企业的价值之间取得了适当的平衡。若把陈旧、很少使用的信息驻留在昂贵、高速的磁盘空间中,不但没有充分发挥该存储资源的价值,还增加了管理的总体的成本。
信息量的急剧增长,也使存储管理复杂性增加,数据的分级存储也是简化存储管理的需要。通过设定优化的数据迁移规则,能使重要数据和常用数据在最短的时间内访问到,使极少使用的数据备份在廉价的海量存储器中。
- 8 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
五、EMC|Legato DiskXtender分布式分级存储
EMC|Legato DiskXtender分级存储管理软件是由DX DataManager和介质服务组件进行的。
DX Data Manager 是分布式存储系统中的一个组件。在此系统中, DataManager负责管理将数据从 NTFS 卷移动到存储介质池。一旦介质服务提供对介质的访问权限, Data Manager 就可直接与介质进行通信,来读写数据并执行介质任务。
各种介质服务会负责提供对介质池的访问权限。 有五种类型的介质服务可以与
Data Manager 搭配使用: Legato MediaStor; .
网络连接存储 (NAS); .
Tivoli 存储管理器 (TSM); .
StorageTek 自动卡式系统磁带库软件 (ACSLS); .
EMC Centera (EMC); .
EMC Clariion .
Data Manager 将文件转移到介质服务提供的介质中,并且根据需要将几片介质的请求发送到介质服务。Data Manager 通过“远程过程调用” (RPC) 与大多数的介质服务连接。Data Manager 通过 TCP/IP 与 EMC Centera 介质服务连接。
DX 体系结构允许您在多台计算机上安装存储解决方案的组件,以避免造成单一服务器
- 9 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
/ 多个客户端体系结构的瓶颈。 您可以在保持高可扩展性和灵活管理的同时,配置分布于整个网络上的文件远程存储。
Data Manager 监控扩展的 NTFS 卷上的活动,然后根据需要与要检索的介质的介质服务进行通信。Data Manager 会将每片介质的每一个请求传递到适当的介质服务,并且介质服务会装载介质(如果需要),以便 Data Manager 可以检索或存储文件,或执行介质任务。Data Manager 会透明管理 Data Manager 和介质服务之间的连接,以及扩展驱动器和介质池之间的文件移动。 和 NTFS 卷连接的客户端(即终端用户)完全由 Windows 来管理;客户端连接完全不涉及Data Manager。
此配置允许您以管理员的身份“扩展”网络服务器上硬盘的容量,对终端用户来说是无缝的。终端用户将文件保存到 NTFS 卷并从NTFS 卷检索文件, 并不知道 Data Manager 已扩展了该卷。 由于客户端通过 Windows 而不是 Data Manager 进行通信,因此 Windows 所提供的扩展连接仍旧有效。 任何可以连接到 Windows 服务器的客户端都可以访问扩展驱动器上的文件。
按照策略进行了迁移的数据在本地依然是“透明”的。因为所有迁移了的数据在本地都会留有影像指针文件,在下次访问的时候能够直接访问。虽然文件会从介质上去读取,但是对于前端用户而言却是直接去读取硬盘上的该文件的影像指针。
- 10 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
六、方案描述
6.1、拓扑图及方案描述
如图所示,在现有的网络中选择一台服务器安装MediaStor,作为管理StorageTek L80的介质管理服务器。而要求进行数据管理的服务器上面安装DataManager,DataManager会自动的管理文件系统下的所有文件。
定制一定的迁移管理策略(文件属性、大小、最后访问时间等等)后,DataManager会自动的将文件迁移到StorageTek L80自带库中,而在本地形成如上图所示(已经迁移文件)的文件影像指针。在DataManager服务器上,只要将MediaStor服务器上面的磁带库进行分配后,就能够自动的作为DataManager的文件夹或者是逻辑盘符的容量进行扩充。在使用过程中,完全是透明的。
数据迁移后,进行数据查询时,文件实体在本地服务器中直接读取。本地只存在文件的影像指针文件的时候,查询端只是访问影像指针文件,这时可能需要即少一段时间的等待。文件将会由DataManager从StorageTek L80上面恢复回来。如果恢复回来的文件又长时间的不被使用,这是则会迁移。
如图所示,迁移后的文件在本地的影像指针文件的文件名、属性完全同于原始文件,只
- 11 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
是影像指针文件的大小已经被清空,释放文件系统的空间。但是其影像指针文件与原是文件完全一样的存在于本地,只是文件多了一个黑色的时钟标识。
所以对于交警目前的电子警察项目而言,EMC|Legato DiskXtender 完全能够满足如下的要求:
一次写入,多次读取查询; .
常用的只是部分数据,而且一段时间后可能就会成为历史的; .
新的数据不断的增增加; .
历史数据可能被查询等等。 .
6.2、本方案的优点
为了更好的帮助用户发挥静态数据的整体效率,EMC|Legato为用户提供了一个高效、快捷的解决方案。通过这个解决方案,用户可以动态、透明地访问电子邮件、X光扫描图形文档、财务/合同文件、数码图象、在线音像出版物等等大量静态数据。
在这个解决方案中,通过EMC|Legato DiskXtender,提供了在服务器存储空间和二级存储设备之间数据的智能迁移和保护,以确保数据管理的简便、应用的整合以及较高的性能,EMC|Legato的EmailXtender和ApplicationXtender可以捕捉和管理例如文档、图象、电子邮件等静态数据,并通过和DiskXtender集成,将数据保存到二级设备里面。
通过这样的解决方案,保持这些数据的在线状态,将会显著提高这些数据的使用价值,而且他们需要的是一个简便易用、不用进行复杂管理的解决方案。EMC|Legato的方案正好满足了这一需求
整个方案是EMC|Legato利用自己在存储行业中的长处,构成一个统一的、在网络上具有数据使用高效性的海量数据中心的解决方案。DiskXtender将所有保存在这个空间中的数据按照一定规则组织起来,在用户访问数据时,只需要提供很少的相应数据的线索,DiskXtender就可以检索到这个确定数据的名称。
EMC|Legato的这个整合系统为诸如气象系统、 医疗影象系统,文档影象系统,多媒体,以及邮件管理应用系统提供了理想的解决方案。用户将从使用磁带、光盘等低成本设备中获得效益,使用户高效地管理原来数量庞大的静态数据成为可能。
一旦管理策略被指定了之后,系统管理员只需很少的时间对系统环境进行管理。数据的自动加载使用户检索也变的容易。由于自动的数据迁移保证了设备容量和性能在使用中的高效性的原因,甚至连生产服务器的状况也会有很大的改善。比如,当用户需要某一条信息时,
- 12 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
可以进行快速的访问。
EMC|Legato DiskXtender产品族所提供的功能是开放的,不仅仅是只限于与少数存储设备的配合。DiskXtender是定制的数据管理软件,它采用以策略为基础的数据管理模式,将网络上来自各种应用服务的数据集中保存到一个高效、安全的虚拟存储池中。DiskXtender将数据管理集中化,并将效率最大化,并且同时保证了数据的透明即时访问。
DiskXtender是EMC|Legato的数据分级存储解决方案,它以OnLine的方式使用磁带和光盘等大型外部存储设备,创建虚拟文件系统,为用户提供一个由磁盘和外存储设备共同组成的无穷大的存储空间。方案特性:
数据通过搬移的方式保证可用性; .
数据通过采用多重拷贝的方式保证可用性; .
数据通过容灾和离线存储来保证数据的可用性; .
通过地理位置上的隔离保持数据的可用性。 .
七、相关资源
EMC 官方产品介绍:(包含成功案例)
http://www.legato.com/products/diskxtender/dx_windows.htm 测试版本下载:
http://forms.legato.com/resources/downloads/index.cfm
产品选择:DiskXtender for Windows 我们需要下载:(见下图) File system Manager V6.0 Licences Server V6.0 (需要填写用户测试信息)
- 13 -
南方李锦记EMC2 |Legato DiskXtender分级存储解决方案
- 14 -
因篇幅问题不能全部显示,请点此查看更多更全内容