我们面临着:严峻的形势,以及削减成本的压力。每次我遇到客户,都会听到这样的感慨。
但是解决问题的方法并不是只要选择最便宜的数据存储技术就可以了。无论你是企业,小公司还是个人家庭用户,如果你关心你的数据--而且如果你阅读了这篇文章,你肯定会关心你的数据--那么你就需要考虑存储技术中技术和可靠性的权衡和取舍。存储成本并不仅仅是硬件或软件的价格成本,它还包括营运和维护成本--以及数据丢失或数据损坏的成本。
当我开始帮助客户理解技术权衡的时候,我所做的第一件事情就是理解他们的要求。有时,对方会面无表情地看着我,然后告诉我说只要解决问题就好了,有时,对方会告诉我说他的要求就是获得最便宜的存储。能够真正理解自己需求的人很少,而能够真正知道如何应用它们的人就更少了。
SATA,SAS和磁带
我们来看一个在不同类型的磁盘和磁带驱动器中进行选择的例子。你可能会说这些驱动器都可以通过RAID(独立磁盘冗余阵列)来保护,不过你还需要考虑一些重要的事情。我认为即使是最算计的人也不希望你让公司的数据处于危险状态。
最大的问题是技术的硬错误率。任何磁盘或磁带驱动器都有一个硬错误率,这个硬错误率用平均比特数来表示。硬错误有可能是读取也可能是写入,如果发生这种错误,将返回一个错误信号称设备无法访问。硬错误的发生有多种原因,比如媒介错误,磁头错误,或媒介故障。无论原因是什么,你所要考虑的是设备发生这种错误的概率。
如果你有一个RAID-5 LUN(逻辑单元号)发生硬错误,那么这个LUN就必须重建,而在重建过程中如果你再发生一次硬错误,那么数据将丢失。如果你有RAID-6,那么另一次硬错误还不会是致命的,因为你有两个校验设备。
下面是驱动器制造商所给出的磁盘和磁带的硬错误率数据。
设备 |
用比特数所表示的硬错误率 |
等量的字节数 |
等量的PB数 |
120MB/秒下错误发生间隔日数 |
200MB/秒下错误发生间隔日数 |
消费者SATA |
10E+14 |
12.5E+13 |
0.89 |
92 |
55 |
企业级SATA |
10E+15 |
12.5E+14 |
8.88 |
920 |
552 |
企业级SAS/FC(光纤通道) |
10E+16 |
12.5E+15 |
88.82 |
9198 |
5519 |
LTO(线性磁带开放协议) |
10E+17 |
12.5E+16 |
888.18 |
91982 |
55189 |
T10000B |
10E+19 |
12.5E+18 |
88817.84 |
9198247 |
5518949 |
你必须记住,比特错误率(BER)--也称为硬错误率--和设备的年故障率(AFR)完全不同。一个区别的方式就是将它们分别看做单一访问的故障和整个设备的故障。有时候,在一些RAID控制器下,单一访问的故障就是设备的故障,但是你必须记住的是BER是以传输的比特数来衡量的,而AFR则是以小时数来衡量的。一个设备即使什么也没做也可能发生故障,而BER则根据的是设备的使用情况。如果你关心你的数据,这是一个很关键的问题。
一些低端的存储系统使用消费者级别的SATA驱动器,如果用户频繁使用的话,很有可能会很快发生故障。问题是RAID设备,有时在一个设备发生故障后,在重建过程中,其他设备也有可能发生故障。在任何存储决策的制定过程中,你都必须考虑磁盘驱动器和数据丢失的风险。购买市场上最便宜的系统可能在成本上能如你所愿,但是你的数据同时也有可能处于风险中。
SAS和光纤通道驱动器的每GB成本确实是高于SATA,但是只有很少人认识到重要数据的存储决策还必须考虑可靠性。如果你的数据对于组织来说非常重要,那么购买十倍以上BER的设备是更好的考虑,很明显,在这里,SATA和SAS/FC的每GB成本的区别并不是重要的考虑。即使是在现在的艰难形势下,用户也不应该只考虑初始成本,还应该考虑数据丢失的成本。
磁带与重复数据删除磁盘的对比
我还从没看到过有人会说磁盘和磁带的每GB成本相近的。磁带总能在成本上获胜,不过你必须将所有数据写入磁带吗?
重复数据删除已成为存储市场上发展最快的市场之一--即使不是最快。有许多公司提供重复数据删除技术。一些技术是同硬件平台相结合,而另一些技术则是纯粹的软件。一些厂商声称在VMware等环境下,数据备份可以达到50:1的节约率,但是其他一些环境,比如媒体文件等则不能达到这个数据节约率。
同样赋予磁带和重复数据删除系统足够的带宽,与磁带相比,重复数据删除可以加速备份流程。从时间的角度来说,由于磁带有延迟性和其他问题,因此重复数据删除设备很可能优于标准的磁带备份,而根据备份的规模以及磁带的数量、磁带槽的数量以及重复数据删除系统的成本,重复数据删除甚至还可以实现成本节约。当然,备份的真正问题并在于数据备份本身,而在于恢复数据。你要记住的是,比起在通道中写入数据,重复数据删除在数据扩展上的速度可以更快。
我所听到的有关磁带的最大抱怨就是磁带比较慢。自从磁带盒发明以来,磁带在载入和准备的延迟性上没有多大改变,但这并不是真正的问题。更经常的情况是,备份和磁带性能的真正问题是磁带比目前它们所连接的网络要更快。看看下面的事实。2001年,LTO非压缩数据传输率为20MB/秒,而大部分网络为1Gb,或者说实际上是80-90MB/秒,因此,当时网络的速度要比磁带的非压缩数据传输率快四倍以上,比压缩数据传输率要快两倍以上。
现在的LTO-4有120MB/秒的非压缩数据传输率,240MB/秒的压缩数据传输率。如果你的备份服务器使用的是10GB/秒以太网,那你还有一点喘息空间,但也不多。问题是很少人有端到端的10GB/秒以太网网络,而且根据短板原理,你还受限于网络上最慢的那部分。这对于磁带来说也是一样--如果使用LTO-4的你使用的是FC-2,那么FC-2的网速限制为200MB/秒,而LTO-4的压缩数据传输率为240MB/秒。此外,多数人在同一个FC连接上还有多个磁带驱动器,而在这种情况下,你的性能瓶颈又将来自网络。
因此,如果你准备使用磁带--情境是你的磁带不仅比磁盘更便宜,而且如果处理和存储得当的话,还能更可靠--那么为了能够有效地利用磁带,你必须全速使用设备,包括压缩,因此D2D2T(磁盘到磁盘到磁带)是一种值得考虑的方式。为了实现这一点,你需要一个VTL(虚拟磁带库)或一个能够管理D2D2T框架的备份软件,而这通常会增加软件的成本。在D2D2T、VTL和重复数据删除设备之间进行权衡或结合是一个复杂的决策,它取决于数据的可重复删除性,网络的状态,新增硬件和软件的成本,以及其他因素,比如能耗、培训和空间。D2D2T系统的一个好处就是该系统可以在数据被写入磁带之前对其进行重复数据删除,从而节约更多的成本。
另一个要考虑的因素:如果你在删除数据的多个副本,那么要确保你所保留的是正确的版本。你要从重复数据删除厂商那里确认他们有正确的检验来保证数据的完整性和可靠性。(见《数据损坏:重复数据删除的弱点》)
磁盘和磁带之间的权衡很清除。磁带更便宜,而且比磁盘更可靠,但是你需要有合适的架构来确保其能够有效运作。重复数据删除可以节约存储成本,但是廉价的磁盘有可能带来数据丢失。在数据存储市场上,你不能无代价地获得好处,希望你现在可以做出更明智的支出决策。 |