分层存储

2024-05-22

分层存储(精选三篇)

分层存储 篇1

1 概述

地震发生后首要的工作就是进行灾区重建,为了及时清楚的了解受灾严重程度的地区分部情况,最好的方式就是使用卫星航拍图来进行分析,然而地震的涉及范围通常巨大,为了提高图片的分辨率不得不增加存储的图片的容量,由此而产生的数据量成几何级数的增加。

地震产生时,由地震处理解释中心将地震信号通过地面提取出来,送到大型计算机进行处理,形成地下的地质构造及地下的成像,用于地质结构研究,并为进一步发现地下油气,提供可靠的勘探数据。然而,地震信号是在三维空间中的数据,在如此广大的地域内,数据量是爆炸性的。

由此可以用看出,地震数据的海量性对现代的存储系统提出了新的需求,基于单机存储的仓储系统对海量地震数据的储存不再适用,我们希望借助分布式的网络来实现有效的数据存储,而地震数据又是从地震中采集而来,具有高度偶然性,因此数据非常珍贵。针对这些特点,本文主要就是对比了几种存储结构的优缺点,并选择设计了一个用于地震数据存储的存储网络方案。

2 复合分层式数据存储方案

2.1 存储结构的选择

网络存储有两大要件,一者为存储设备,一者为网通设备。企业的网络存储已行之有年,分为以下几种架构:磁盘阵列柜(RAID,Redundant Arrays of Inexpensive Disks)、直连式存储(DAS,Direct Attached Storage)、存储局域网络(SAN,Storage Area Network)和网络附加存储(NAS,Network Attach Storage)。

直连式存储(Direct Attached Storage),如图1(a),存储设备与主机的操作系统紧密相连的一种存储方式,由于早期的网路十分简单,所以直连式存储得到发展。其典型的管理结构是基于SCSI的并行总线式结构。直连式存储共享是受限的,原因是存储是直接依附在服务器上的。从另一方面看,系统也因此背上了沉重的负担。因为CPU必须同时完成磁盘存取和应用运行的双重任务,所以不利于CPU的指令周期的优化。

磁盘阵列(Redundant Arrays of Inexpensive Disks),如图1(b),有“价格便宜且多余的磁盘阵列”之意。其原理是利用数组方式来做磁盘组,配合数据分散排列的设计,提升数据的安全性。磁盘阵列主要针对硬盘,在容量及速度上,无法跟上CPU及内存的发展,提出改善方法。磁盘阵列是由很多便宜、容量较小、稳定性较高、速度较慢磁盘,组合成一个大型的磁盘组,利用个别磁盘提供数据所产生的加成效果来提升整个磁盘系统的效能。同时,在储存数据时,利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上。磁盘阵列还能利用同位检查(Parity Check)的观念,在数组中任一颗硬盘故障时,仍可读出数据,在数据重构时,将故障硬盘内的数据,经计算后重新置入新硬盘中。而磁盘阵列柜就是装配了众多硬盘的外置的RAID。磁盘阵列柜通常比较适合在企业内部的中小型中央集群网存储区域进行海量数据存储。

存储区域网络(Storage Area Networks),如图1(c),到了二十世纪八十年代,计算由大型的集中式系统发展到灵活的客户端服务器分布式模型。正是尚处在初级阶段的局域网推动了这一转变。连接服务器的存储(Server-Attached Storage)和直连存储类似,但使用的却是分布式的方法,并仰赖与局域网的连接得以实现。随着计算能力,内存,存储密度和网络带宽的进一步增长,越来越多的数据被存储在个人计算机和工作站中。分布式的计算和存储的增长对存储技术提出了更高的要求。现在的SAN存储网络是一个用在服务器和存储资源之间的,专用的,高性能的网络体系。它为了实现大量原始数据的传输而进行了专门的优化。可以把SAN看成是对SCSI协议在长距离应用上的扩展。

网络附加存储(Network Attached Storage),如图1(d),是一种专用网络数据存储备份器。网络附加存储设备(NAS)是一种专业的网络文件存储及文件备份设备,或称为网络直联存储设备、网络磁盘阵列。一个NAS里面包括核心处理器,文件服务管理工具,一个或者多个的硬盘驱动器用于数据的存储。NAS可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在NAS上存取任意格式的文件,包括SMB格式(Windows)NFS格式(Unix,Linux)和CIFS格式等等。NAS系统可以根据服务器或者客户端计算机发出的指令完成对内在文件的管理。

复合式存储结构:由于NAS与SAN都具有不受地域限制、高扩展性、高度自动化、高可用性群集、数据备份安全等特点,在数据容灾方面,也具有重要的作用。当对SAN和NAS进行比较时,这两种相互竞争的技术实际上是互补的。SAN和NAS是在不同用户需求的驱动下的独立事件。SAN是以数据为中心的,而NAS是以网络为中心的。概括来说,SAN具有高带宽块状数据传输的优势,而NAS则更加适合文件系统级别上的数据访问。可以部署SAN运行关键应用,比如数据库、备份等,以进行数据的集中存取与管理;而NAS支持若干客户端之间或者服务器与客户端之间的文件共享,所以可使用NAS作为日常办公中需要经常交换小文件的地方,比如文件服务器、存储网页等。越来越多的设计是使用SAN的存储系统作为所有数据的集中管理和备份,而需要文件级的共享即File system I/O则使用NAS的前端(所谓前端,即只有CPU及OS,OS可以是windows或Unix的内核或简化版,不包含盘体装载数据),后端还是会集中到SAN的磁盘阵列中采取数据,提供高性能、大容量的存储设备。因此我们选择结合这两种方式来设计存储结构,这样的存储结构称这为复合式存储结构。

2.2 网络结构的设计

通用网络结构主要有以下几种:

1)星型网:如图2(a),星型网又称辐射网,该结构存在一个中心转接点,在数据存储中,一般用作管理服务器或是中心交换机。所有的存储结点都与中心结点相连接,N个结点就需要N-1条传输链路。优点是降低了传输链路的成本,提高了线路的利用率;缺点是网络的可靠性差,一旦中心结点发生故障或是转接能力不足时,网络将瘫痪。

2)环状结构:如图2(b),该结构中所有的节点都是首尾相连,组成一个环,N个节点的环需要N条链路。环状网可以是单身环,也可以是双相环,该网的优点是结构简单,容易实现,双向自愈环结构可以对网络进行自动保护:缺点是节点数较多时转接时延无法控制,并且环形结构不好扩容,每加入一个结点都要破坏环。

3)网状网:如图2(c),它是一个完全互连的网,网内任意结点都与其它结点相连,N个结点组成的网络需要N(N-1)/2条传输链路。其优点是线路冗余度大,网络可靠性高,任意两点间可以直接通信,缺点是线路利用率低,网络成本高,另外网络的扩容也不方便,每增加一个结点,就需要增加N条线路。

4)总线型网:如图2(d),它属于共享传输介质型网络,总线型网中所有节点都连至一个公共的总线上,任何时候只允许一个节点占用总线或收发数据。该结构的优点是需要的传输链路少,节点间通信无需转接节点,控制方式简单,增减节点也很方便;缺点是网络服务性能的稳定性差,节点数目不宜过多,网络覆盖范围也小。

5)复合型网:如图2(e),它是将网状网与星型网复合而成的。它以星型网为基础,在业务量较大的转接交换中心之间采用网状网结构,因而整个网络结构比较经济,且稳定性较好。此种网络结构兼具了星型网和网状网的优点,因此我们选择用此种网络结构来设计存储网络的网络结构。

2.3 复合分层式数据存储方案

为了扩大网络的覆盖范围,我们引入分层式的思想到复合型网络结构中,并结合前面的复合式存储结构,设计如图3复合分层式存储方案。

本方案特点:

1)结合了数据集中处理概念,即各个核心部门的数据都统一集中在本地NAS上,便于管理和应用。

2)将存储设备与服务器彻底分离,集中管理数据,从而释放带宽、提高性能

3)SAN Network部分网络采用复合分层式网络结构,无单点故障,能够提供无缝的异地容灾备份解决方案。

4)本地RAID磁盘阵列结构,能为本地数据进行提供高效容错的数据安全性。

5)SAN网络高度优化,能够极大满足地震数据传输的时效性。不过也同时带来方案部署的造价。

6)采用开放式的体系结构,支持多种系统平台的接入,亦即实现跨平台操作。

7)异构环境数据共享,即不同的平台和数据库系统实现相关数据的共享

3 结束语

本文首先介绍了地震数据及其特点,然后通过详细的分析与比较传统的存储结构的优缺点,采用结合NAS与SAN优点的存储结构,通过分析与比较了各种网络结构优缺点,将分层式的复合网络结构应用到存储网络中,结合二者设计了一种复合分层式的存储框架。

通过文章分析,我们可以知道这种存储框架有诸多优点,它利用了SAN的优化网络,因此能够对巨量大块的数据进行高效的传输与存储,同时,在终端利用了NAS的文件级别可以存储任意格式文件的特点,具有很高的灵活性,而复合分层式数据存储结构又使网络具有高度的稳定性,因此这种方案可以很好的满足地震数据的海量性,数据珍贵性需要高容灾能力等特点。

参考文献

[1]杨武军.现代通信网概论[M].西安:西安电子科技大学出版社,2004.

[2]谢希仁.计算机网络[M].5版.北京:电子工业出版社,2008.

[3]NetApp网络存储技术在地震数据管理中的应用.http://article.pchome.net/content-424491.html,2007-08-07.

自动分层存储让数据流动起来 篇2

2009年年底,EMC发布了自动分层存储技术(FAST),2010年3月,3PAR公司也推出了以子卷级的自动分层存储技术。其实,在自动分层存储领域,美国Compellent公司可以说是最早实现这一技术的厂商,日前,记者采访了Compellent销售副总裁Brian Bell和其大中华区总经理陈杰。

自动分层存储是通过策略或者数据的访问频率,动态地将数据进行迁移,使被频繁访问的数据存储在速度较快、成本较高的存储介质上,而访问频率较低的数据则被迁移到速度较慢、成本较低的存储介质上。Brian Bell认为,Compellent实现的自动分层存储是把活动数据直接存入高速盘(如SSD或FC盘),非活动数据被逐步自动挪入低成本磁盘(如中端FC盘或SATA盘),而且各个分层磁盘区融为一体,透明地共存于同一逻辑卷中。他认为,对于传统存储中占80%数据量的非活动数据(或历史数据),实际上没必要占用昂贵的高速光纤盘。Compellent通过把非活动数据自动挪入低端存储区来提升高速磁盘区的性能、降低系统成本,而且实现大量非活动数据的实时在线。

陈杰说,通过自动分层存储,对于用户来说,系统的数据访问速度就是系统中最高速存储介质(SSD或FC盘)的速度,这将大大提高系统的性能,同时降低成本,因为用户可以为占系统80%的非活动数据准备低成本的SATA盘。陈杰介绍说,目前,Compellent的单系统可实现双控制器,最多可扩展至1008块硬盘。同时,Compellent系统中还内置了CDP功能,可以为用户提供更为广泛的数据保护。

Brian Bell说,“流动数据(Fluid Data)”是Compellent的战略目标,而自动分层存储技术是其中的重要内容。陈杰表示,Compellent公司进入中国时间不长,但其业务已经获得了快速启动,并与合作伙伴建立了密切的合作关系,共同开拓中国市场。

分层存储 篇3

国内PC存储的特点有:①存储对象的特点是PC软件相对集中。国内PC大部分使用的操作系统是Windows,其中Windows XP用户最多,其次为Windows 7。大部分用户将操作系统、常用软件和驱动程序安装系统盘上,操作系统占据了大部分的系统盘存储空间。虚拟内存的页面交换文件[1]pagefile.sys安排在系统盘,所以PC用户大部分存取操作都在系统盘[2]上。国内应用软件相对固定,是Windows下的常用软件。例如,杀毒软件集中在360杀毒、瑞星、卡巴斯基这三种,办公软件是Office。由于国内PC用户存储的对象相对固定,所以统计存储对象的文件大小分布情况成为可能;②存储的硬件特点是存储子系统存在瓶颈。国内大部分PC用户收入水平有限,整个PC系统造价要有性价比[3],价格不能太高。大部分用户使用的系统盘为单个硬盘,选购计算机时主要关心CPU、主板和内存,不在意系统盘的性能。

但是,存储性能的需求不断增加,瓶颈问题凸显。闪存固态盘目前价格昂贵,完全取代硬盘是不可能的。将服务器存储技术自动分层存储[4]技术应用于PC,即小容量价格便宜的闪存固态盘作为大容量硬盘的上层,将重要数据或者合适闪存存储的数据分布在闪存。性能上接近固态盘,价格上接近硬盘的PC,存储系统符合国内用户性价比诉求。判断存储对象分层的依据除了系统文件的使用频率就是适合闪存存储的文件大小。

1闪存固态盘的特点

1.1闪存固态盘的组成特点

闪存固态盘是由多片NAND型[5]闪存组成阵列的存储部件。闪存固态盘的主要部件有:闪存芯片、主控芯片、cache、稳压电路、线路板及接口。与其性能相关的有:(1)闪存芯片自身的存储性能,采用SLC芯片性能上优于MLC芯片,各闪存厂商生成的同型芯片性能差异很小;(2)闪存芯片的数量,并行的数量越多性能越优;(3)主控芯片提供的通道数量越多并行的闪存芯片越多,主控芯片的内部固件上的算法不同性能上有所差异。由于闪存固态盘组成上的特点造成不同于硬盘的存储特征,没有旋转部件,没有寻道时间,没有磁道内外圈存储性能差异。

通过HD Tune的测试实验得到,闪存固态盘KINGSTON SSDNOW 30GB对大小不同的文件随机存储时存储性能如图1所示,普通硬盘WD500GB性能如图2所示。由图可见,闪存固态盘对于4KB、64KB和1MB这几种尺寸文件的每秒操作数IOPS[6]差距很大,在小于64KB的文件随机存取上比硬盘快几十倍,在1MB的文件只比硬盘快几倍。在持续存取时,由于现在硬盘采用NCQ(Native Command Queuing,原生命令队列)技术[7],尤其是采用流水线方法大大减少转动延迟对多文件持续读写的影响,因此固态盘持续读写时的性能优势不大。如果整个系统盘的文件大小集中在1MB附近,闪存固态盘的性能和普通硬盘差不多、价格贵几倍,那么闪存固态盘在PC机上的应用意义就不大了。总之,闪存固态盘对于小文件性能更佳,需要分析文件系统中文件大小的分布情况,尤其是存取操作密集的系统盘。

1.2抽样点分布预计

根据闪存固态盘采用Nand型闪存芯片作为存储介质的特点寻找抽样点。闪存芯片存储的最小单元是512字节,闪存固态盘替代的硬盘的最小存储单位也是512字节,编程页面[8]大小为2KB或者4KB。尽管有很多文本文件大小只有几十字节,但是实际存储还是需要占512字节的空间。因此对于系统盘文件大小的抽样点从512字节开始。2KB和4KB作为单芯片的存储单位,文件也需要作为抽样点,尤其是大小为4KB作为Windows操作系统的虚拟内存频繁换入换出的单位,Windows操作系统使用NTFS管理磁盘也是采用4KB大小的簇 [9]。目前固态盘主要由4个、或者8个、或者10个(2个作为冗余实际也是8个)闪存芯片通道组成。用通道并行读写来提高固态盘的存取速度。一个32KB的文件有可能被固态盘分为8个4KB部分同时写入8个通道的闪存中,随后8个通道并行读出这8个部分。据此推理,2KB或者4KB的倍数即16KB和32KB也作为抽样点。打开Windows的资源管理器发现:①系统盘存储的许多网页文件、Flash文件和声音文件大小在1MB附近,1MB也作为抽样点,剩下为1MB以上文件;②Windows目录下大量存在几KB到几百KB不等的文本文件。因此,系统盘文件大小的抽样点为0.5KB,2KB, 4KB,16KB,32KB,1MB和1MB以上。

2文件大小分布状况的统计算法与实现

系统盘文件大小分布情况采用分块抽样[10]的方法。分块抽样就是先把总体G分成P个互不相交的子块G1,G2,…,Gp,然后在每块中独立地进行抽样的方法。这种抽样方法的好处是:①分块抽样在获得总体均值估计的同时,也可以得到各块均值的估计;②在分块时,将差别不大的个体分在同一块,使的分块抽样得到的样本更具有代表性,从而提高估计的准确性;③抽样的实施更加方便,数据的收集和处理更容易。系统盘文件大小分为7个互不相交的子块G1(<=0.5KB),G2(0.5KB-2KB),G3(2KB-4KB), G4(4KB-16KB), G5(16KB-32KB),G6(32KB-1MB),G7(>1MB)。

根据抽样子块分布,系统盘文件大小分布情况的统计算法采用前序遍历[11]的算法,扫描系统盘所有文件(包括系统文件和隐藏文件),filelen函数求的每个文件大小,用分段函数统计文件分块情况。假定系统盘为C盘。算法的VB语言实现如下:

Private WithEvents Command1 As CommandButton

Private foldername() As String

Private curfolder As String

Private lastcurnum As Long

Private lastfoldernum As Long

Private lastfilenum As Long

Private k(1 to 7) As Long'定义k(1)-k(7)分别为大小为512B及以下、2KB、4KB、16KB、32KB、1MB、1MB以上 文件数

Private Sub Command1_Click()

ReDim foldername(lastfoldernum)

foldername(lastfoldernum) = “C:”

Do

curfolder = foldername(lastcurnum)

Find curfolder

lastcurnum = lastcurnum + 1

Loop Until lastfoldernum = lastcurnum-1

Erase foldername

Text1.Text = “C盘一共有: ” & lastfilenum & “个文件,其中” & Str(k(1)) & “个小于512B的文件” & Str(k(2)) & Str(k(3)) & Str(k(4)) & Str(k(5)) & Str(k(6)) & Str(k(7))

End Sub

Private Function Find(drivername As String)

Dim file As String

On Error Resume Next

file = Dir(drivername & “*.*”, 31) '查找第一个文件

Do While Len(file) '文件名不为空

DoEvents '转让控制权,允许操作系统处理其他事件

If file <> “.” And file <> “..” Then

If GetAttr(sDriverName & file) And vbDirectory Then '目录

lastfoldernum = lastfoldernum + 1

ReDim Preserve foldername(lastfoldernum)

foldername(lastfoldernum) = sDriverName & file & “”

Else

Select Case FileLen(sDriverName & file) '判断文件大小

Case Is <= 512 '分段函数

k(1) = k(1) + 1

Case Is <= 2048

k(2) = k(2) + 1

Case Is <= 4096

k(3) = k(3) + 1

Case Is <= 16384

k(4) = k(4) + 1

Case Is <= 32768

k(5) = k(5) + 1

Case Is <= 1048576

k(6) = k(6) + 1

Case Is > 1048576

k(7) = k(7) + 1

End Select

lastfilenum = lastfilenum + 1

End If

End If

file = Dir '查找下一个文件

Loop

End Function

3文件大小分布状况的统计结果

抽样国内PC安装两种典型操作系统是:Windows XP(SP3版)和Windows 7(64位SP1旗舰版),在上述操作系统上安装国内常用应用软件并运行上述统计程序。抽样这三种用途(办公、网吧、家用)的PC各十台。抽样的结果取平均数并取整(因为文件个数只可能是整数个),统计结果如表1所示。

根据表1可以得到,这两种PC的系统盘文件大小的分布集中4KB以下,占系统盘整个文件系统的比例分别是40.23%、39.13%,占大部分的比例,1MB以上的大文件仅占2.65%、2.97%。从概率理论理解,某个系统盘上的文件在Windows XP和Windows 7下,小于或者等于32KB的概率大约是0.745和0.677,而小于或者等于64KB的概率将大于这两个值,是个大概率事件。出现其他的区间的概率也可以根据表1推算。

4结束语

通过对文件大小分布状况的统计结果的分析可以得出:闪存固态盘相对硬盘在随机存取性能上优势在于小于64KB的文件,小于64KB的文件是大概率的。因此,在国内PC环境下闪存固态盘和硬盘自动分层存储的临界值是64KB,小于64KB的文件在固态盘存取,其余的大文件在硬盘存取。

摘要:为了解决PC存储性能瓶颈问题,有必要针对文件大小利用闪存固态盘和硬盘进行自动分层存储,找出临界点作为判断分层的依据。通过实验抽样国内几种PC机,用前序遍历算法统计出文件大小分布情况。实验结果表明,PC机文件大小集中分布在64KB及以下。闪存固态盘对64KB以下文件存储性能远高于硬盘,64KB适合作为临界点。

关键词:文件大小,闪存固态盘,分层存储,统计,系统盘

参考文献

[1]宫成刚.让系统保持最佳速度你也可以做到[J].信息与电脑,2009,(7):126

[2]侯昉,王禹,赵跃龙.内存页面交换文件定位优化方法[J].计算机工程与应用,2010,46(4):62

[3]汪伟,范秀敏,武殿梁.虚拟现实应用中的并行渲染技术[J].计算机工程,2009,35(3):282

[4]刘一冰.存储如何“智慧”?[N].电脑商报,2010-08-09(27).

[5]李幼萌,李庆诚,宫晓利.FTL层的NAND-FLASH坏块管理算法研究与实现[C].Proceedings of 2010 International Confer-ence on Services Science,Management and Engineering(Volume 2),2010.254-257

[6]刘冬,王丽芳,蒋泽军,刘志强.RAID小数据随机访问性能分析与优化[J].计算机应用,2009,29(2):421

[7]朱鑫鹏,林水生.SATAⅡ接口中NCQ机制的研究[J].电脑与信息技术,2010,18(5):46-47

[8]单洁.基于闪存K9W8G08的研究和应用设计[J].科技资讯,2009,28:76

[9]黄步根.NTFS系统存储介质上文件操作痕迹分析[J].计算机工程,2007,33(23):281

[10]杨洪礼,鲍承友.概率论与数理统计(第2版)[M].北京:北京邮电大学出版社,2006.76-79

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【分层存储】相关文章:

存储保护05-10

存储设计05-17

安全存储05-18

存储管理06-04

分级存储06-08

理解存储结构04-13

云盘存储教案04-17

相册存储方案04-22

SD存储05-01

移动云存储05-12

上一篇:雾化吸入布地奈德下一篇:气象大数据