您所在的位置: 成果库 分级存储方法

分级存储方法

成果类型:: 发明专利

发布时间: 2023-02-08 09:44:39

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 郝建平 | 2023-02-16 14:30:35
本发明提供一种分级存储方法,所述方法包括以下步骤:存储自动分级:集群启动,自动识别不同类型的主机所处于的存储层次;定向存取:选择距离近、存储层次高、负载轻的节点用于数据的存储和读取;寻找热数据:记录文件中各数据块的访问信息,判断迁移时机,当迁移时机到来时,根据所述记录信息,得出每个访问数据块的价值,按照价值从高到低形成队列;数据块迁移:将价值高的数据块迁移到存储层次高的存储层,将价值低的数据块迁移到存储层次低的存储层。本发明的分级存储方法容易部署且硬件低廉,具有较高性价比,同时改善集群的数据调度,使得集群的访问性能得到优化。
一种分级存储方法,其特征在于,所述方法包括以下步骤:存储自动分级:hadoop集群启动,自动识别不同类型的主机所处于的存储层次;在存储自动分级时,所述存储层次至少包括2级,存储层次的划分标准为:存储层次越高,访问性能越好,处理用户请求的响应时间越短;根据主机名将不同类型的主机划分为不同的存储层次,所述存储层次包括SSD一级存储层、SAS二级存储层以及SATA三级存储层;定向存取:选择距离近、存储层次高、负载轻的节点用于数据的存储和读取;存储文件时,客户端将要存储的文件分成固定大小的数据块,每个数据块至少设有1个副本,各副本优先存储在存储层次高的存储层上;寻找热数据:记录文件中各数据块的访问信息,判断迁移时机,当迁移时机到来时,根据所述记录信息,得出每个访问数据块的价值,按照价值从高到低形成队列;数据块迁移:将价值高的数据块迁移到存储层次高的存储层,将价值低的数据块迁移到存储层次低的存储层。

随着数据量的剧增,传统的存储系统由于其物理组成的限制及功能上的局限,造成了存储系统瓶颈的出现,已不能完全满足海量数据存储的需要,于是集群存储应运而生。集群存储,是指由若干个“通用存储设备”组成的用于存储的集群,相对传统的存储系统,它有扩展性强、容易管理、性能优越的特点。集群存储的核心是其分布式的存储系统,一般拥有统一的命名空间,能够将集群中的所有操作统一调度和分发,协调众多存储设备一起工作。近年来,集群存储在并行I/O方面取得了显著成效,尤其是处理工作流、读密集型和大型文件的访问,更是得心应手。hadoop集群就是这样一种存储海量数据的集群,它拥有集群存储的大部分优点。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

通常情况下,一个集群中的所有数据中只有少量数据被频繁访问。我们通过记录文件的访问信息,通过信息估值模型处理这些信息,得出一个价值,该价值越大,代表该数据访问的越是频繁,存储层次就该越高;客户端对文件的读取是以块为单位的,系统把块的每次读取操作都记录下来,记录的内容包括:用户、时间、块信息等,每读取一次系统就会生成一条记录。在特定时刻,使用信息估值模型处理这些记录,模型的处理对象是块,用到的参数有:访问时间,访问次数,用户数量,块的大小,块与其他块的关联度,块的历史值等,利用公式计算出特定的值,来衡量块的“热”度,并按照价值从高到低形成队列,信息估值模型初步处理后的块值队列,数据迀移算法利用队列过滤模型、路径匹配模型,形成具体的迀移任务,最后利用迀移控制模型完成最终的数据迀移;队列过滤模型通过各存储层次上的阈值,过滤掉无需迀移的数据块。这些阈值记录的是所有下迀数据块的最大值和所有上迀数据块的最小值。过滤后形成的队列中的所有块都已经确定迀移方向。

技术合作

可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其他各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。