对象存储体系结构解决文件遍历问...
对象存储体系结构解决文件遍历问题
2020-11-20
对象存储体系结构解决文件遍历问题
在处理庞大的数据集时,不希望花费大量的系统资源去搜索所有的文件来寻找自己想要的信息。对象存储以其唯一的标识符极大地简化了这一过程。
在对象存储体系结构的底部,所有数据仍然以块存储的形式存储。作为块存储的上层,对象存储包含数据(即包含存储信息详细描述的元数据)和唯一标识符,它们被封装到特定的对象中。因为对象存储的逻辑结构位于块存储上,与底层硬件层无关,所以任何x86处理器、内存、磁盘驱动器、固态闪存都可以使用,不需要专门的硬件来支持特定的对象存储。事实上,绝大多数对象存储运行在消费级产品上,或者使用带有硬件和固态闪存的白壳机器。
对象存储体系结构通常包含大量元数据。公共元数据包括安全策略,即控制对象访问权限以及对象是否加密的信息、数据保护策略或管理策略。
对象不像文件存储或网络连接存储中的文件那样由索引组织;相反,它们只需要存储在胖地址空间中。对象的位置和操作是通过其唯一的标识符和元数据来完成的。这与传统的数据块存储有很大不同,传统的数据块存储是将数据放在系统中实际的物理存储位置,或者可以通过集中的文件目录重定向文件位置。
对象存储更适合大型数据集
对象存储体系结构中的非分层寻址空间使其比传统的网络连接存储或存储区域网络存储系统更适合大规模数据存储。在网络连接存储系统中检索单个文件需要进行详细的搜索(通常称为文件爬行),这是一种查找文件的完整索引。这个过程消耗了文件系统大量的资源,会影响到所有的读写操作,系统消耗的时间会随着文件系统的扩展而显著增加。随着系统访问需求的增加和文件数量的增加,文件索引的方式将在某个时候达到瓶颈。
对象存储的检索显然更快,因为它只搜索唯一的标识符和元数据。因为不需要遍历整个文件系统或索引,对象存储的可扩展性更强,对性能的影响更低。
除了标准的RESTful应用程序接口外,大多数对象架构都有相应的文件接口,如NFS、SMB和Hadoop分布式文件系统(HDFS)。这使对象存储能够像网络连接存储一样读写数据,同时保持其优势。HDFS接口使对象存储成为Hadoop解决方案中更具成本效益的体系结构。
对象存储的上述差异使其在以下应用环境中更具成本效益,包括:
冷数据和热数据归档
检索
分析
支持
合规文件
社交媒体账户
文件共享
云存储
简单的一个思路,就可以明白为什么对象存储成为了大多数云存储提供商首选的数据存储模式,包括亚马逊的Web Services、谷歌、IBM的SoftLayer、微软的Azure等众多服务提供商。
对象存储提高了数据保护级别
对象存储中海量的元数据和无层次的存储池结构使其成为纠错码的理想选择。纠错码需要大量的元数据,但比传统的RAID保护磁盘或硬件故障更经济灵活。纠错码将数据松散分解,存储在一系列对象中,称为数据宽度。读取检索到的数据只需要找到数据宽度的子集,称为数据宽度。当数据宽度可以读取时,意味着元数据可以访问,所以不需要得到整个数据宽度就可以得到完整的数据。
如果您无法读取所有对象,则在读取过程中会出现错误。数据本身不受影响。此时,将重新创建新对象,以替换那些无法读取或无法检索的部分。就占用冗余存储而言,纠错码比RAID或镜像拷贝更有效。
随着并发硬件故障数量的增加,所需的保护级别逐渐提高。这里举个例子,如果数据需要足够的容错能力来同时防止6个硬件错误,多镜像复制方式需要7倍的复制量,也就是占用600%的额外冗余存储空间;RAID完全不能提供7位奇偶校验,只能选择RAID 6实现三重校验,镜像整个RAID。这种配置需要大约2.5倍的复制,这需要额外占用150%的冗余空间。此外,它将显著降低存储性能,尤其是在发生重新配置时。在对象存储架构中,20位数据宽度以纠错码的形式占用26位数据宽度,或者性能更好的话,16位数据宽度代表10位数据宽度,会占用30%~60%的额外存储空间,也就是1.3到1.6倍的冗余。这是实现相同硬件保护级别的巨大成本差异。


企盛北京科技专业代理销售各品牌服务器,联想服务器,戴尔服务器,惠普服务器,存储服务器,机架式服务器,塔式服务器,刀片式服务器,欢迎来电咨询。

推荐文章:服务器节能技术的发展 企盛北京科技

展开