《分布式存储使用过程中稳定性和可靠性保障.docx》由会员分享,可在线阅读,更多相关《分布式存储使用过程中稳定性和可靠性保障.docx(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分布式存储使用过程中稳定性和可靠性保障分布式存储使用过程稳定性和可靠性如何保障?分布式存储和集中式存储相比,有很强的价格优势,在实际使用 过程中,依然需要通过容量管理的方式对存储成本进行评估,存 储成本在分布式存储体系中,更多的以集群使用率进行呈现。在 目前开源的分布式存储产品中,绝大多数采取伪随机算法的方式 进行数据平衡,比较典型的是Ceph,因此导致分布式存储在使用 一定时间后,出现集群可用率造成较大的误差。分布式存储架构 师和工程师需要通过相应的技术手段监控分布式存储的数据使用 情况和数据平衡状态,其中包括灾难性数据迁移和数据分布阈 值,保障分布式存储在使用过程的稳定性和可靠性。问题来自
2、社区会员顾黄亮 苏宁消费金融有限公司技术总监: 从根本上说,这是数据均衡的问题,在Ceph的技术体系中,尤为突出。数据均衡是保证分布式存储的每个盘的数据相对分布均衡,依靠自身的数据均 衡算法,确保数据分布能够 遵循每个Pool的Rule-Set规则,同时又要保证每 个Pool对应的PG较为合理的分布在每个OSD中,在Ceph的数据均衡体系中, 每个Pool的作用是不一样的,有的存放元数据,有的存放业务数据,因此容易 造成数据分布存在不均衡性。在Ceph新版本中,已经实现了数据分布的智能管理,在很多商业分布式存储产 品,也具备类似的功能,通过相关的计算模型,根据数据的汇入进行实时的迭 代计算,能
3、够对数据分布进行最优分布管理,据实际统计,数据分布的误差基 本可以控制在2%之内。Lucienl68滴滴存储工程师:分布式系统一般都是靠 分布式协议paxos算法或者Raft算法来保证集群的高 可用性和可靠性,一般只要运维和监控的保障不会出现大问题。数据不均衡:但是咱们在运维的过程中,会发现ceph的crush算法,会导致数据倾斜,集群 中数据的不均衡。这个时候就需要我们监控的及时告警,以及运维工具定期的 做reblanace来保证集群数据的均衡性。迁移10争抢: 在集群节点有变动的时候会导致集群均衡的迁移,那么集群内部的迁移10肯定 会影响客户端请求的10,这个时候需要我们针对集群内部10设
4、置优先级以及 控制好速率,优先来保证客户端10的完成。刘东东软集团it技术咨询顾问:在以ceph为代表的分布式存储的集群中确实会存在数据分布不均衡的问题,特 别是在刚刚部署完成ceph群集或进行集群扩容的时候,加入了新的盘,会使这 个情况更加严重,0SD数量会发生变化,而集群中只要有一个0SD先被写 满,那么整个集群都将无法写入数据,所会极大的影响存储稳定性和可靠性。为了尽可能避免这种情况,提高分布式集群存储利用率,需要尽可能的将PG均 匀分布在0SD上,通常有以下几种做法:1,设置osd均衡权重,做osd reweight,可以根据每个OSD上的PG数量来调 整,默认值是120%。当然这种方式需要定期监控状态,并不是一个自动化的方 案。2,使用balancer的方式,将PG在各个OSD上自动迁移,达到均衡的效果。一全文完一