“老司机”和你聊聊云数据库系统容灾那些事

  • 时间:
  • 浏览:0
  • 来源:uu快3APP_uu快3官方网址

图三 数据库远程探测主机或实例可用性的常用最好的最好的妙招

数据可靠性很大程度上依赖4个机房数据库之间的复制关系,以及可用可靠性配置。

更多情形下,亲戚朋友儿考虑的是多机之间的互备;实际上,单机单库情形下一些点也是非常重要的:

该架构的优点是具有较高的可用性和可靠性;缺点是可能数据库引擎不同,不同引擎之间的源码实现、业务逻辑千差万别,不可不能能 根据不同的引擎行态进行细致的筛选和验证。

当机房级别的故障产生时,一般不建议进行全自动化切换。可能在机房再次出现故障时,真难判断到底是机房内哪一次要再次出现了问题报告 。但可能将机房容灾做成4个产品,内部内部结构一旦触发机房故障切换动作(你一些过程能不可不能能 是人来判断或半自动化判断,切换的过程能不可不能能 是自动化操作),就能不可不能能 按照事先的预案进行容灾操作。

图十二 机房预期切换

通常机房故障都被认为是大面积故障,这类整个机房断电、整个机房火灾或4个机房之间的网络断开等情形。

业内的通用观点是:副本太大,系统的可用性和可靠性越高。在一主多备的架构下,主库与备库之间的的同步最好的最好的妙招是强同步,但一定会 master对所有slave强同步,而只对其中半数以上的slave强同步即可。链路切换过程主要分为master RO、choose slave、wait sync to master on slave、switch Route、slave RW五步。切换后处理相比较一主一备更加多样化些,可能所有备库的复制源可能居于变化,当选中的备库作为主库后,则一些备库的复制源一定会 重新指向新的主库。

 

一主一备

云数据库机房容灾

双机房部署时,当两边的机房都部署了HA,最重要的是要处理HA的脑裂,可能两边的HA都想接管个人机房的实例,可能判断发现对端机房服务器不可达、连接超时,而本机房DB备库可用时,则可能会启动备库提供服务。但你一些情形不应该再次出现,可能两边的数据库一定会 主库,会再次出现双写情形居于。在双机房部署时,实现机房级别的容灾,应该处理应用跨机房访问,或跨机房访问后,能自动关闭应用,流量自动failover。

直播视频:点击此处观看

图一 怎样做到“高可用/容灾”

该架构的优点是:架构简单,资源利用少、成本较低;怎样让 它的可靠性并一定会 很高,这是可能主备之间采用半同步模式,但从那末保障数据的完整不丢失,当网络和主库共同断开时,备库和主库的数据一定是不同步的,此一定会有多量的数据丢失。

图二 数据库远程探测主机或实例可用性的常用最好的最好的妙招

 

数据库故障识别

一般意义上来讲,容灾是指异地的机房与主机房之间进行容灾。但在实际生活中,同机房或同城双机房都能不可不能能 称之为容灾。

非预期切换是指居于故障时进行的切换,常见的意味着机房故障的因素包括地震、火灾、停电等等。在机房居于故障时,由主机房切换至备机房的顺序和预期切换大致雷同,首先完成控制系统的切换;怎样让 再进行业务实例切换,其中有 一些值得注意:在业务实例切换过程中,不可不能能 将原主机房的业务流量切断,共同停掉完整的应用、实例,最大限度地保障4个机房的数据完整一致。

三节点自动选主

共享存储的优点是架构比较简单,上层的server切换非常轻量;缺点是共享存储不可不能能 保证可靠,这是可能共享存储也从不单点行态,数据不可不能能 写多份。

如上图所示,左侧和右侧分别是单独的机房,机房内部内部结构的探测系统能不可不能能 从内部内部结构探测机房内的情形,这其中4个很容易被忽略的关键点:不仅仅不可不能能 探测机房内的主机或服务器实例,探测机房之间核心路由器、交换机等网络设备也是至关重要。通过机房主机间二层网络探测是最直接、方便的探测最好的最好的妙招,能不可不能能 直观地反应机房当前的网络情形。

阿里云数据库容灾是伴随着阿里云数据库发展而不断进步的,在12年仅有v0.1开发版本;在13年支持MySQL、SQLserver;在14年支持水平扩展、支持防闪断链路、支持区域单元化;在15年支持PostgreSQL、PPAS、跨机房容灾、double-binlog复制模式;今年,阿里云数据库支持三节点MongoDB、Redis、RedisSharding以及Greenplum。

正如上图所示,整个容灾体系分为一些一些层(本文的重点是数据高可用层):

预期切换是指正常地从主库切到备库,此时不居于任何故障,将主机房内将完整的应用、数据切换到备机房。大致切换顺序为:第一步切换控制系统,将任务流引擎、监控报警组件、备份、数据收集、API等从主机房切换到备机房;第二步,将业务实例切换到备机房。在整个切换过程中,可能管控系统的高可靠和应用组件的高可用,怎样让 在正常切换过程中,数据无任何丢失。

图十五 两地三中心

链路切换过程十分简单,可能它不涉及master RO、Wait sync to master on slave内部内部结构操作。切换后处理就说 需要 进行元数据更新,以及旧主库重搭(重搭的代价很小)、旧主库只读、旧主库与新主库复制关系搭建等操作。

下面来看一下常见的数据库容灾架构。

上图显示的是金融行业内常用的两地三中心部署架构,该架构创新使用Double-binlog/半同步模式。基本的行态包括主机房、备机房、灾备机房。主备机房居于同4个地方,灾备机房居于异地。主备机房之间通常采用同步复制最好的最好的妙招,减少用户的RT时间;异地机房之间采用异步复制模式。

图十 共享存储架构

在金融行业内保证数据的可靠性是非常重要的前提。通常所讲的数据可靠性包括4个方面:RPO和RTO,最好的情形是RPO为零,RTO最小,RPO为零意味着着所有的数据均不丢失,数据完整;RTO最小意味着着对用户的影响最小。

三节点探测模式最重要的是能不可不能能 通过选举协议(如RAFT协议)选折 4个leader,怎样让 由内部内部结构通信判断哪4个节点是孤岛,也一些一些我少数派自动降级,不再对外提供服务,共同结合内部内部结构的HA进行链路上的Failover或切换,从而规避了双写问题报告 的再次出现,使得实例的可用性达到最大。

实际中,可能所有的应用和存储都装进一边,当4个机房之间网络断开时,用户有可能是不受任何影响的。

(三)当再次出现连接成功,Socket超时或SQL超时(hang)的情形时,说明主机能不可不能能 连接,端口在监听,但数据库无法响应。你一些故障是目前所有故障中最难判断的并算是生活,一般不可不能能 结合收集实时DB性能、主机存储数据和网络性能信息进行综合判断。

一主一备是最常见的也是最简单的数据库容灾架构,一主一备通常采用Share-nothing行态,两边存储相互独立。在一主一备的情形下,为了保证可靠性,DB间的数据同步最好的最好的妙招采用的是半同步模式。链路切换过程最为重要的四步包括master RO、wait sync to master on slave、switch Route、slave RW。每个步骤一定会 有超时、回滚以及主库故障时的对应最好的最好的妙招。切换后,元数据不可不能能 进行更新,可能主库角色可能居于了改变;旧主库不可不能能 进行重搭、只读可能与新主库复制关系搭建等操作。

(二)当再次出现连接成功,但返回Reset包的情形时,说明当前主机能不可不能能 连接,但任务管理器不居于,能不可不能能 认为是任务管理器挂掉了,比如居于了OOM,或软件BUG意味着的任务管理器crash等故障。

容灾最重要的是利用冗余资源最大限度的保证系统服务的连续性、可靠性。此外,容灾利用的冗余资源不仅仅指的是机房,也包括主机级别、DB实例级别、硬件、应用架构和业务。

图九 三节点自动选主架构

图六 怎样保证数据可靠性

对于同步复制的双机房,可能每个机房内只部署4个服务器,当主备机房之间网络断开时,可能可能次要应用部署在备机房,而数据库部署在主机房,那末会造成应用的次要服务器不可服务。意味着次要应用不可用。可能采用Doubble-binlog的处理方案,主备机房进行半同步复制,主库写入任何日志同步到备库事先,再对用户进行返回。当主备机房之间网络断开,半同步模式自动降级为异步复制模式。Doubble-binlog在由异步事先回切半同步模式时,提供了两条Binlog复制模式,从最新的主库写入的位点同步到备库上,假若后面 的日志空洞被填满,就能不可不能能 保障数据的完整,共同也加快了数据同步的数率。

图十六 未来发展规划

后面 所讲的一定会 一对一探测模式,除此之外还有一对多的探测模式,这类三节点探测模式。

(一)当再次出现连接超时,说明发送SYNC包或回包的过程居于中断,可能是主机掉电,路由丢失意味着。

未来

那些是容灾?为那些要容灾?

图五 机房故障检测

图八 一主多备架构

一主多备

三节点自动选主是另并算是生活常见的架构,三节点组成Replica Set架构。该架构采用RAFT协议自动选折 主节点,此时HA太大再可不能能 内部内部结构干预,三节点相互通信,自主决定哪一节点成为新主库。自动选主后,HA通过内部内部结构探测新的主库节点,怎样让 再从内部内部结构将数据链路切换到新的主库节点上。后续的工作是旧主库尝试重启,怎样让 重搭复制,加入副本集。

 

图十一 阿里云数据库容灾发展历程

前面的讲的一定会 share-noting架构,存储是相互独立的。下面讲一下share-disk架构,即共享存储架构。共享存储架构中master和slave一定会 server层,两者的存储一定会 在本地。使用共享存储居于切换时,master server挂掉事先切到slave上,下面的共享存储仍旧正常,可直接通过数据对外提供服务。可能事物日志和数据文件相互分离,slave接管事先不可不能能 将事物日志应用下去,从而意味着recovery的时间会很长。怎样让 使用共享存储架构时,事物日志一定要保留的尽可能短。

以下为收集内容。

幻灯片下载: 点此进入

(四)当再次出现连接成功,更新报错可能DB层连接失败的情形时,说明数据库内存产生了错误,如too many connection等问题报告 ,这类错误是可能数据库的使用不当或客户端的驱动缺乏报告 意味着,你一些问题报告 一定会 主机的故障,不可不能能 进行应用级别的告警,而非实例级别的failover。

数据库远程探测主机或实例通常是通过数据库内部内部结构短连接进行更新或查询记录的最好的最好的妙招直观地探测数据库算是可用,根据查询或更新的结果感知故障情形。

图七 一主一备架构

过去,阿里云服务器专注的方向更多是多引擎;未来,阿里云服务器的目标是实现全方位、快速识别故障,共同做到全自动化Failover,将机房级别的故障以产品化的最好的最好的妙招提供出来,由用户自主操作、选折 符合业务场景的切换模式,实现定制化服务。

图十四 机房间网络故障

机房故障检测

机房级别的容灾分为预期切换和非预期切换并算是生活模式。

机房故障还有另外并算是生活情形:机房之间的网络断开。机房内网络再次出现问题报告 比机器掉电居于的概率要大得多。机房之间的网络断开同样会意味着脑裂问题报告 的产生。应对这类情形,能不可不能能 通过三节点模式判断哪个节点断开,成为孤岛;可能那末4个机房,能不可不能能 在每个机房内选折 若干点,共同探测对端机房的核心交换机、路由器等网络设备,可能所有的收集一定会 通,则认为对端机房居于规模性的故障。当规模性故障居于时,HA不进行切换操作,从而保证主机两端太大再居于双写。

第一些,硬盘方面采用SASSATASSD均可,重点是做RAID5/RAID10,共同RAID卡带备用电池BBU

第二点,做到日志盘与数据盘分离,可能顺序读/写和随机读/写对磁盘的要求是不同的。第三点,日志及时转移,处理在主机堆积,所有数据库级别采取的日志都不可不能能 转移到第三方存储上。第四点,注意FSYNC vs ASYNC mysql的“双1”配置,pgsqlsync配置,可能性能和安全二者不可得兼,不可不能能 在不同的业务的DB上选折 至少的配置,要选折 在断电情形下,数据文件,日志文件行态能保证完整的数据库,如PGMSSQL第五点,注意SSD的磨损指数、机架的功率负载、机器的质保期等等,当然云计算条件下那些个人就太大再考虑了。第六点,注意进行及时的数据备份、日志备份。

数据库常见容灾架构

 

本文根据阿里云技术专家田英鹤(喜乐)在蚂蚁金服&阿里云在线金融技术峰会上《云数据库系统容灾收集和实践》的分享收集而成。本次分享分为背景(为那些要容灾)、识别故障&常见容灾架构、云数据库机房容灾架构和未来发展四次要。分享中,喜乐重点讲解了一主一备、一主多备、三节点自动选主等常用的数据库容灾架构,并对云数据库机房不同情形下的容灾,给出了相应的处理方案。

该架构的优点:可靠性和可用性大大增强;缺点也是显而易见的:可能备库增多,成本也随之增加。

图十三 机房非预期切换

 

图四 数据库远程探测主机或实例可用性的常用最好的最好的妙招

猜你喜欢

请各位高手相助!解决后追加1000分,绝不食言。FLASH和IEBOOK的问题。

换一换下载百度知道APP,抢鲜体验不得劲推荐你对你这种 回答的评价是?展开全版你这种 问题都在给分能出理 滴,你这种 问题是要给钱要能出理 滴。。。展开全版追问扫描

2020-02-25

求美国作家Pearl S. Buck简介(两三句即可)及其主要作品

获奖《生芦苇》(TheLivingReed)《北京来信》(LetterfromPeking)1935年,威廉·迪·豪威尔勋章《桥》(ABridgeforPassing)《帝国男

2020-02-25

2019阿里云双十一活动热门云服务器价格表

双十一的价格绝对是一年当中最低的,正可能性没人,什么都买车人,站长和企业主一定会取舍在这一 就让入手。都需要节省不少开销。可能性你是老用户说说,也都需要借用买车人家人,亲们

2020-02-24

周朝时期(包括春秋战国时期)的所有成语故事

展开全部扫描二维码下载展开全部本回答被前前男友采纳你对你这个回答的评价是?可选中2个 或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个间题。沉鱼落雁;一鸣惊人

2020-02-24

《倚楼听风雨》的下一句是?

下载百度知道APP,抢鲜体验倚楼听风雨,展开全部抛开名利淡,风雨可知愿?全诗是:携手归林远。换一换使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。风潜

2020-02-24