您当前的位置:首页 >> 绘画
分布式事物常见的5种解决方案-详解篇章
发布时间:2019-09-13
 
分布式事物常见的5种解决方案-详解篇章

开篇点题

本篇主要讲解原理性、概念性,希望大家对分布式事物有个简单了解,自然解决方案不仅仅这5种类,包括阿里的GTS或者其它中间件等

什么是分布式事务?

说起分布式事务,首先就要明确什么是事务,相信大家对事务的也都有一定的了解

事务的四个特性(ACID)

分布式事务本质也是一个事务,需要满足ACID特性。

  • 原子性(A)

在整个事务中的所有操作,要么全部完成,要么全部不做,没有中间状态。

  • 一致性(C)

事务必须始终保持系统处于一致的状态,不管在任何给定的时间并发事务有多少。

  • 隔离性(I)

隔离性就是说,事务与事务之间不会互相影响,一个事务的中间状态不会被其他事务感知。

  • 持久性(D)

一旦事务完成了,那么事务对数据所做的变更就完全保存在了数据库中,即使发生停电,系统宕机也是如此。

对于用户来说的一个创建订单的过程,背后很可能跨越了多个应用服务。涉及诸如:订单、库存、积分、优惠券等多个微服务模块,而每个模块的数据库可能存在不同节点上,但是其中的任何一个环节都有可能程序运行错误,导致数据的不一致。

例如这个支付操作里涉及到的多个数据库。

单一数据库可以简单的使用事务来保证一致性,但是分布式的问题则需要分布式的事务来控制数据的一致性

分布式事务的产生的原因

  • 数据库分库分表

由于单表的数据量巨大导致的分库分表,则会涉及到多个数据库的一致性问题。

  • 应用SOA化

业务的服务化。多个业务中心有各自的数据库,也会涉及多个数据库的一致性问题

分布式事务的 5 种方案:

* XA 方案:即“全票通过方案”,要求所有的事务系统必须全部准备好,才可以进行事务处理,这种方案其实是将事务问题抛给了各个数据库本身,好处是数据一致性很高,缺点是耗费性能,所以这种方案一般用的不多。

* TCC 方案:即“局部通过方案”,要求部分事务系统准备好处理事务即可,相对比XA方案灵活了许多,同时它的处理方式是将事务问题交给系统本身处理,需要用大量的代码控制,优点是数据一致性也很高,缺点是控制事务的逻辑代码复杂冗余,性能也很差。所以这种方案也不常用。

* 本地消息表:这是一种基于数据库:这种方案是基于数据库表的一种方案,由各个系统分建自己的消息表,记录数据的发起及接收,并给数据做状态标记,借助MQ,观察消息的状态来决定事务是否需要回滚。有点是代码量少,数据可以保持最终一致性,缺点是表需要维护,且对高并发的支持不怎么好。

* 可靠消息最终一致性方案:这是一种目前市面上比较常用的方案,其原理与上述方法类似,也需要借助MQ,只是不再借助数据库的消息表,而是由系统发起一条预发送消息,当系统本身的事务执行完毕后再将MQ中的消息变为确认消息,同样其他系统接收到MQ的消息后开始处理本地事务,根据处理情况决定事务是否需要回滚。相对来说优点是事务控制较为灵活,确定是不稳定因素较多。

* 最大努力通知方案:这种方案目前还不太成熟,用的也不多,其原理与上述方案类似,只是预发送消息也没有了,有系统处理完本地事务后直接发起MQ,而接受方是本地的一套专门处理事务

的服务,此服务调用待接收系统的接口,以此处理事务。优点是事务节点较少,缺点是事务处理服务的维护成本较高,同时需要多个系统的接口才行。

详细方案介绍

以上是对五种方案的简述,相信大家也都有了一点初步了解,下面我们针对这五种方案,做一下详细的介绍。

两阶段提交方案/XA方案

所谓的 XA 方案,即:两阶段提交,有一个事务管理器的概念,负责协调多个数据库(资源管理器)的事务,事务管理器先问问各个数据库你准备好了吗?如果每个数据库都回复OK,那么就正式提交事务,在各个数据库上执行操作;如果任何其中一个数据库回答不OK,那么就回滚事务。

这种分布式事务方案,比较适合单块应用里,跨多个库的分布式事务,而且因为严重依赖于数据库层面来搞定复杂的事务,效率很低,绝对不适合高并发的场景。如果要玩儿,那么基于 Spring + JTA 就可以搞定。

这个方案,我们很少用,一般来说某个系统内部如果出现跨多个库的这么一个操作,是不合规的。现在微服务,一个大的系统可能分成几十甚至几百个服务,一般来说,我们的规定和规范,是要求每个服务只能操作自己对应的一个数据库。

如果要操作别的服务对应的库,不允许直连别的服务的库,违反微服务架构的规范,随便交叉胡乱访问,几百个服务的话,全体乱套,这样的一套服务是没法管理的,没法治理的,可能会出现数据被别人改错,自己的库被别人写挂等情况。

如果要操作别人的服务的库,最好是通过调用别的服务的接口来实现,绝对不允许交叉访问别人的数据库。

两阶段提交-XA提交机制

分布式事物常见的5种解决方案-详解篇章

分布式事物常见的5种解决方案-详解篇章

  • XA中大致分为两部分:
  • 事务管理器:作为全局的调度者,负责各个本地资源的提交和回滚
  • 本地资源管理器:往往由数据库实现
  • XA机制将提交过程两个阶段
  • prepare
  • commit

流程:

  1. 事务管理模块在prepare服务A的DB事务、服务B的DB事务都成功后。
  2. 逐个commit这些DB事务。

DB在prepare返回OK后,如果没有收到来自事务管理模块的commit/rollback请求则会一直保留该分支事务的数据。

出现错误的情况:

  • 若在prepare阶段出现故障,则回滚prepare过的分支事务,从而达到全局事务回滚。
  • 若在commit阶段出现故障,后续仍然可以再次commit那些未成功commit的分支事务,最终达到全局事务提交。

优点缺点

  • 优点:实现简单易懂
  • 缺点:性能不理想,高并发场景下表现不佳

TCC 方案

TCC 的全称是:Try、Confirm、Cancel。

* Try 阶段:这个阶段说的是对各个服务的资源做检测以及对资源进行锁定或者预留。

* Confirm 阶段:这个阶段说的是在各个服务中执行实际的操作。

* Cancel 阶段:如果任何一个服务的业务方法执行出错,那么这里就需要进行补偿,就是执行已经执行成功的业务逻辑的回滚操作。(把那些执行成功的回滚)

这种方案说实话几乎很少人使用,我们用的也比较少,但是也有使用的场景。因为这个事务回滚实际上是严重依赖于你自己写代码来回滚和补偿了,会造成补偿代码巨大,非常恶心。

比如说我们,一般来说跟钱相关的,跟钱打交道的,支付、交易相关的场景,我们会用 TCC,严格保证分布式事务要么全部成功,要么全部自动回滚,严格保证资金的正确性,保证在资金上不会出现问题。

而且最好是你的各个业务执行的时间都比较短。

但是说实话,一般尽量别这么搞,自己手写回滚逻辑,或者是补偿逻辑,实在太恶心了,那个业务代码很难维护。

三阶段提交--TCC(Try-Confirm-Cancel)机制

分布式事物常见的5种解决方案-详解篇章

流程:

  1. 事务管理模块是在服务A、服务B执行完毕后即刻提交其参与的DB事务。
  • 如果全局事务决定提交,则逐个调用服务A和服务B的confirm逻辑
  • 如果全局事务决定回滚,则逐个调用服务A和服务B的cancel逻辑。

出现错误的情况:

  • 只需要根据全局事务当前状态,将服务A、服务B相应的confirm/cancel逻辑重新调用即可。
  • 但是,confirm/cancel逻辑可能会被多次调用,因此,需要保证其幂等性。

优点缺点

  • 优点:完全控制粒度
  • 缺点:不同的业务场景所写的代码都不一样,复用性较差。

本地消息表

本地消息表其实是国外的 ebay(一个网购平台) 搞出来的这么一套思想。

这个大概意思是这样的:

* A 系统在自己本地一个事务里操作同时,插入一条数据到消息表;

* 接着 A 系统将这个消息发送到 MQ 中去;

* B 系统接收到消息之后,在一个事务里,往自己本地消息表里插入一条数据,同时执行其他的业务操作,如果这个消息已经被处理过了,那么此时这个事务会回滚,这样保证不会重复处理消息;

* B 系统执行成功之后,就会更新自己本地消息表的状态以及 A 系统消息表的状态;

* 如果 B 系统处理失败了,那么就不会更新A的消息表状态,那么此时 A 系统会定时扫描自己的消息表,如果有未处理的消息,会再次发送到 MQ 中去,让 B 再次处理;

* 这个方案保证了最终一致性,哪怕 B 事务失败了,但是 A 会不断重发消息,直到 B 那边成功为止。

这个方案说实话最大的问题就在于严重依赖于数据库的消息表来管理事务啥的,会导致如果是高并发场景咋办呢?咋扩展呢?所以一般确实很少用。

分布式事物常见的5种解决方案-详解篇章

可靠消息最终一致性方案

这个的意思,就是干脆不要用本地的消息表了,直接基于 MQ 来实现事务。比如阿里的 RocketMQ 就支持消息事务。

大概的意思就是:

* A 系统先发送一个 prepared 消息到 mq,如果这个 prepared 消息发送失败那么就直接取消操作别执行了;

* 如果这个消息发送成功过了,那么接着执行本地事务,如果成功就告诉 mq 发送确认消息,如果失败就告诉 mq 回滚消息;

* 如果发送了确认消息,那么此时 B 系统会接收到确认消息,然后执行本地的事务;

* mq 会自动定时轮询所有 prepared 消息回调你的接口,问你,这个消息是不是本地事务处理失败了,所有没发送确认的消息,是继续重试还是回滚?一般来说这里

你就可以查下数据库看之前本地事务是否执行,如果回滚了,那么这里也回滚吧。这个就是避免可能本地事务执行成功了,而确认消息却发送失败了。

* 这个方案里,要是系统 B 的事务失败了咋办?重试咯,自动不断重试直到成功,如果实在是不行,要么就是针对重要的资金类业务进行回滚,比如 B 系统本地回滚后,想办法通知系统 A 也回滚;或者是发送报警由人工来手工回滚和补偿。

* 这个还是比较合适的,目前国内互联网公司大都是这么玩儿的,要不你举用 RocketMQ 支持的,要不你就自己基于类似 ActiveMQ?RabbitMQ?自己封装一套类似的逻辑出来,总之思路就是这样子的。

分布式事物常见的5种解决方案-详解篇章

最大努力通知方案

这个方案的大致意思就是:

* 系统 A 本地事务执行完之后,发送个消息到 MQ;

* 这里会有个专门消费 MQ 的最大努力通知服务,这个服务会消费 MQ 然后写入数据库中记录下来,或者是放入个内存队列也可以,接着调用系统 B 的接口;

* 要是系统 B 执行成功就 ok 了;要是系统 B 执行失败了,那么最大努力通知服务就定时尝试重新调用系统 B,反复 N 次,最后还是不行就放弃。

分布式是个很大的话题,也是个很大的工程,并不是一篇文章能解释得明白的,而且除了以上几种分布式的处理方案,还有其他方案和理论,这里给大家再提供几个学习的资源地址,希望各位有所收获。

End

公司这次分享,让大家对分布式事物有个了个全新认识,也希望看到的小伙伴有所收获,转发是对码这么多字最好的支持,谢谢