部署模式 (Deployment Mode)
停机部署(Big Bang / Recreate): 把现有版本的服务停机,然后部署新的版本。
蓝绿部署(Blue/Green /Stage):部署好新版本后,把流量从老服务那边切过来。
滚动部署(Rolling Update / Ramped): 一点一点地升级现有的服务。
灰度部署(Canary):把一部分用户切到新版上来,然后看一下有没有问题。如果没有问题就继续扩大升级,直到全部升级完成。
AB 测试(A/B Testing):同时上线两个版本,然后做相关的比较。
停机部署
停机部署其实是最简单粗暴的方式,就是简单地把现有版本的服务停机,然后部署新的版本。在一些时候,我们必需使用这样的方式来部署或升级多个服务。
比如,新版本中的服务使用到了和老版本完全不兼容的数据表的设计。这个时候,我们对生产有两个变更,一个是数据库,另一个是服务,而且新老版本互
不兼容,所以只能使用停机部署的方式。
这种方式的优势是,在部署过程中不会出现新老版本同时在线的情况,所有状态完全一致。停机部署主要是为了新版本的一致性问题。
这种方式最不好的问题就是会停机,对用户的影响会很大。所以,一般来说,这种部署方式需要事前挂公告,选择一个用户访问少的时间段来做。
蓝绿部署
蓝绿部署与停机部署最大的不同是,其在生产线上部署相同数量的新的服务,然后当新的服务测试确认 OK 后,把流量切到新的服务这边来。蓝绿部署比
停机部署好的地方是,它无需停机。
我们可以看到这种部署方式,就是我们说的预发环境。在金融公司里经常用这种方式,生产线上有两套相同的集群,一套是 Prod 是真实服务的,另一套是
Stage 是预发环境,发布发 Stage,然后把流量切到 Stage 这边,于是 Stage 就成了 Prod,而之前的 Prod 则成了 Stage。有点像换页似的。
这种方式的优点是没有停机,实时发布和升级,也避免有新旧版本同时在线的问题。但这种部署的问题就是有点浪费,因为需要使用双倍的资源(不过,这只
是在物理机时代,在云计算时代没事,因为虚拟机部署完就可以释放了)。
特别注意:如果我们的服务中有状态,比如一些缓存什么的,停机部署和蓝绿部署都会有问题。
滚动部署
滚动部署策略是指通过逐个替换应用的所有实例,来缓慢发布应用的一个新版本。通常过程如下:在负载调度后有个版本A的应用实例池,一个版本B的实例部署
成功,可以响应请求时,该实例被加入到池中。然后,版本A的一个实例从池中删除并下线。
这种部署方式直接对现有的服务进行升级,虽然便于操作,而且在缓慢地更新的过程中,对于有状态的服务也是比较友好的,状态可以在更新中慢慢重建起来。
但是,这种部署的问题也是比较多的。
在发布过程中,会出现新老两个版本同时在线的情况,同一用户的请求可能在新老版中切换而导致问题。
我们的新版程序没有在生产线上经过验证就上线了。
在整个过程中,生产环境处于一个新老更替的中间状态,如果有问题要回滚就有点麻烦了。
如果在升级过程中,需要做别的一些运维工作,我们还要判断哪些结点是老版本的,哪些结点是新版本的。这太痛苦了。
因为新老版本的代码同时在线,所以其依赖的服务需要同时处理两个版本的请求,这可能会带来兼容性问题。
无法让流量在新老版本中切换。
灰度部署(金丝雀)
灰度部署又叫金丝雀部署。其得名来源于矿井中的金丝雀 –17 世纪,英国矿井工人发现,金丝雀对瓦斯这种气体十分敏感。空气中哪怕有极其微量的瓦斯,
金丝雀也会停止歌唱。而当瓦斯含量超过一定限度时,虽然鲁钝的人类毫无察觉,金丝雀却早已毒发身亡。
当时在采矿设备相对简陋的条件下,工人们每次下井都会带上一只金丝雀作为 “ 瓦斯检测指标 “,以便在危险状况下紧急撤离。
灰度部署是指逐渐将生产环境流量从老版本切换到新版本。通常流量是按比例分配的。例如90%的请求流向老版本,10%的流向新版本。然后没有发现问题,
就逐步扩大新版本上的流量,减少老版本上的流量。
除了切流量外,对于多租户的平台,例如云计算平台,灰度部署也可以将一些新的版本先部署到一些用户上,如果没有问题,扩大部署,直到全部用户。
一般的策略是,从内部用户开始,然后是一般用户,最后是大客户。
这个技术大多数用于缺少足够测试,或者缺少可靠测试,或者对新版本的稳定性缺乏信心的情况下。
把一部分用户切到新版上来,然后看一下有没有问题。如果没有问题就继续扩大升级,直到全部升级完成。
AB 测试
AB 测试和蓝绿部署或是金丝雀灰度部署完全是不一样的。
AB 测试是同时上线两个版本,然后做相关的比较。是用来测试应用功能表现的方法,例如可用性、受欢迎程度、可见性等。
蓝绿部署是为了不停机,灰度部署是对新版本的质量没信心。而AB测试是对新版的功能没信心。注意,一个是质量,一个是功能。
AB 测试,其包含了灰度发布的功能。也就是说,我们的观测如果只是观测有没有 bug,那就是灰度发布了。当然,如果我们复杂一点,要观测用户的一些
数据指标,这完全也可能做成自动化的,如果新版本数据好,就自动化地切一点流量过来,如果不行,就换一批用户(样本)再试试。
实现AB测试方案
浏览器 cookie
查询参数
地理位置
技术支持,如浏览器版本、屏幕尺寸、操作系统等
客户端语言