在上周五发布的一份事件报告中,谷歌称,本月早些时候谷歌语音中断影响了该电话服务的大多数用户,原因是TLS证书过期。



  在2021年2月15日至2月16日期间,全球范围内的中断使大多数Google Voice用户无法登录其账户并使用该服务超过4个小时。

  “谷歌语音用户遇到了一个问题,其中一些新的入站或出站互联网语音协议(VoIP)电话未能连接,总持续时间为4小时22分钟,”事件报告写道。

  “冲击峰值发生在大约03:00,此时缓解措施开始降低故障率。”

  在常规操作过程中,通过googlevoice进行的语音呼叫使用会话启动协议(SIP)进行控制,一旦服务中断,客户端设备将立即重新尝试与服务的连接。

  用于加密所有Google语音通信的传输层安全(TLS)证书也会定期轮换,以保证连接和通信的安全。



  谷歌语音中断的根本原因和影响


  Google解释说:“由于更新证书配置的问题,Google Voice前端系统中的活动证书在2021-02-15 23:51:00意外过期,从而引发了问题。”

  在影响期内,任何试图建立或重新建立SIP连接的客户端都无法这样做

  在过期的证书触发中断后,用户无法访问Google语音服务来拨打或接听VoIP电话。

  但是,在事件发生之前已经具有活动SIP连接的客户端设备在中断期间不受影响(只要连接没有中断)。

  谷歌补充说:“经过调查,工程团队确定证书配置是根本原因。该团队生成了更新的证书和配置信息,并开始向前端系统紧急推出这些数据。”

  在推出缓解措施后,受影响的googlevoice SIP客户端在重试与服务的连接后恢复了功能。


  防止未来停机的措施


  谷歌工程团队正在采取一些措施,旨在防止类似问题再次发生,并减少未来停机的影响。

  正如发布事故报告的谷歌工作区团队所说,工程师们正在采取以下措施:

  •   为即将发生的证书过期事件配置其他主动警报。

  •   为Google Voice前端系统中的TLS错误配置额外的反应式警报。

  •   改进证书轮换和配置更新的自动化工具。

  •   利用更灵活的基础架构快速部署配置更改。

  •   更新资源分配系统,以便在事故期间更有效地提供应急资源。

  •   为谷歌语音前端系统和配置的紧急推出开发培训和实践场景。

  2020年12月,谷歌遭遇全球认证系统中断,影响了其面向消费者的大部分服务,包括Gmail、YouTube、Google Drive、Google地图和Google日历。

  正如谷歌当月晚些时候解释的那样,这起事件是由自动配额管理系统中的一个漏洞造成的,该漏洞阻止了用户登录自己的帐户并对谷歌云服务进行身份验证。