在上周五发布的一份事件报告中,谷歌称,本月早些时候谷歌语音中断影响了该电话服务的大多数用户,原因是TLS证书过期。
在2021年2月15日至2月16日期间,全球范围内的中断使大多数Google Voice用户无法登录其账户并使用该服务超过4个小时。
“谷歌语音用户遇到了一个问题,其中一些新的入站或出站互联网语音协议(VoIP)电话未能连接,总持续时间为4小时22分钟,”事件报告写道。
“冲击峰值发生在大约03:00,此时缓解措施开始降低故障率。”
在常规操作过程中,通过googlevoice进行的语音呼叫使用会话启动协议(SIP)进行控制,一旦服务中断,客户端设备将立即重新尝试与服务的连接。
用于加密所有Google语音通信的传输层安全(TLS)证书也会定期轮换,以保证连接和通信的安全。
谷歌语音中断的根本原因和影响
Google解释说:“由于更新证书配置的问题,Google Voice前端系统中的活动证书在2021-02-15 23:51:00意外过期,从而引发了问题。”
在影响期内,任何试图建立或重新建立SIP连接的客户端都无法这样做
在过期的证书触发中断后,用户无法访问Google语音服务来拨打或接听VoIP电话。
但是,在事件发生之前已经具有活动SIP连接的客户端设备在中断期间不受影响(只要连接没有中断)。
谷歌补充说:“经过调查,工程团队确定证书配置是根本原因。该团队生成了更新的证书和配置信息,并开始向前端系统紧急推出这些数据。”
在推出缓解措施后,受影响的googlevoice SIP客户端在重试与服务的连接后恢复了功能。
防止未来停机的措施
谷歌工程团队正在采取一些措施,旨在防止类似问题再次发生,并减少未来停机的影响。
正如发布事故报告的谷歌工作区团队所说,工程师们正在采取以下措施:
为即将发生的证书过期事件配置其他主动警报。
为Google Voice前端系统中的TLS错误配置额外的反应式警报。
改进证书轮换和配置更新的自动化工具。
利用更灵活的基础架构快速部署配置更改。
更新资源分配系统,以便在事故期间更有效地提供应急资源。
为谷歌语音前端系统和配置的紧急推出开发培训和实践场景。
2020年12月,谷歌遭遇全球认证系统中断,影响了其面向消费者的大部分服务,包括Gmail、YouTube、Google Drive、Google地图和Google日历。
正如谷歌当月晚些时候解释的那样,这起事件是由自动配额管理系统中的一个漏洞造成的,该漏洞阻止了用户登录自己的帐户并对谷歌云服务进行身份验证。