No dia 12 de junho, diversos serviços de nuvem do Google enfrentaram uma falha generalizada que afetou usuários em várias regiões do mundo. Nesta semana, a empresa explicou a origem do problema, revelando detalhes técnicos sobre o incidente.
De acordo com o Google, a interrupção foi provocada por uma nova versão do binário Service Control, responsável por validar as políticas de uso das APIs. Um trecho de código com ponteiro nulo foi ativado indevidamente após uma mudança de política interna. A falha, que não contava com o devido tratamento de erro nem estava protegida por um sistema de feature flags, acabou se propagando em efeito cascata.
O problema afetou simultaneamente diversas regiões, e o reinício coletivo dos serviços acabou gerando uma sobrecarga na infraestrutura da empresa. Como consequência, a normalização dos sistemas demorou mais em algumas localidades.
A empresa reforçou seu compromisso com a estabilidade dos serviços e destacou que está revisando seus processos de testes e implementação para evitar que falhas semelhantes ocorram novamente no futuro.
A análise foi publicada originalmente pelo site The Register.