Cloudflare ha publicado una autopsia detallada que explica la interrupción significativa el 12 de septiembre de 2025, que hizo que su tablero y API no estuvieran disponibles durante más de una hora.
La compañía trazó el incidente a un error de software en su tablero que, combinado con una actualización de servicio, creó una falla en cascada en un sistema interno crítico.
El incidente comenzó con el lanzamiento de una nueva versión del Panel de CloudFlare. Según la compañía informeEsta actualización contenía un error en su código React que hizo que hiciera llamadas repetidas y excesivas a la API interna del servicio de inquilinos. Este servicio es un componente central responsable de manejar la autorización de la solicitud de API.
El error se ubicó en un gancho Use Effectect, que se configuró erróneamente para activar la llamada de API en cada cambio de estado, lo que lleva a un bucle de solicitudes durante un solo render de tablero. Este comportamiento coincidió con la implementación de una actualización de la API del servicio de inquilinos en sí.
El “rebaño tronente” resultante de las solicitudes del tablero de errores abrumó el servicio recién desplegado, lo que hace que falle y se recupere de manera incorrecta.
Debido a que el servicio de inquilinos se requiere para autorizar las solicitudes de API, su falla condujo a una interrupción generalizada del tablero de CloudFlare y muchas de sus API, a partir de las 17:57 UTC.
Respuesta y recuperación de incidentes
Los equipos de ingeniería de Cloudflare notaron por primera vez el aumento de la carga en el servicio de inquilinos y respondieron tratando de reducir la presión y agregar recursos.
Implementaron una regla temporal de limitación de tasa global y aumentaron el número de cápsulas de Kubernetes disponibles para el servicio para mejorar el rendimiento. Si bien estas acciones ayudaron a restaurar la disponibilidad parcial de API, el tablero permaneció abajo.
Un intento posterior de parchear el servicio para corregir los codificaciones de errores a las 18:58 UTC demostró ser contraproducente, causando un segundo breve impacto en la disponibilidad de API. Este cambio fue rápidamente revertido y el servicio completo fue restaurado por las 19:12 UTC.
Es importante destacar que Cloudflare señaló que la interrupción se limitaba a su plano de control, que maneja la configuración y la administración. El plano de datos, que procesa el tráfico de clientes, no se vio afectado debido a la separación estricta, lo que significa que los servicios de usuario final permanecieron en línea.
Después del incidente, CloudFlare ha esbozado varias medidas para evitar una recurrencia. La compañía planea priorizar la migración del servicio de inquilinos a los lanzamientos de ARGO, una herramienta de implementación que retrocede automáticamente una versión si detecta errores.
Para mitigar el problema de “Herd Thundering”, el tablero se está actualizando para incluir retrasos aleatorios en su lógica de reintento API. El servicio de inquilinos en sí ha sido asignado sustancialmente más recursos, y su monitoreo de capacidad se mejorará para proporcionar alertas proactivas.
¡Encuentra esta historia interesante! Séguenos Google News, LinkedIny incógnita Para obtener más actualizaciones instantáneas.







