Data Center Colo · Caso de estudio

Colo de centro de datos — tren de energía y SLA.

Dos escenarios de un colo de Atlanta de 14 MW — una deriva CRAH detectada antes de que el inquilino principal lo notara, y una reclamación SLA de $48K de un evento de energía resuelta en cinco días hábiles.

Una instalación colo de Atlanta de 14 MW con inquilinos hyperscale y colo empresarial. El BMS promedia la temperatura de la sala. El DCIM hace sondeos cada 5 minutos. Mientras tanto, la temperatura de suministro de un solo CRAH sube 2 °C y un rack empieza a derivar hacia el límite superior ASHRAE A1. Dos escenarios: uno térmico, uno de disputa de SLA.

6 minrestauración de línea base del CRAH — sin exposición del inquilino
$48Kreclamación SLA retirada con evidencia por toma
5 dayshasta la resolución de la disputa
Escenarios de operadores

Cómo se desarrolla esto en el campo.

01

La deriva que el BMS promedió.

ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · sustained 45 min
01
ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · 45 min

El BMS lo promedió. La entrada del rack no lo hizo.

El BMS reporta la temperatura media a nivel de sala como correcta. El DCIM hace sondeos cada 5 minutos — también bien. Pero la temperatura de suministro del CRAH-7 ha estado subiendo 2,1 °C por encima de la línea base durante 45 minutos en tres ventanas de 15 minutos. Los racks de inferencia ML que principalmente enfría se acercan al límite superior ASHRAE A1. Penalización SLA del inquilino: $14K por hora si se supera la envolvente.

02
correlation engine · chiller plant rebalance at 04:12 · CRAH-7 under-fed

Causa raíz: el reequilibrio del chiller dejó un CRAH con suministro insuficiente.

El pilar de Refrigeración correlaciona la deriva de suministro del CRAH-7 con el registro de equilibrio de carga de la planta de chiller. Causa raíz: un reequilibrio de la planta a las 04:12 dejó al CRAH-7 con suministro insuficiente. Runbook de intervención adjunto: dos ajustes de válvula, tiempo estimado de ejecución 10 minutos. La envolvente pronosticada permanece dentro de ASHRAE A1 si se corrige en 20 minutos.

03
EN 50600 · operations log sealed · ASHRAE A1 maintained

Corregido en 6 minutos. El inquilino nunca lo nota.

El operador aprueba el runbook. Ajustes de válvula ejecutados. CRAH-7 vuelve a la línea base en 6 minutos. Dos racks de inferencia ML nunca superan la envolvente A1. Entrada del registro de operaciones EN 50600 sellada automáticamente. El informe de instalación del Q3 suma una entrada más a la columna de «detectado y resuelto antes de la exposición del inquilino».

6 min
hasta la restauración de la línea base
Desde la aprobación del runbook hasta que la temperatura de suministro del CRAH-7 volvió dentro de la envolvente ASHRAE A1.
A1
envolvente ASHRAE — mantenida
Los racks de inferencia ML nunca superaron el techo de temperatura de entrada clase A1. Sin exposición del inquilino.
ASHRAE TC 9.9EN 50600
02

El monitoreo del inquilino decía una cosa. El suyo decía otra. El suyo estaba sellado.

DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44
01
DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44

El inquilino alega 22 minutos de exposición de energía.

Un inquilino colo presenta una disputa de SLA trimestral alegando un evento de energía de 22 minutos en el gabinete C-44. El monitoreo interno muestra un bucle de reinicio del servidor en la ventana. El BMS de la instalación muestra la alimentación UPS a nivel de sala como correcta. Reclamación de disputa: $48K en crédito SLA. Renovación del inquilino en cuatro meses.

02
Power pillar · per-outlet continuity · C-44 · ±0.4% · sealed

Continuidad por toma: continua dentro de ±0,4 %.

El pilar de Energía de ObservOne rastreó la energía desde la alimentación del suministro hasta cada toma en cada PDU que alimenta C-44. El registro hash-chained capturó cada lectura: alimentación del suministro estable, ATS no ejercido, string UPS estable, tomas del gabinete entregando energía continua dentro de ±0,4 % durante toda la ventana en disputa.

03
dispute packet · sealed · claim withdrawn in 5 business days

Reclamación de $48K retirada. Kernel panic, no energía de la instalación.

El pilar de Cumplimiento redacta la respuesta a la disputa: cronología de continuidad por toma para C-44, sellada con la clave de inquilino del operador, flujo de eventos sin procesar adjunto. El equipo de TI del inquilino revisa. Sus reinicios de servidor se rastrean hasta un kernel panic interno en un parche de clúster. Reclamación retirada en cinco días hábiles.

$48K
reclamación SLA retirada
La evidencia de continuidad por toma resolvió lo que una captura de pantalla del BMS no pudo.
5 days
hasta la resolución de la disputa
El equipo de TI del inquilino rastreó los reinicios hasta un kernel panic, no a la energía de la instalación.
SOC 2EN 50600Uptime Institute Tier
Póngase manos a la obra

Reproduzca este escenario
en nuestro sandbox.

30 minutos con un ingeniero de soluciones. Precargaremos un tenant con sitios anonimizados que coincidan con su topología. Compatible con NDA.