Data Center Colo · Caso di studio

Data center colo — catena energetica e SLA.

Due scenari da un colo di Atlanta da 14 MW — una deriva CRAH rilevata prima che il tenant principale se ne accorgesse, e una richiesta SLA da $48K per un evento di alimentazione risolta in cinque giorni lavorativi.

Una struttura colo di Atlanta da 14 MW con tenant hyperscale e colo enterprise. Il BMS calcola la media della temperatura della sala. Il DCIM effettua poll ogni 5 minuti. Nel frattempo la temperatura di mandata di un singolo CRAH sale di 2°C e un rack inizia a derivare verso il limite superiore ASHRAE A1. Due scenari: uno termico, uno di contestazione SLA.

6 minripristino baseline CRAH — nessuna esposizione tenant
$48Krichiesta SLA ritirata su prove per presa
5 daysalla risoluzione della contestazione
Scenari operativi

Come si svolge nella pratica.

01

La deriva che il BMS ha mediato via.

ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · sustained 45 min
01
ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · 45 min

Il BMS l'ha mediata via. L'ingresso del rack no.

Il BMS riporta la temperatura media a livello di sala come normale. Il DCIM effettua poll ogni 5 minuti — anche lui OK. Ma la temperatura di mandata di CRAH-7 è salita di 2,1°C sopra la baseline per 45 minuti su tre finestre da 15 minuti. I rack di inferenza ML che raffredda principalmente si stanno avvicinando al limite superiore ASHRAE A1. Penale SLA tenant: $14K all'ora se l'inviluppo viene superato.

02
correlation engine · chiller plant rebalance at 04:12 · CRAH-7 under-fed

Causa radice: il ribilanciamento del chiller ha lasciato un CRAH sotto-alimentato.

Il pilastro Raffreddamento correla la deriva di mandata di CRAH-7 con il log di bilanciamento del carico dell'impianto chiller. Causa radice: un ribilanciamento dell'impianto alle 04:12 ha lasciato CRAH-7 sotto-alimentato. Runbook di intervento allegato: due regolazioni di valvola, tempo stimato 10 minuti. L'inviluppo previsto rimane all'interno di ASHRAE A1 se corretto entro 20 minuti.

03
EN 50600 · operations log sealed · ASHRAE A1 maintained

Corretto in 6 minuti. Il tenant non se ne accorge mai.

L'operatore approva il runbook. Regolazioni di valvola eseguite. CRAH-7 torna alla baseline entro 6 minuti. Due rack di inferenza ML non superano mai l'inviluppo A1. Voce del log operativo EN 50600 sigillata automaticamente. Il report struttura Q3 aggiunge un'altra voce nella colonna «rilevato e risolto prima dell'esposizione tenant».

6 min
al ripristino baseline
Dall'approvazione del runbook al ritorno della temperatura di mandata CRAH-7 all'interno dell'inviluppo ASHRAE A1.
A1
inviluppo ASHRAE — mantenuto
I rack di inferenza ML non hanno mai superato il soffitto di temperatura di ingresso classe A1. Nessuna esposizione tenant.
ASHRAE TC 9.9EN 50600
02

Il monitoraggio del tenant diceva una cosa. Il suo ne diceva un'altra. Il suo era sigillato.

DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44
01
DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44

Il tenant rivendica 22 minuti di esposizione di alimentazione.

Un tenant colo presenta una contestazione SLA trimestrale rivendicando un evento di alimentazione da 22 minuti nel cabinet C-44. Il monitoraggio interno mostra un ciclo di riavvio server nella finestra. Il BMS della struttura mostra l'alimentazione UPS a livello di sala come normale. Importo contestato: $48K di credito SLA. Rinnovo tenant tra quattro mesi.

02
Power pillar · per-outlet continuity · C-44 · ±0.4% · sealed

Continuità per presa: continua entro ±0,4%.

Il pilastro Energia di ObservOne ha tracciato l'alimentazione dalla fornitura utility alla singola presa su ogni PDU che alimenta C-44. Il log hash-chained ha catturato ogni lettura: alimentazione utility stabile, ATS non azionato, stringa UPS stabile, prese del cabinet che erogano alimentazione continua entro ±0,4% per tutta la finestra contestata.

03
dispute packet · sealed · claim withdrawn in 5 business days

Richiesta da $48K ritirata. Kernel panic, non alimentazione della struttura.

Il pilastro Conformità redige la risposta alla contestazione: timeline di continuità per presa per C-44, sigillata con la chiave tenant dell'operatore, flusso di eventi grezzo allegato. Il team IT del tenant revisiona. I riavvii del loro server sono stati ricondotti a un kernel panic interno su una patch del cluster. Richiesta ritirata in cinque giorni lavorativi.

$48K
richiesta SLA ritirata
Le prove di continuità per presa hanno risolto ciò che uno screenshot BMS non poteva.
5 days
alla risoluzione della contestazione
Il team IT del tenant ha ricondotto i riavvii a un kernel panic, non all'alimentazione della struttura.
SOC 2EN 50600Uptime Institute Tier
Mani in pasta

Riproduca questo scenario
nella nostra sandbox.

30 minuti con un solutions engineer. Precarichiamo un tenant con siti anonimizzati che corrispondono alla sua topologia. NDA-friendly.