Data Center Colo · Studium przypadku

Centrum danych colo — trakt zasilania i SLA.

Dwa scenariusze z 14 MW colo w Atlancie — dryfowanie CRAH wykryte zanim flagowy najemca to zauważył, i roszczenie SLA na 48 000 USD za zdarzenie zasilania rozwiązane w pięć dni roboczych.

Obiekt colo 14 MW w Atlancie z najemcami hyperscale i enterprise. BMS uśrednia temperaturę pomieszczenia. DCIM odpytuje co 5 minut. Tymczasem temperatura zasilania jednej CRAH wzrasta o 2°C i szafa zaczyna dryfować w górę ASHRAE A1. Dwa scenariusze: jeden termiczny, jeden spór SLA.

6 minprzywrócenie poziomu bazowego CRAH — brak ekspozycji najemcy
$48Kroszczenie SLA wycofane na podstawie dowodów per gniazdko
5 daysdo rozwiązania sporu
Scenariusze operatorów

Jak to wygląda w terenie.

01

Dryfowanie, które BMS uśrednił.

ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · sustained 45 min
01
ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · 45 min

BMS to uśrednił. Wlot do szafy — nie.

BMS raportuje uśrednioną temperaturę pomieszczenia jako w porządku. DCIM odpytuje co 5 minut — też w porządku. Ale temperatura zasilania CRAH-7 wzrasta o 2,1°C powyżej poziomu bazowego przez 45 minut w trzech oknach 15-minutowych. Szafy ML Inference, które głównie chłodzi, dryfują w górę ASHRAE A1. Kara SLA najemcy: 14 000 USD za godzinę po przekroczeniu koperty.

02
correlation engine · chiller plant rebalance at 04:12 · CRAH-7 under-fed

Przyczyna główna: rebalansowanie agregatów chłodniczych zostawiło jedną CRAH niedożywioną.

Filar chłodzenia koreluje dryfowanie zasilania CRAH-7 z dziennikiem bilansowania obciążenia agregatów. Przyczyna główna: rebalansowanie agregatów o 04:12 zostawiło CRAH-7 niedożywioną. Dołączony runbook interwencyjny: dwa regulacje zaworów, szacowane 10 minut do wykonania. Prognozowana koperta pozostaje w ASHRAE A1 jeśli korygowane w ciągu 20 minut.

03
EN 50600 · operations log sealed · ASHRAE A1 maintained

Skorygowane w 6 minut. Najemca nigdy nie zauważa.

Operator zatwierdza runbook. Regulacje zaworów wykonane. CRAH-7 wraca do poziomu bazowego w ciągu 6 minut. Dwie szafy ML Inference nigdy nie przekraczają koperty A1. Wpis do dziennika operacyjnego EN 50600 zapieczętowany automatycznie. Raport obiektu za Q3 dodaje jeszcze jeden wpis do kolumny "wykryte i rozwiązane przed ekspozycją najemcy".

6 min
do przywrócenia poziomu bazowego
Od zatwierdzenia runbooka do temperatury zasilania CRAH-7 w kopercie ASHRAE A1.
A1
koperta ASHRAE — utrzymana
Szafy ML Inference nigdy nie przekroczyły górnego pułapu temperatury wlotu klasy A1. Brak ekspozycji najemcy.
ASHRAE TC 9.9EN 50600
02

Monitoring najemcy mówił jedno. Twój mówił drugie. Twój był zapieczętowany.

DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44
01
DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44

Najemca zgłasza 22 minuty ekspozycji zasilania.

Najemca colo składa kwartalny spór SLA, twierdząc o 22-minutowym zdarzeniu zasilania w szafie C-44. Wewnętrzny monitoring pokazuje pętlę restartu serwera w tym oknie. BMS obiektu pokazuje zasilanie UPS na poziomie pomieszczenia jako czyste. Roszczenie sporu: 48 000 USD kredytu SLA. Odnowienie najemcy za cztery miesiące.

02
Power pillar · per-outlet continuity · C-44 · ±0.4% · sealed

Ciągłość per gniazdko: ciągła w granicach ±0,4%.

Filar Zasilania ObservOne śledził zasilanie od zasilania sieciowego do per gniazdko w każdym PDU zasilającym C-44. Dziennik z łańcuchem skrótów uchwycił każdy odczyt: zasilanie sieciowe stabilne, ATS nie uruchomiony, ciąg UPS stabilny, gniazdka szafy dostarczające ciągłe zasilanie w granicach ±0,4% przez cały sporny czas.

03
dispute packet · sealed · claim withdrawn in 5 business days

Roszczenie 48 000 USD wycofane. Awaria jądra, nie zasilanie obiektu.

Filar Zgodności przygotowuje odpowiedź na spór: oś czasu ciągłości per gniazdko dla C-44, zapieczętowana wobec klucza najemcy operatora, dołączony surowy strumień zdarzeń. Zespół IT najemcy sprawdza. Ich restarty serwera śledzone do wewnętrznej awarii jądra przy aktualizacji klastra. Roszczenie wycofane w pięć dni roboczych.

$48K
roszczenie SLA wycofane
Dowód ciągłości per gniazdko rozstrzygnął to, czego nie mógł zrzut ekranu BMS.
5 days
do rozwiązania sporu
Zespół IT najemcy powiązał restarty z awarią jądra, nie z zasilaniem obiektu.
SOC 2EN 50600Uptime Institute Tier
Wypróbuj osobiście

Odtwórz ten scenariusz
w naszej piaskownicy.

30 minut z inżynierem rozwiązań. Załadujemy środowisko piaskownicy z zanonimizowanymi obiektami pasującymi do Twojej topologii. Przyjazne dla NDA.