Data Center Colo · Fallstudie

Rechenzentrum Colo — Stromversorgungsstrecke & SLA.

Zwei Szenarien aus einem 14-MW-Colo in Atlanta — ein CRAH-Drift vor der Beeinträchtigung eines Hauptmieters und ein SLA-Anspruch über 48.000 $, der in fünf Werktagen gelöst wurde.

Ein 14-MW-Colo-Rechenzentrum in Atlanta mit Hyperscale- und Unternehmens-Colo-Mietern. BMS mittelt die Raumtemperatur. DCIM fragt alle 5 Minuten ab. Dabei steigt die Vorlauftemperatur eines einzelnen CRAH um 2°C und ein Rack beginnt in den ASHRAE-A1-Oberbereich zu driften. Zwei Szenarien: eines thermisch, eines ein SLA-Streitfall.

6 minCRAH-Basislinie wiederhergestellt — ohne Mieterbeeinträchtigung
$48KSLA-Anspruch auf Basis von Steckdosen-Nachweisen zurückgezogen
5 daysbis zur Streitfallbeilegung
Betreiberszenarien

So spielt sich das in der Praxis ab.

01

Der Drift, den das BMS weggemittelt hat.

ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · sustained 45 min
01
ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · 45 min

BMS hat ihn weggemittelt. Rack-Einlass nicht.

BMS meldet Raumtemperaturdurchschnitt als korrekt. DCIM fragt alle 5 Minuten ab — ebenfalls korrekt. Aber die Vorlauftemperatur von CRAH-7 steigt seit 45 Minuten über drei 15-Minuten-Fenster um 2,1°C über die Basislinie. Die ML-Inferenz-Racks, die es hauptsächlich kühlt, driften in den ASHRAE-A1-Oberbereich. SLA-Strafe für Mieter: 14.000 $ pro Stunde bei Überschreitung der Hüllkurve.

02
correlation engine · chiller plant rebalance at 04:12 · CRAH-7 under-fed

Ursache: Chiller-Neuausgleich ließ einen CRAH unterversorgt.

Der Kühlpfeiler korreliert den Vorlaufdrift von CRAH-7 mit dem Lastausgleichsprotokoll der Kälteanlage. Grundursache: Ein Anlagenausgleich um 04:12 ließ CRAH-7 unterversorgt. Interventions-Runbook beigefügt: zwei Ventilanpassungen, geschätzte Ausführungszeit 10 Minuten. Prognostizierte Hüllkurve bleibt innerhalb ASHRAE A1, wenn innerhalb von 20 Minuten korrigiert.

03
EN 50600 · operations log sealed · ASHRAE A1 maintained

In 6 Minuten korrigiert. Mieter bemerkt nichts.

Betreiber genehmigt das Runbook. Ventilanpassungen ausgeführt. CRAH-7 kehrt innerhalb von 6 Minuten zur Basislinie zurück. Zwei ML-Inferenz-Racks überschreiten die A1-Hüllkurve nie. EN-50600-Betriebsprotokoll automatisch versiegelt. Q3-Bericht fügt der Spalte "entdeckt und behoben vor Mieterbeeinträchtigung" einen weiteren Eintrag hinzu.

6 min
bis zur Basislinen-Wiederherstellung
Von der Runbook-Genehmigung bis zur Rückkehr der CRAH-7-Vorlauftemperatur in die ASHRAE-A1-Hüllkurve.
A1
ASHRAE-Hüllkurve — eingehalten
ML-Inferenz-Racks überschritten die Klasse-A1-Einlasstemperaturgrenze nie. Keine Mieterbeeinträchtigung.
ASHRAE TC 9.9EN 50600
02

Die Überwachung des Mieters sagte eines. Ihre sagte etwas anderes. Ihre war versiegelt.

DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44
01
DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44

Mieter behauptet 22 Minuten Strombeeinträchtigung.

Ein Colo-Mieter reicht einen vierteljährlichen SLA-Streitfall ein und behauptet ein 22-minütiges Stromereignis in Schrank C-44. Interne Überwachung zeigt eine Server-Neustart-Schleife im Zeitfenster. Anlagen-BMS zeigt die UPS-Einspeisung auf Raumebene als korrekt. Streitfallanspruch: 48.000 $ SLA-Gutschrift. Mieterverlängerung in vier Monaten.

02
Power pillar · per-outlet continuity · C-44 · ±0.4% · sealed

Steckdosen-Kontinuität: kontinuierlich innerhalb ±0,4 %.

ObservOnes Stromversorgungspfeiler verfolgte die Stromversorgung von der Versorgungszuleitung bis zu jeder Steckdose an jedem PDU, der C-44 speist. Hash-chained Protokoll erfasste jeden Messwert: Versorgungszuleitung stabil, ATS nicht betätigt, UPS-String stabil, Schranksteckdosen liefern kontinuierlich Strom innerhalb ±0,4 % über das gesamte strittige Fenster.

03
dispute packet · sealed · claim withdrawn in 5 business days

48.000-$-Anspruch zurückgezogen. Kernel Panic, nicht Anlagen-Strom.

Der Compliance-Pfeiler erstellt die Streitfallantwort: Steckdosen-Kontinuitätszeitverlauf für C-44, versiegelt gegen den Mieterschlüssel des Betreibers, roher Ereignisstrom als Anlage. IT-Team des Mieters prüft. Ihre Server-Neustarts wurden auf eine interne Kernel Panic bei einem Cluster-Patch zurückgeführt. Anspruch innerhalb von fünf Werktagen zurückgezogen.

$48K
SLA-Anspruch zurückgezogen
Steckdosen-Kontinuitätsnachweise lösten, was ein BMS-Screenshot nicht konnte.
5 days
bis zur Streitfallbeilegung
IT-Team des Mieters führte Neustarts auf Kernel Panic zurück, nicht auf Anlagen-Strom.
SOC 2EN 50600Uptime Institute Tier
Hands-on

Reproduzieren Sie dieses Szenario
in unserer Sandbox.

30 Minuten mit einem Solutions Engineer. Wir laden einen Mandanten mit anonymisierten Standorten, die Ihrer Topologie entsprechen. NDA-freundlich.