Data Center Colo · Кейс

Центр обробки даних colo — тракт живлення та SLA.

Два сценарії з 14 МВт центру обробки даних в Атланті — дрейф CRAH, виявлений до того, як провідний орендар це помітив, та претензія SLA на $48 тис. за подію живлення, вирішена за п'ять робочих днів.

Об'єкт colo потужністю 14 МВт в Атланті з гіперскейл та enterprise орендарями. BMS усереднює температуру приміщення. DCIM опитує кожні 5 хвилин. Тим часом температура подачі однієї CRAH зростає на 2°C і стійка починає дрейфувати у верхню межу ASHRAE A1. Два сценарії: один тепловий, один суперечка SLA.

6 minвідновлення базового рівня CRAH — без впливу на орендаря
$48Kпретензію SLA відкликано на підставі доказів на розетку
5 daysдо вирішення суперечки
Операторські сценарії

Як це відбувається в реальних умовах.

01

Дрейф, який BMS усередив.

ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · sustained 45 min
01
ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · 45 min

BMS усереднив. Вхідний отвір стійки — ні.

BMS звітує про середню температуру приміщення як нормальну. DCIM опитує кожні 5 хвилин — теж нормально. Але температура подачі CRAH-7 зростає на 2,1°C вище базового рівня протягом 45 хвилин у трьох 15-хвилинних вікнах. Стійки ML Inference, які вона переважно охолоджує, дрейфують у верхню межу ASHRAE A1. Штраф SLA орендаря: $14 тис. за годину при перевищенні конверту.

02
correlation engine · chiller plant rebalance at 04:12 · CRAH-7 under-fed

Першопричина: перебалансування чиллерів залишило одну CRAH недостатньо живленою.

Стовп охолодження корелює дрейф подачі CRAH-7 з журналом балансування навантаження чиллерів. Першопричина: перебалансування установки о 04:12 залишило CRAH-7 недостатньо живленою. Runbook втручання додано: два регулювання клапанів, розраховано 10 хвилин на виконання. Прогнозований конверт залишається в межах ASHRAE A1 при виправленні протягом 20 хвилин.

03
EN 50600 · operations log sealed · ASHRAE A1 maintained

Виправлено за 6 хвилин. Орендар ніколи не помічає.

Оператор підтверджує runbook. Регулювання клапанів виконано. CRAH-7 повертається до базового рівня протягом 6 хвилин. Дві стійки ML Inference жодного разу не перевищують конверт A1. Запис у журнал операцій EN 50600 запечатано автоматично. Звіт об'єкта за Q3 додає ще один запис до стовпця «виявлено та вирішено до впливу на орендаря».

6 min
до відновлення базового рівня
Від підтвердження runbook до температури подачі CRAH-7 в межах конверту ASHRAE A1.
A1
конверт ASHRAE — дотримано
Стійки ML Inference жодного разу не перевищили верхню межу температури вхідного повітря класу A1. Жодного впливу на орендаря.
ASHRAE TC 9.9EN 50600
02

Моніторинг орендаря казав одне. Ваш казав інше. Ваш був запечатаний.

DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44
01
DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44

Орендар заявляє про 22 хвилини впливу живлення.

Орендар colo подає квартальну суперечку SLA, стверджуючи про 22-хвилинну подію живлення в стійці C-44. Внутрішній моніторинг показує петлю перезапуску сервера у цьому вікні. BMS об'єкта показує живлення UPS на рівні приміщення як нормальне. Претензія суперечки: $48 тис. кредиту SLA. Поновлення орендаря через чотири місяці.

02
Power pillar · per-outlet continuity · C-44 · ±0.4% · sealed

Безперервність на розетку: безперервна в межах ±0,4%.

Стовп Живлення ObservOne відстежував живлення від мережевого входу до кожної розетки на кожному PDU, що живить C-44. Журнал з хеш-ланцюжком зафіксував кожен показник: живлення мережі стабільне, ATS не спрацьовував, рядок UPS стабільний, розетки стійки забезпечують безперервне живлення в межах ±0,4% протягом всього оспорюваного вікна.

03
dispute packet · sealed · claim withdrawn in 5 business days

Претензію на $48 тис. відкликано. Паніка ядра, а не живлення об'єкта.

Стовп Відповідності готує відповідь на суперечку: хронологія безперервності на розетку для C-44, запечатана за ключем орендаря оператора, доданий сирий потік подій. Команда IT орендаря перевіряє. Їхні перезапуски сервера відстежені до внутрішньої паніки ядра при оновленні кластера. Претензію відкликано за п'ять робочих днів.

$48K
претензію SLA відкликано
Доказ безперервності на розетку вирішив те, що знімок екрану BMS не міг.
5 days
до вирішення суперечки
Команда IT орендаря відстежила перезапуски до паніки ядра, а не живлення об'єкта.
SOC 2EN 50600Uptime Institute Tier
На практиці

Відтворіть цей сценарій
у нашій пісочниці.

30 хвилин з інженером з рішень. Ми заздалегідь завантажимо орендаря з анонімізованими об'єктами, що відповідають Вашій топології. NDA-зручно.