Data Center Colo · Estudo de caso

Colo de data center — cadeia de energia e SLA.

Dois cenários de um colo de Atlanta de 14 MW — uma deriva CRAH detectada antes de o locatário principal notar, e uma reivindicação de SLA de $48K por evento de energia resolvida em cinco dias úteis.

Uma instalação colo em Atlanta de 14 MW com locatários hyperscale e colo empresarial. O BMS calcula a temperatura média da sala. O DCIM faz polling a cada 5 minutos. Enquanto isso a temperatura de fornecimento de um único CRAH sobe 2°C e um rack começa a derivar para o limite superior ASHRAE A1. Dois cenários: um térmico, um de disputa de SLA.

6 minrestauração da linha de base do CRAH — sem exposição do locatário
$48Kreivindicação de SLA retirada com evidência por tomada
5 dayspara resolução da disputa
Cenários de operadores

Como isso se desenvolve no campo.

01

A deriva que o BMS calculou como média.

ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · sustained 45 min
01
ATL-DC-3 · CRAH-7 supply temp · +2.1°C above baseline · 45 min

O BMS a calculou como média. A entrada do rack não.

O BMS reporta a temperatura média ao nível da sala como normal. O DCIM faz polling a cada 5 minutos — também normal. Mas a temperatura de fornecimento do CRAH-7 subiu 2,1°C acima da linha de base por 45 minutos em três janelas de 15 minutos. Os racks de inferência de ML que ele esfria principalmente estão se aproximando do limite superior ASHRAE A1. Penalidade de SLA do locatário: $14K por hora se o envelope for ultrapassado.

02
correlation engine · chiller plant rebalance at 04:12 · CRAH-7 under-fed

Causa raiz: o rebalanceamento do chiller deixou um CRAH com fornecimento insuficiente.

O pilar de Resfriamento correlaciona a deriva de fornecimento do CRAH-7 com o log de balanceamento de carga da planta de chiller. Causa raiz: um rebalanceamento da planta às 04:12 deixou o CRAH-7 com fornecimento insuficiente. Runbook de intervenção anexado: dois ajustes de válvula, tempo estimado de execução 10 minutos. O envelope previsto permanece dentro de ASHRAE A1 se corrigido em 20 minutos.

03
EN 50600 · operations log sealed · ASHRAE A1 maintained

Corrigido em 6 minutos. O locatário nunca percebe.

O operador aprova o runbook. Ajustes de válvula executados. CRAH-7 retorna à linha de base em 6 minutos. Dois racks de inferência de ML nunca ultrapassam o envelope A1. Entrada do log operacional EN 50600 selada automaticamente. O relatório da instalação Q3 adiciona mais uma entrada na coluna de «detectado e resolvido antes da exposição do locatário».

6 min
para restauração da linha de base
Da aprovação do runbook ao retorno da temperatura de fornecimento do CRAH-7 dentro do envelope ASHRAE A1.
A1
envelope ASHRAE — mantido
Os racks de inferência de ML nunca ultrapassaram o teto de temperatura de entrada classe A1. Sem exposição do locatário.
ASHRAE TC 9.9EN 50600
02

O monitoramento do locatário dizia uma coisa. O seu dizia outra. O seu estava selado.

DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44
01
DAL-DC-1 · tenant T-09 · SLA dispute · 22-min power event · cabinet C-44

O locatário alega 22 minutos de exposição de energia.

Um locatário colo registra uma disputa de SLA trimestral alegando um evento de energia de 22 minutos no gabinete C-44. O monitoramento interno mostra um loop de reinicialização de servidor na janela. O BMS da instalação mostra a alimentação UPS ao nível da sala como normal. Valor da disputa: $48K em crédito de SLA. Renovação do locatário em quatro meses.

02
Power pillar · per-outlet continuity · C-44 · ±0.4% · sealed

Continuidade por tomada: contínua dentro de ±0,4%.

O pilar de Energia de ObservOne rastreou a energia desde a alimentação da utilitária até cada tomada em cada PDU que alimenta C-44. O log hash-chained capturou cada leitura: alimentação de utilitária estável, ATS não acionado, string de UPS estável, tomadas do gabinete entregando energia contínua dentro de ±0,4% em toda a janela disputada.

03
dispute packet · sealed · claim withdrawn in 5 business days

Reivindicação de $48K retirada. Kernel panic, não energia da instalação.

O pilar de Conformidade rascunha a resposta à disputa: linha do tempo de continuidade por tomada para C-44, selada com a chave de locatário do operador, fluxo de eventos bruto anexado. A equipe de TI do locatário revisa. Suas reinicializações de servidor foram rastreadas até um kernel panic interno em um patch de cluster. Reivindicação retirada em cinco dias úteis.

$48K
reivindicação de SLA retirada
A evidência de continuidade por tomada resolveu o que um print de tela do BMS não pôde.
5 days
para resolução da disputa
A equipe de TI do locatário rastreou as reinicializações até um kernel panic, não à energia da instalação.
SOC 2EN 50600Uptime Institute Tier
Experimente na prática

Reproduza este cenário
em nosso sandbox.

30 minutos com um engenheiro de soluções. Vamos pré-carregar um tenant com sites anonimizados que correspondam à sua topologia. Compatível com NDA.