Prove SLA e conformità

Contestazioni SLA carrier: perché le prove vincono e gli screenshot perdono

Prove SLA e conformità5 min di lettura

Gli screenshot dal RMS del fornitore perdono le contestazioni SLA. I flussi di eventi hash-chained firmati con Ed25519 le vincono. Perché il divario tra testimonianza e prova è più ampio di quanto la maggior parte degli operatori si renda conto.

Ogni TowerCo, ogni operatore colo, ogni CPO con un SLA che genera crediti ha vissuto questa conversazione. Il tenant presenta una contestazione. Il tenant ha screenshot dal proprio monitoraggio che mostrano l'interruzione dal loro lato. L'operatore ha dashboard che mostrano il sito come disponibile. Entrambe le parti stanno guardando dati reali. Entrambe le parti sono convinte che i dati dell'altra parte siano sbagliati. La contestazione si chiude con una divisione negoziata che probabilmente non riflette ciò che è realmente accaduto.

Le divisioni negoziate sono un fallimento strutturale. Significa che le prove di nessuna delle due parti erano sufficientemente solide da risolvere la questione, il che significa che la prossima contestazione avrà lo stesso aspetto. La via d'uscita non è una negoziazione migliore — sono prove che sono crittograficamente di livello contestazione. E il divario tra uno screenshot e prove di livello contestazione è più ampio di quanto la maggior parte degli operatori si renda conto.

Due parti con due stack di monitoraggio diversi che osservano la stessa infrastruttura fisica produrranno due timeline diverse. Questo non è un bug. È il comportamento atteso di qualsiasi sistema in cui il monitoraggio è asincrono, i percorsi di rete sono diversi, la metodologia di conteggio è diversa e le basi temporali potrebbero non essere precisamente sincronizzate.

Uno screenshot da un RMS del fornitore è un'affermazione sullo stato. Un flusso di eventi hash-chained è una registrazione dello stato. Le contestazioni SLA si risolvono con i registri, non con le affermazioni.

Il RMS del fornitore di una TowerCo può contare un sito come «disponibile» finché il controller del sito è raggiungibile e l'aggregatore BTS riporta power-good. Il NOC del tenant carrier può contare lo stesso sito come «down» se la loro rete core non ha ricevuto traffico dai settori cella per 90 secondi. Entrambe le definizioni sono difendibili. Stanno misurando cose diverse. Nessun team sta essendo disonesto.

Uno screenshot da una console RMS del fornitore è fondamentalmente un'affermazione su come appariva il sistema in un momento nel tempo. Non c'è nulla nello screenshot stesso che dica: questo rendering è stato generato da un insieme specifico di eventi di telemetria sottostanti; quegli eventi si sono verificati in questi specifici momenti; gli eventi non sono stati alterati da quando sono stati registrati; il rendering ha applicato questa specifica metodologia.

Quando una contestazione si intensifica e una terza parte — un team legale, un arbitro, un revisore — cerca di valutare lo screenshot come prova, lo screenshot risponde approssimativamente a zero delle domande rilevanti. Quali erano i dati sottostanti? Erano completi? Qualcuno avrebbe potuto modificarli tra l'evento e il rendering? La dashboard ha applicato la stessa metodologia che definisce il SLA? La maggior parte dei sistemi RMS dei fornitori non può rispondere a queste domande perché non sono stati progettati per farlo.

Un flusso di eventi di livello contestazione ha quattro proprietà che uno screenshot non ha. Completezza: ogni transizione di stato nel sistema è registrata — perdita utility, azionamento ATS, BTS power-good, ripristino RF di settore — al momento della transizione, non come un rollup riepilogativo. Evidenza di manomissione: ogni evento è hash-chained al precedente e firmato crittograficamente al momento della scrittura. Persistenza INSERT-only: lo storage sottostante vieta le operazioni UPDATE e DELETE. E rendering consapevole della metodologia: il numero di uptime per tenant è calcolato rispetto alla metodologia definita dal SLA, non al conteggio preferito del fornitore.

Con prove di livello contestazione, la conversazione con il tenant cambia forma completamente. Il tenant rivendica 47 minuti di downtime. L'operatore apre il flusso di eventi sigillato per quella finestra, applica la metodologia SLA e produce un numero di 4 minuti con le transizioni sottostanti allegate. Il NOC del tenant può validare il calcolo rispetto alla propria telemetria, può vedere dove i due stack hanno divergito — tipicamente nel tempo di riconvergenza della rete core, sul lato demarc del tenant — e può ritirare la porzione contestata.

Gli operatori che usano stream di prove sigillate riportano sistematicamente che il volume di contestazioni avviate dai tenant scende nel corso del primo anno, perché il NOC del tenant impara che le prove dell'operatore reggeranno. Le contestazioni che rimangono sono casi limite reali che vale la pena risolvere nel merito.

L'altra conseguenza delle prove sigillate è normativa. SOC 2, ISO 27001, NIS 2 e i vari standard settoriali richiedono sempre più record di eventi di livello audit con orizzonti di conservazione misurati in anni. Uno screenshot non può soddisfare questi requisiti. Un RMS del fornitore con rollup mensili non può soddisfare questi requisiti. Un flusso di eventi sigillato hash-chained può. Costruire il log di audit nella piattaforma fin dall'inizio è drasticamente più economico che aggiungerlo in seguito — e le vittorie nelle contestazioni sono un effetto collaterale dell'operare, non un progetto separato.

Lo veda live

Esplori questo scenario
nella nostra sandbox.

30 minuti. Portiamo l'operatore che ha vissuto questo scenario.