Opérations TowerCo

Pourquoi 60 % des déplacements de techniciens sur tours ne trouvent rien — et que faire

Opérations TowerCo5 min de lecture

Alarmes sur lecture unique, pas de corrélation croisée, limites du RMS fournisseur. Les trois défaillances structurelles derrière les dépêches sans anomalie détectée — et comment une corrélation d'alarmes appropriée y remédie.

Demandez à n'importe quel directeur des opérations TowerCo où il trouverait le plus d'économies demain, et une bonne part nommera la même chose : les dépêches sans anomalie détectée. Le camion roule, le technicien conduit, le site se dégage en vingt minutes sans rien de remplacé, le ticket se clôture avec la disposition « ne peut pas être reproduit » ou « transitoire résolu ». Les enquêtes opérateurs mettent systématiquement ce taux au-dessus de 60 % de tous les déplacements sur tours.

Le coût est simple à calculer : une demi-journée d'un technicien senior, le carburant, l'usure du véhicule, l'occasion perdue du travail que ce technicien ne fait pas ailleurs. Le coût qui n'apparaît pas dans le tableau de bord est le coût de la fatigue d'alarme : les opérateurs apprennent à ignorer certains types d'alarme parce qu'ils se résolvent si régulièrement d'eux-mêmes, ce qui signifie qu'ils ignorent aussi l'instance rare où ce type d'alarme comptait vraiment.

Trois défaillances structurelles représentent la majeure partie de la population de dépêches sans anomalie. Premièrement : les alarmes à lecture unique. Un capteur rapporte une valeur, la valeur dépasse un seuil, l'alarme se déclenche. Aucune deuxième lecture n'est requise pour confirmer. Si le capteur était momentanément défaillant, si la lecture était un artefact de numérisation, si la valeur a oscillé autour du seuil pendant trente secondes puis s'est stabilisée, le camion roule quand même. La plupart des systèmes RMS fournisseurs n'exigent pas de dérive soutenue avant de déclencher.

Un camion dépêché sur une alarme à lecture unique est un trajet de 4 heures pour examiner un capteur qui n'était pas tout à fait bloqué.

Deuxièmement : pas de corrélation avec la télémétrie adjacente. Une alarme de transfert genset à 02:17 devrait être évaluée par rapport à : l'alimentation réseau a-t-elle vraiment chuté, l'ATS a-t-il fonctionné, l'agrégateur BTS est-il resté opérationnel, un site adjacent sur la même boucle réseau a-t-il signalé le même événement. Si le réseau n'a pas chuté et que l'ATS n'a pas fonctionné, l'alarme de transfert est un événement de bruit capteur, pas un vrai transfert. La plupart des systèmes RMS fournisseurs n'ont pas accès à la télémétrie multi-sources nécessaire pour prendre cette décision.

Troisièmement : les limites du RMS fournisseur. La plupart des systèmes RMS fournisseurs sont optimisés pour signaler tout ce qui pourrait être un problème, sur le principe que le coût de rater une vraie panne est supérieur au coût d'une dépêche sans anomalie. Du point de vue de la responsabilité fournisseur, cela a du sens. Du point de vue de l'opérateur TowerCo, cela produit une file d'alarmes dominée par le bruit transitoire.

Le schéma qui distingue une vraie panne d'un transitoire est presque toujours une dérive soutenue sur plusieurs lectures consécutives. Une pression carburant qui dépasse le seuil sur un échantillon puis revient est du bruit capteur. Une pression carburant qui reste sous le seuil sur 12 échantillons consécutifs de 30 minutes est une vraie panne. La première ne devrait pas dépêcher un camion. La seconde si.

La corrélation avec la télémétrie adjacente ajoute un second filtre. Une alarme de transfert genset sans perte réseau correspondante est presque certainement un événement de bruit capteur. Une chute de pression carburant sur un genset dont le temps de fonctionnement depuis le dernier ravitaillement est inférieur à 30 % de la capacité du réservoir n'est presque certainement pas un vrai état de faible carburant. Les dépêches qui devraient avoir lieu deviennent plus faciles à identifier quand le bruit est filtré.

Il y a un problème cumulatif. Quand les opérateurs apprennent que 6 dépêches sur 10 ne trouveront rien, le service L1 commence à regrouper, différer et dégrader les alarmes de façon individuellement défendable mais cumulativement dangereuse. La rare alarme qui était un précurseur réel d'un incident majeur est mise de côté pendant trois heures parce que l'opérateur a été brûlé six fois cette semaine par des alarmes à lecture unique qui se sont résolues d'elles-mêmes.

La solution n'est pas « former les opérateurs à prendre chaque alarme plus au sérieux ». Les opérateurs font la bonne chose en fonction de la qualité d'alarme qu'on leur fournit. La solution est d'améliorer la qualité des alarmes — moins d'alarmes, plus significatives — pour que quand la file dit que quelque chose ne va pas, cela mérite un camion.

Une file d'alarmes de haute qualité a trois propriétés : chaque alarme représente une dérive soutenue, chaque alarme est corrélée avec la télémétrie adjacente qui soutient ou réfute l'hypothèse de panne, et chaque alarme porte une action suivante recommandée calibrée sur le niveau de confiance. Un P3 (« à intégrer dans la prochaine boucle de maintenance, pas de camion nécessaire ») est une classe d'alarme différente d'un P1 (« dépêcher dans les 2 heures, impactant les locataires si non traité »). Des alarmes correctement hiérarchisées produisent aussi de meilleures preuves — quand le L1 clôture un P3 en le différant, le report est journalisé. Quand la prochaine tournée de maintenance trouve la panne prédite et la corrige, la boucle fermée est visible pour le directeur des opérations.

Voyez-le en direct

Parcourez ceci
dans notre sandbox.

30 minutes. Nous amènerons l'opérateur qui a vécu ce scénario.