Operacje TowerCo

Dlaczego 60% wyjazdów serwisowych na wieże nie stwierdza usterki — i co z tym zrobić

Operacje TowerCo5 min czytania

Alarmy na podstawie pojedynczego odczytu, brak korelacji krzyżowej, ograniczenia RMS dostawcy. Trzy strukturalne awarie stojące za wysyłkami bez wykrycia usterki — i jak właściwa korelacja alarmów to naprawia.

Zapytaj dyrektora operacyjnego TowerCo, gdzie znajdzie największe oszczędności jutro, a znaczna część wskaże to samo: wysyłki bez wykrycia usterki. Ciężarówka wyjeżdża, technik jedzie, obiekt oczyszczany jest w dwadzieścia minut bez niczego wymienionego, zgłoszenie zamykane jest z dyspozycją "nie można odtworzyć" lub "przejściowe, rozwiązane". Badania operatorów konsekwentnie umieszczają to powyżej 60% wszystkich wyjazdów serwisowych na wieże.

Koszt jest prosty do obliczenia: pół dnia starszego technika, paliwo, zużycie pojazdu, utracona możliwość pracy, którą technik nie wykonuje gdzie indziej. Koszt, który nie pojawia się w arkuszu kalkulacyjnym, to koszt zmęczenia alarmami: operatorzy uczą się odrzucać pewne typy alarmów, ponieważ tak niezawodnie rozwiązują się same, co oznacza, że odrzucają też rzadki przypadek, kiedy ten typ alarmu naprawdę miał znaczenie.

Trzy strukturalne awarie odpowiadają za większość populacji wysyłek bez wykrycia usterki. Po pierwsze: alarmy na podstawie pojedynczego odczytu. Czujnik raportuje wartość, wartość przekracza próg, alarm uruchamia się. Żaden drugi odczyt nie jest wymagany do potwierdzenia. Jeśli czujnik był chwilowo wadliwy, jeśli odczyt był artefaktem digitalizacji, jeśli wartość oscylowała wokół progu przez trzydzieści sekund i potem ustabilizowała się, ciężarówka i tak wyjeżdża. Większość systemów RMS dostawców nie wymaga utrzymanego dryfowania przed uruchomieniem.

Wyjazd serwisowy uruchomiony na podstawie alarmu pojedynczego odczytu to 4-godzinna wyprawa do sprawdzenia czujnika, który nie był do końca zablokowany.

Po drugie: brak korelacji z sąsiednią telemetrią. Alarm transferu gensetu o 02:17 powinien być oceniany wobec: czy zasilanie sieciowe faktycznie spadło, czy ATS uruchomił się, czy agregator BTS pozostał aktywny, czy jakiś sąsiedni obiekt w tej samej pętli sieciowej zgłosił to samo zdarzenie. Jeśli zasilanie nie spadło i ATS się nie uruchomił, alarm transferu jest zdarzeniem szumowym czujnika, nie prawdziwym transferem. Większość systemów RMS dostawców nie ma dostępu do telemetrii krzyżowej potrzebnej do tego ustalenia.

Po trzecie: ograniczenia RMS dostawcy. Większość systemów RMS dostawców jest zoptymalizowanych do oznaczania wszystkiego, co może być problemem, na zasadzie, że koszt pominięcia prawdziwej usterki jest wyższy niż koszt wysyłki bez wykrycia usterki. Z perspektywy odpowiedzialności dostawcy ma to sens. Z perspektywy operatora TowerCo produkuje kolejkę alarmów zdominowaną przez szum przejściowy.

Wzorzec odróżniający prawdziwą usterkę od przejściowej jest prawie zawsze utrzymanym dryfowaniem przez wiele kolejnych odczytów. Ciśnienie paliwa, które przekracza próg przez jedną próbkę i wraca, to szum czujnika. Ciśnienie paliwa utrzymujące się poniżej progu przez 12 kolejnych próbek 30-minutowych to prawdziwa usterka. Pierwsze nie powinno wysyłać ciężarówki. Drugie powinno.

Korelacja z sąsiednią telemetrią dodaje drugi filtr. Alarm transferu gensetu bez odpowiadającej mu utraty zasilania jest prawie na pewno zdarzeniem szumowym czujnika. Spadek ciśnienia paliwa w gensecie, którego czas pracy od ostatniego tankowania jest poniżej 30% pojemności zbiornika, prawie na pewno nie jest prawdziwym stanem niskiego paliwa. Wysyłki, które powinny się odbyć, stają się łatwiejsze do dostrzeżenia gdy filtrowany jest szum.

Istnieje problem nawarstwiający się. Gdy operatorzy dowiadują się, że 6 na 10 wysyłek nic nie wyjaśni, biurko L1 zaczyna grupować, opóźniać i obniżać priorytety alarmów w sposób, który jest indywidualnie obronny, ale zbiorowo niebezpieczny. Rzadki alarm, który był prawdziwym prekursorem poważnego incydentu, jest ignorowany przez trzy godziny, ponieważ operator był parzoniony sześć razy w tym tygodniu przez alarmy pojedynczego odczytu, które rozwiązały się same.

Rozwiązaniem nie jest "szkolić operatorów, żeby brali każdy alarm poważnie." Operatorzy robią właściwą rzecz w stosunku do jakości alarmów, które im podano. Rozwiązaniem jest podniesienie jakości alarmów — mniej, bardziej znaczących alarmów — tak że gdy kolejka mówi, że coś jest nie tak, jest warto wyjechać.

Kolejka alarmów wysokiej jakości ma trzy właściwości: każdy alarm reprezentuje utrzymane dryfowanie, każdy alarm jest krzyżowo skorelowany z sąsiednią telemetrią, która albo potwierdza, albo obala hipotezę usterki, i każdy alarm niesie rekomendowane następne działanie skalibrowane do poziomu pewności. P3 ("wpleść w następną pętlę konserwacyjną, bez potrzeby wyjazdu") to inna klasa alarmu niż P1 ("wyślij w ciągu 2 godzin, wpływ na najemcę jeśli nierozwiązany"). Prawidłowo podzielone na poziomy alarmy produkują też lepsze dowody — gdy L1 zamknie P3 odraczając go, odroczenie jest rejestrowane. Gdy kolejny przegląd konserwacyjny znajdzie przewidzianą usterkę i ją naprawi, zamknięta pętla jest widoczna dla dyrektora operacyjnego.

Zobacz na żywo

Przejdź przez to
w naszej piaskownicy.

30 minut. Przyprowadzimy operatora, który przeżył ten scenariusz.