Por qué el 60 % de los desplazamientos de camión de torre no encuentran nada — y qué hacer al respecto
Alarmas de lectura única, sin correlación cruzada, limitaciones del RMS del proveedor. Los tres fallos estructurales detrás de los despachos sin fallo encontrado — y cómo la correlación adecuada de alarmas lo soluciona.
Pregúntele a cualquier director de operaciones de una TowerCo dónde encontraría más ahorros mañana, y una parte considerable nombrará lo mismo: despachos sin fallo encontrado. El camión parte, el técnico conduce, el sitio se despeja en veinte minutos sin que se reemplace nada, el ticket se cierra con disposición «no se pudo duplicar» o «transitorio resuelto». Las encuestas de operadores sitúan consistentemente esto por encima del 60 % de todos los desplazamientos de camión de torre.
El costo es sencillo de calcular: medio día de un técnico senior, combustible, desgaste del vehículo, la oportunidad perdida del trabajo que ese técnico no está haciendo en otro lugar. El costo que no aparece en la hoja de cálculo es el costo de fatiga de alarmas: los operadores aprenden a ignorar ciertos tipos de alarmas porque se resuelven tan habitualmente por sí solos, lo que significa que también ignoran el raro caso en que ese tipo de alarma realmente importaba.
Tres fallos estructurales explican la mayor parte de la población de despachos sin fallo encontrado. Primero: alarmas de lectura única. Un sensor reporta un valor, el valor cruza un umbral, la alarma se dispara. No se requiere una segunda lectura para confirmar. Si el sensor tuvo un fallo momentáneo, si la lectura fue un artefacto de digitalización, si el valor osciló alrededor del umbral durante treinta segundos y luego se estabilizó, el camión igual parte. La mayoría de los sistemas RMS de proveedores no requieren una deriva sostenida antes de disparar.
Un camión despachado por una alarma de lectura única es un viaje de 4 horas para mirar un sensor que no estaba del todo atascado.
Segundo: sin correlación con telemetría adyacente. Una alarma de transferencia del generador a las 02:17 debería evaluarse frente a: ¿cayó realmente la alimentación del suministro, ejerció el ATS, el agregador BTS se mantuvo activo, algún sitio adyacente en el mismo bucle del suministro reportó el mismo evento? Si el suministro no cayó y el ATS no ejerció, la alarma de transferencia es un evento de ruido del sensor, no una transferencia real. La mayoría de los sistemas RMS de proveedores no tienen acceso a la telemetría de fuentes cruzadas necesaria para hacer este juicio.
Tercero: limitaciones del RMS del proveedor. La mayoría de los sistemas RMS de proveedores están optimizados para marcar cualquier cosa que pueda ser un problema, bajo el principio de que el costo de perder un fallo real es mayor que el costo de un despacho sin fallo. Desde una perspectiva de responsabilidad del proveedor, esto tiene sentido. Desde la perspectiva de un operador TowerCo, produce una cola de alarmas dominada por ruido transitorio.
El patrón que distingue un fallo real de un transitorio es casi siempre una deriva sostenida a través de múltiples lecturas consecutivas. Una presión de combustible que cruza el umbral en una sola muestra y vuelve es ruido del sensor. Una presión de combustible que se mantiene por debajo del umbral en 12 muestras consecutivas de 30 minutos es un fallo real. La primera no debería despachar un camión. La segunda sí.
La correlación con telemetría adyacente añade un segundo filtro. Una alarma de transferencia del generador sin una pérdida de suministro correspondiente es casi con certeza un evento de ruido del sensor. Una caída de presión de combustible en un generador cuyo tiempo de funcionamiento desde el último reabastecimiento está por debajo del 30 % del depósito casi con certeza no es un estado real de bajo combustible. Los despachos que deberían ocurrir se vuelven más fáciles de ver cuando se filtra el ruido.
Hay un problema compuesto. Cuando los operadores aprenden que 6 de cada 10 despachos no encontrarán nada, el escritorio L1 empieza a agrupar, diferir y degradar alarmas de maneras que son individualmente defendibles pero acumulativamente peligrosas. La rara alarma que era un verdadero precursor de un incidente mayor se queda tres horas esperando porque el operador ha sido defraudado seis veces esta semana por alarmas de lectura única que se resolvieron solas.
La solución no es «entrenar a los operadores para que tomen cada alarma más en serio». Los operadores están haciendo lo correcto en relación con la calidad de alarmas que se les está entregando. La solución es elevar la calidad de las alarmas — menos alarmas, más significativas — para que cuando la cola diga que algo está mal, valga la pena enviar un camión.
Una cola de alarmas de alta calidad tiene tres propiedades: cada alarma representa una deriva sostenida, cada alarma está correlacionada de forma cruzada con telemetría adyacente que apoya o refuta la hipótesis de fallo, y cada alarma lleva una acción siguiente recomendada calibrada al nivel de confianza. Una P3 («incluir en el próximo bucle de mantenimiento, sin camión necesario») es una clase de alarma diferente de una P1 («despachar en 2 horas, con impacto en el inquilino si no se atiende»). Las alarmas correctamente escalonadas también producen mejor evidencia — cuando el L1 cierra una P3 difiriéndola, el aplazamiento queda registrado. Cuando la siguiente ronda de mantenimiento encuentra el fallo predicho y lo corrige, el ciclo cerrado es visible para el director de operaciones.
Recorra esto
en nuestro sandbox.
30 minutos. Traeremos al operador que vivió este escenario.