19
Vicepresidencia de Operaciones de la Red Ingeniería del Ingeniería del Análisis de Accidentes Análisis de Accidentes de Operación de Operación IESA Febrero 2012

Ingeniería del Análisis de Fallas --final iesa

  • View
    934

  • Download
    3

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Ingeniería del Análisis de Ingeniería del Análisis de Accidentes de OperaciónAccidentes de Operación

IESA

Febrero 2012

Page 2: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Un Accidente. La Tradición.

• Ocasión para decir no fué mi culpa.

• Culpar un inocente.

• Ocultar la gravedad del problema.

• Confundir las evidencias.

• Olvidar lo más rápido posible.

• Felicitar a los responsables.

• Resignarse

Page 3: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Disponibilidad en los Servicios Públicos

• Los Servicios Públicos son elemento fundamental de calidad de vida.

• Su interrupción puede afectar derechos elementales del ciudadano.

• Una de las componentes principales de la Pobreza es la no disponibilidad de servicios.

• El daño económico provocado, en la población. por la interrupción en la prestación de un servicio es varias veces superior al daño sobre la propia empresa.

• Los servicios públicos deben lograr niveles de alta disponibilidad.

Page 4: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

¿Qué significa Alta Disponibilidad?

Page 5: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Imperfección de las Personas y sus Obras.

• Las personas, maravilla de la creación, somos por naturaleza imperfectos.

• Cometemos errores, tenemos destrezas limitadas, nos fatigamos, sufrimos debilidades.

• Nuestras obras, maravillas de ciencia y tecnología, también están condenadas a fallar, averiarse, provocar accidentes.

• ¿Cómo entonces un sistema complejo de personas y máquinas puede ofrecer alta disponibilidad?

Page 6: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Operación de Redes

• El Objetivo principal de la Operación de una red de Servicio Público es prevenir la ocurrencia de Accidentes y reparar los daños causados por aquellos que ocurran.

• Para lograr Altos Niveles de Disponibilidad es indispensable desarrollar una Estrategia dirigida construir una condición de cero fallas.

Page 7: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Page 8: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Los Accidentes de Operación

• Son intrínsecos a la naturaleza del ambiente, las máquinas y de las personas.

• Tienen una Anatomía Común.• Tienen Causalidad Compleja.• La conjunción de muchos problemas menores,

pequeños errores y el deterioro de la disciplina han provocado los accidentes más terribles.

• Existe el Accidente del Fin del Mundo, pesadilla de los operadores experimentados.

Page 9: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Componentes Comunes en los Accidentes (Howlett 1996)

• Operaciones Nocturnas.• Impericia del Operador.• Fallas de Comunicación.• Inadecuados cambios de

turno.• Desconocimiento de

maquinaria.• Violación de procedimientos.• Fallas de monitoreo• Mantenimiento deficiente.• Falla en verificación

independiente de funciones críticas.

• Sentimiento de Invulnerabilidad

• Aceptación de Anormalidades• Ignorancia del significado de

las alarmas.• Capitulación frente a presiones

de producción.• Entrenamiento deficiente para

atender emergencias.• Deficiente organización de las

personas.• Liderazgo inadecuado.• Supervisión gerencial

deficiente.• Rompimiento del trabajo en

equipo.• Deterioro de los límites de

Operación Segura.

Page 10: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Mejores Prácticas Operativas

• Celebrar reuniones de inicio de tarea.

• Entender y cumplir los procedimientos.

• Monitorizar los parámetros críticos de operación.

• Verificación independiente de la culminación de tareas.

• Comunicación rutinaria de información crítica.

• Mantener registro histórico de la data operacional.

• Identificar, jerarquizar y corregir anomalías.

• Combatir las emergencias cuando ocurran.

• Supervisión de tareas de mantenimiento, mejora y ampliación.

• Aislamiento de fuentes de energía.

• Entrenamiento continuo en el trabajo.

• Realizar cambios de turno a prueba de error.

Page 11: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Comité de Análisis de Falla

• Es una mesa de trabajo con rutina semanal que tiene por misión documentar y analizar todo accidente operativo que provoque cualquier interrupción del servicio.

• Desarrolla la cultura de análisis científico de eventos.

• Construye Inteligencia en la Organización para reducir los accidentes y sus consecuencias.

• Participan las autoridades superiores de las unidades operativas.

Page 12: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Lecciones Aprendidas.

• Todo Accidente contiene tres dimensiones relativamente independientes:

• La Intensidad o severidad del accidente medida por la magnitud del daño provocado.

• La Duración corresponde al tiempo total consumido antes de la restitución total de los servicios.

• La Frecuencia o probabilidad de que el accidente ocurra de nuevo.

• Cada evento obliga a proponer soluciones para llevar a cero cada una de estas dimensiones.

Page 13: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

La Intensidad

• Cada sitio de la Red tiene distinta importancia de acuerdo al daño que provocaría su caída.

• Se Jerarquizan los sitios de acuerdo a su importancia.• Se adoptan políticas de redundancia funcional y

geográfica para los accidentes de mayor gravedad.• En transmisión los sitios de alta jerarquía se integran en

anillos.• Se adoptan procedimientos que asignan mayores

recursos conforme a la jerarquía y prelación en caso de accidentes simultáneos.

• Se definen procedimientos de escalado en notificación y alerta conforme a la jerarquía.

Page 14: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Jerarquia de Sitios

Page 15: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Jerarquía de Sitios (log T)

Page 16: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

VAL

MSCHLR

MGWMSS

MGWSTP

BSC

Acceso Valencia

BTSBTS

BTS

BTS

BTS BTS

GGSN HLR

USBCBN

MSC1MSC3

STP

BSC

Acceso Carcacas

BTSBTS

BTS

BTS

BTS BTS

MGW

MGW

Data Service PlatformBilling Center

SMC/VMS

SGSN MSC2MSC4

Red Básica Capital - ValenciaRed Básica Capital - Valencia

Page 17: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Duración

• La duración total incluye:• Tiempo de alerta.• Tiempo de diagnóstico.• Posible intervención remota.• Tiempo de Traslado.• Ubicación de equipos de guardia.• Disponibilidad de partes y repuestos.• Tiempo de reparación.• Tiempo de restitución.

Page 18: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Frecuencia

• Se refiere a la probabilidad que un accidente similar ocurra en un futuro se pretende reducirla a cero.

• Investigación de causas que disparan el accidente para atacarlas de raíz.

• Determinación de fallas de origen en partes y componentes para involucrar al fabricante.

• Politicas de mantenimiento y sustitución de partes.• Políticas de respaldo de energía.• Identificación de malas prácticas de instalación.• Procedimientos de PDT y roll-back

Page 19: Ingeniería del Análisis de Fallas --final iesa

Vicepresidencia de Operaciones de la Red

Otras Lecciones

• Las fallas neo natales han aconsejado incluir períodos de prueba en frío y contratación de babysitters durante procesos de implantación de nuevos componentes y sistemas.

• Hemos corregidos las leyendas de descargas eléctricas y lluvias.

• La vulnerabilidad de los sistemas de AA en ambiente de interrupciones frecuentes y severas de AC aconsejan instalaciones del tipo Outdoor siempre que sea posible.

• Frecuentes averías provocadas por trabajos mejora o ampliación han obligado a modificar procedimientos de PDT.