Tolerancia de Fallas

Embed Size (px)

Citation preview

  • 7/28/2019 Tolerancia de Fallas

    1/20

    Universidad Central de VenezuelaFacultad de Ciencias

    Escuela de Computacin

    Las Redes y su Tolerancia a Fallas

    Dr. Eddy Carrasco, Lic. Rogert Guevara

    Diciembre 2001

  • 7/28/2019 Tolerancia de Fallas

    2/20

    Las Redes y su Tolerancia a Fallas

    INTRODUCCION

    Si Ud. va en su vehculo por una autopista y repentinamente siente queuna llanta se ha daado, lo primero que hace es ir a buscar la llanta de repuestoen la maleta de su vehculo, de encontrarla en buen estado, simplemente

    sustituye y continua con su viaje, pero que ocurre si no tiene, simplemente sequeda accidentado hasta que alguien acuda ayudarlo.

    En el mundo de las redes corporativas de datos ocurren hechos similares,suceden fallas en muchos de sus componentes de Hardware o de Software, y sino estamos preparados, nos quedamos sin servicio por un tiempoindeterminado.

    Tolerancia a Fallas (TF) en una red significa que si ocurre una falla en unode sus componentes, esta continuar funcionando, y se logra aplicando unconjunto de recomendaciones que se explicarn posteriormente y deben ser

    aplicados a cada uno de los componentes de la red.

    Las redes son Flexibles a Fallas, cuando al ocurrir alguna, esta deja defuncionar, pero al sustituir el componente afectado se restaura el servicio en uncorto tiempo.

    Es bueno aclarar tambin que el hecho de seleccionar un componentecon ciertas caractersticas de Tolerancia a Fallas (eje. Un Servidor), muchoscreen que ya la Red es Tolerante a Fallas, esto no es as, y es el objeto de esteartculo, establecer criterios y explicar a los diseadores de redes como debenser aplicados para disponer de un sistema Tolerante a Fallas.

    RECOMENDACIONES GENERALES PARA EL DISEO DE REDES

    CORPORATIVAS DE DATOS TOLERANTES A FALLAS.

    Para el diseo de una Red TF recomendamos cuatro pasos:

    Determinar la Ubicacin Geogrfica.

    Seleccionar el Medio de Transmisin.

    Determinar la Topologa de la Red. Aplicar recomendaciones de TF a cada uno de los componentes de

    la Red.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 2

  • 7/28/2019 Tolerancia de Fallas

    3/20

    Las Redes y su Tolerancia a Fallas

    APLICAR RECOMENDACIONES DE TF A CADA UNO DE LOSCOMPONENTES DE LA RED

    Los principios que guan el diseo de redes tolerantes a fallas sonsimples.

    Disear e implantar todos los componentes ms importantes de la reden una forma totalmente redundante con la capacidad de continuarfuncionando si un evento de falla se produce.

    Use componentes flexibles a fallas para minimizar componentes quefallen.

    Distribuya los nodos de la red en una topologa matricial, conrecuperacin robusta. Esto es que no haya dependencia sobre un solopunto de enlace omitido. No est sujeto a fallas nicas de enlaces.

    Insistir sobre los estndares de la Industria para todos loscomponentes, de manera de asegurar proteccin a la inversin y lainteroperabilidad.

    Documente todos los componentes, as ellos podrn seradministrados.

    Establezca una buena Organizacin de Servicios en Tecnologa de laInformacin.

    Establezca esquemas de Monitoreo y Administracin pro activa de lared.

    Disear relacionando Costos vs. Importancia de los Servicios para la

    Organizacin.

    ANALISIS DE LOS COMPONENTES DE UNA RED TOLERANTE A

    FALLAS.

    Workstation (WS) TF.

    Si no se aplica un control riguroso a las WS, el nmero de estas, confallas en los servicios se incrementar. Se recomienda llevar estadsticas desde

    el punto de vista de usuarios, como: Tiempos de respuesta, reinicio de carga delsistema, errores de lnea, errores de protocolos, etc.

    Beneficio del Control de las WS.

    Muchas fallas de las WS estn relacionadas con el Software que seinstala en ellas o en la red. Sobre todo debe evaluarse y medir el impacto del

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 3

  • 7/28/2019 Tolerancia de Fallas

    4/20

    Las Redes y su Tolerancia a Fallas

    software antes de permitir su uso en la red. Por eso se deben certificar losprocesos y evaluarlos antes de implantarlos.

    Medidas preventivas para las WS

    Se pueden tomar medidas que permitan evitar que ocurran interrupcionesen los servicios de las WS, esto es proveer los mismos niveles de redundanciade los componentes crticos como los servidores. Estos niveles de redundanciade los componentes de hardware internos de las WS pueden ser muy costosospara instalarlos y mantenerlos, pero si las WS y el usuario son de altaimportancia y manejan procesos crticos de la empresa, no hay dudas enconsiderarlos y realizarlos.

    Recomendaciones:

    Debe disponer de UPS para todas las WS que considere crticas para laorganizacin. Instale doble tarjeta de interfaz a la red en cada una de las WS y

    conectarlas en segmentos separados de la red. No se debe desestimar lo obvio, un ratn o un teclado se pueden daar

    y generar inconvenientes innecesarios. Se debe tener un Kit decomponentes de las WS.

    No se debe utilizar el disquete como medio de respaldo, hay queemplear esquemas reales de respaldo. Realice el respaldo y verifquelo.Certifique estos respaldos. Analice los Logs con los resultados de losrespaldos.

    Se deben establecer normas para que los usuarios conozcan bien susresponsabilidades, esto incluye modificar el sistema operativo de lasWS para que el usuario no pueda introducir software no certificado yque no guarde su data bajo esquemas de Respaldo no establecidos.

    Figura Nro. 1.Recomendaciones para WS crticas.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 4

    Segmento 1 Segmento 2

    UPS

    Tape Backup

  • 7/28/2019 Tolerancia de Fallas

    5/20

    Las Redes y su Tolerancia a Fallas

    Cableado Tolerante a Fallas.

    El cableado de una red es el componente inicial que se instala y

    representa el medio fundamental de comunicacin. Muchas veces estecomponente no es considerado importante, pero un mal cableado tiene unimpacto negativo en los tiempos de respuesta y en el rendimiento total de la red.

    Para aplicar Tolerancia a Fallas a los componentes del cableado sedeben tomar en cuenta o considerar las siguientes recomendaciones:

    o Exija a los proveedores 15 aos de garanta para lasinstalaciones que realicen. Esto es que sus cables, conectores ypaneles cumplan con los estndares de la industria.

    o Se debe certificar el cableado, esta es la partida de

    nacimiento de la red.o Evite utilizar cables coaxiales en lo posible, hay que emplear

    estndares, usar par trenzado de Categora 5 o superior, para voz ydata.

    o Hay que utilizar ms cable del que se necesita, para prever elmovimiento de alguna WS en el rea de trabajo.

    o Se debe colocar ms puntos de los requeridos, comorecomendacin un 10% ms.

    o Mantenga la norma, mover personas y sus equipos y no elcableado de la red.

    o Se recomienda tener dos segmentos por piso y distribuir las

    estaciones de trabajo por segmento, sin embargo bajo el concepto deTolerancia a Fallas deben estar todas las estaciones conectadas aambos segmentos.

    o Se debe etiquetar cada uno de los cables, tanto en lasestaciones de trabajo como en los paneles de control.

    o Se debe tener una lista de todos los puntos que estnconectados a cada uno de los segmentos de la red.

    o Utilizar aplicaciones que manejen Bases de Datos y manteneractualizada la informacin.

    o Si tiene ms de un cuarto de cableado emplee fibra para laconexin de estos (segmentos).

    o Insista en las realizaciones de las certificaciones pasivas yactivas de todo el cableado instalado.

    o Informar a otros donde est ubicado el departamento decableado, como al departamento de electricidad y todos losprocedimientos que se deben seguir al respecto.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 5

  • 7/28/2019 Tolerancia de Fallas

    6/20

    Las Redes y su Tolerancia a Fallas

    Figura Nro. 2.Cableado Estructurado y sus componentes.

    Concentradores (Hubs) o Switches Tolerantes a Fallas

    Los Concentradores o Switches son elementos activos fundamentalespara asegurar una red Tolerante a Fallas, estos previenen los impactos a la red,debido a errores producidos por otros dispositivos y es considerado la primeralnea de defensa de la red. Todos los Concentradores o Switches deben seradministrables e idealmente soportar Administracin Remota (RMON) y serflexibles a fallas [Wals96]. Ser administrables significa que cada uno de suspuertos puede ser configurado, monitoreado, habilitado o deshabilitado por unadministrador de la red, desde una aplicacin de administracin deConcentradores o Switches [Delm99].

    Hay tres maneras de minimizar la falla de un Concentrador o Switche, lascuales son:

    Asignar a cada estacin de trabajo (WS) dos tarjetas decomunicacin. Estas se deben conectar a segmentos diferentes y estoshay que conectarlos a Concentradores o Switches diferentes.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 6

  • 7/28/2019 Tolerancia de Fallas

    7/20

    Las Redes y su Tolerancia a Fallas

    Seleccionar aquellos Concentradores o Switches con unnmero de puertos que puedan cubrir el nmero de conexiones de otroConcentrador o Switche. Un ejemplo es seleccionar dosConcentradores o Switches de 32 puertos cada uno, pero solo sedeben utilizar 16 puertos en cada uno, en caso de falla de alguno, el

    otro puede cubrir las 16 conexiones del otro, evitando dejar sin servicioa los usuarios. Distribuir a los usuarios de un departamento a travs de

    varios Concentradores o Switches.

    Figura Nro. 3.Conexin de WS a segmentos separados y Concentradores o Switches diferentes.

    Recomendaciones:

    Adquirir Concentradores Switches que sean administrables yque soporten RMON.

    Realizar Inventario de los Concentradores o Switches. Mantener bajo el nmero de conexiones por Concentrador o

    Switches. Esto minimizar el impacto en caso que un Concentrador oSwitch falle.

    Asignar un UPS al Concentrador o Switch central, mejor si es

    redundante. Configurar enlaces de fibras redundantes, tales como FDDI,

    entre el Concentrador o Switch central y los que se encuentran en loscuartos de cableados.

    En las pruebas de los Concentradores o Switches exija que seincluya el Patch Panel.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 7

    Workstation-1

    Workstation-2LAN Link-1

    Hub-1

    LAN Link-2

    Hub-2

  • 7/28/2019 Tolerancia de Fallas

    8/20

    Las Redes y su Tolerancia a Fallas

    Documentar las conexiones entre el Patch Panel y los puertosdel Concentrador o Switch y apoyarse en Bases de Datos que puedanayudar a dar un soporte remoto.

    Incluir entre sus costos, adquirir aplicaciones que permitanmonitorear los Concentradores o Switches.

    Enrutadores (Routers) Tolerantes a Fallas.

    Los enrutadores (Routers) significan protocolos y los protocolos necesitanestabilidad para tener xito. Antes de seleccionar un enrutador primero hay queseleccionar el protocolo que se emplear en la red. Es imposible que una redsoporte todos los protocolos que existan en la actualidad. Los protocolos tienendiferentes niveles de flexibilidad [Wals96].

    Hay que establecer una meta para las redes tolerantes a fallas, y esta eseliminar todos los protocolos que no tengan soporte tcnico y seleccionar

    aquellos protocolos que sean uniformes para la red local y el Backbone.

    Deben tenerse presente las siguientes recomendaciones:

    o Realizar inventarios de los enrutadores.o Usar un subconjunto limitado de tarjetas y facilidades.o Cuando se haga una actualizacin, se debe hacer sobre todos

    los enrutadores y se debe asegurar que haya soporte para ellos.o Considerar los aspectos de resistentes a fallas, cuando se

    seleccione un enrutador.o Seleccionar aquellos enrutadores que permitan hacer cambios

    mayores en su configuracin con Software en lnea y el cambio deHardware en caliente, sin requerir estar fuera de servicio. Esto incluyecambios en la configuracin del Software, agregando nuevas redes LANy puertos seriales, cambios en caliente de tarjetas y fuentes de poder.

    o Seleccionar aquellos enrutadores que tengan BackplanePasivo y fuentes de poder dual. Las fuentes de poder dual pueden serusadas cada una como soporte de entrada independiente. UnBackplane Pasivo permite que si una falla ocurre en una tarjeta, esta sepueda cambiar sin inconvenientes.

    o El enrutador debe estar configurado para que en caso de fallatenga la capacidad de un Arranque automtico y rpido. El enrutadorleer en lnea velozmente y deber soportar una jerarqua inteligente decaminos de Arranque. La informacin del Arranque es guardada envarias localizaciones en la red, localmente en memoria flash, sobre unservidor local, o sobre uno o ms servidores distantes. El enrutadorseleccionar el Arranque de las alternativas en la jerarqua si uno hafallado.

    o Para la conexin de los enrutadores se pueden teneralternativas. Si cada WS tiene dos segmentos al cual conectarse,

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 8

  • 7/28/2019 Tolerancia de Fallas

    9/20

    Las Redes y su Tolerancia a Fallas

    asegrese que cada uno de esos segmentos se conecta a un enrutadordiferente. Una alternativa ms robusta es posible, un segundo enrutadorpor segmento, permitir que si uno falle el otro se active y tome lasactividades del primero. Debemos tener un segundo camino dentro delBackbone, la conectividad no debe ser afectada.

    o

    El correcto uso de las estadsticas que pueda proporcionar elmonitoreo de los enrutadores, pueden permitir balancear la carga enellos.

    Figura Nro. 4.Enrutadores y Protocolos

    Backbones Tolerantes a Fallas.

    Si se desea lograr una red Tolerante a Fallas se necesita asegurar unBackbone sano, estos deben ser confiables y con capacidad de auto repararse.Los factores que se deben considerar en el diseo de un Backbone local sanoson: aislamiento, rutas alternas, y medios robustos (capacidad de autodiagnosticarse y de administrarse) [Wals96].

    Aislamiento del medio, significa dedicar un segmento de la red LANexclusivamente para comunicar los enrutadores. Solamente enrutadores oSwitches pueden participar en este enlace. Los medios de segmentos deusuarios finales, servidores y Gateways deben ser excluidos. El Backbone locales la ltima lnea de defensa. Se debe defender de dispositivos y protocolosproblemticos.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 9

  • 7/28/2019 Tolerancia de Fallas

    10/20

    Las Redes y su Tolerancia a Fallas

    Figura Nro. 8.Backbone Tolerante a Fallas.

    El Backbone local debe tener rutas alternas, como mnimo dos enlaces.Por ejemplo el Backbone local primario puede ser un FDDI, mientras que una

    Ethernet o un Token Ring puede ser la alternativa. Si uno de los enlaces falla laalternativa provee un respaldo. Los FDDI son soluciones para backboneslocales. Cada FDDI es actualmente un doble anillo. An con enlaces robustosentre los enrutadores, un segundo respaldo es aconsejable.

    Enlaces Tolerantes a Fallas en redes de rea amplia (WAN).

    La WAN es el lado exterior de la red y forma el Backbone de laorganizacin. Se pueden aplicar los mismos principios que se recomendaronpara el Backbone local. Esto es despliegue correcto de tablas de rutas (mediosrobustos), aislamiento del trfico, filtro a los paquetes no deseados y rutas

    alternas. Si un enlace es importante se debe crear un camino de respaldo. Sepuede modelar el problema usando circuitos paralelos redundantes entre nodosimportantes.

    Se deben usar caminos alternos para llegar a la WAN. Estas sonpreguntas que se deben formular a los Portadores:

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 10

  • 7/28/2019 Tolerancia de Fallas

    11/20

    Las Redes y su Tolerancia a Fallas

    Soporta y certifican los dispositivos que se desean conectara la red del Portador?.

    Como es la recuperacin de los Portadores, cuando hayainterrupcin del servicio por parte de ellos?. Como se restablecer lared.Que tipo de rutas usan?.

    Que facilidades comparten o prestan a otros Portadores?.Asegrese que el Portador Local (LEC) y el Portador Internacional (IEC)

    estn coordinados para recuperar la red ante cualquier evento de falla.

    Figura Nro. 10.Ejemplo de una WAN.

    Servidores Tolerantes a Fallas.

    El primer paso para lograr obtener servidores tolerantes a fallas es hacerque estos servidores sean flexibles a fallas. Algunos proveedores vendenservidores flexibles a fallas con niveles bsicos de tolerancia a fallas, tales comomemoria ECC, Discos Duros tipo arreglos RAID y mltiples tarjetas decomunicaciones (NIC). Muchos de los proveedores poseen algn tipo deservidor flexible a fallas, sin embargo muy pocos son los que pueden garantizarque no haya falla en alguno de sus componentes.

    Caractersticas de un Servidor flexible a fallas con niveles bsicos deTolerancia a Fallas [Coll97]:

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 11

  • 7/28/2019 Tolerancia de Fallas

    12/20

    Las Redes y su Tolerancia a Fallas

    Arquitectura Backplane Pasivo.

    En la arquitectura estndar de un Servidor, el Backplane essimplemente el medio que permite que se comuniquen entre si losdiferentes componentes de hardware internos del servidor.

    El Backplane es conocido como la tarjeta madre, estecomponente contiene circuitos electrnicos como el CPU, la memoria,los slots de expansin y otros componentes. La tarjeta madregeneralmente tiene limitaciones de slots para su expansin, lo comnes que tenga seis (6) o menos.

    Los sistemas de Backplane pasivo remueven todos loscircuitos electrnicos de estado slido que residen sobre la tarjetamadre, permitiendo ms slots de expansin (generalmente ms de 20),esto hace al Backplane ms flexible a la falla, pues de ocurrir una esms fcil identificarla y sustituir el componente de hardware daado.

    Redundancia y Cambio en Caliente.

    La energa es la vida de un Servidor, la energa de altacalidad, sin interrupcin es un requerimiento absoluto para sistemas dealta disponibilidad. Por esta razn, realizar inversiones en UPS(uninterruptible power supplies), redundancia de componentes internosde hardware y cambios en calientes estn justificados. Cambios enCaliente (Hot-swappable) significa que los componentes de hardwareson diseados para ser reemplazados sin interrumpir o desactivar elservicio del sistema.

    La Tolerancia a fallas es lograda en muchos casos por la construccin deredundancia en los componentes de hardware en los servidores, pero esto no essuficiente. Es importante definir estrategias de respaldos para los componentesde hardware crticos en el servidor. En especial a los componentes que tienenmecanismos mviles, estos tienen alta probabilidad de fallar.

    Otros aspectos que contribuyen a tener un servidor tolerante a fallas son:

    Hardware que tenga sistemas de apagado,encendido y reinicio (Reboot) de modo remoto, para que losadministradores de la red puedan darle soporte.

    Sistemas Operativos que permitan realizarcambios en su configuracin y en la de programas de controlde dispositivos sin necesidad de realizar un reinicio de cargadel sistema operativo.

    Una interfaz al UPS para un fcil apagado delequipo (Shutdown) en el evento de que el UPS se quede sinbatera.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 12

  • 7/28/2019 Tolerancia de Fallas

    13/20

    Las Redes y su Tolerancia a Fallas

    Cambios en caliente de tarjetas controladorasde discos duros tipo arreglos RAID y de otros componentesde hardware.

    Respaldos y Restauraciones activas. Elsistema se podr usar durante estos procesos.

    Debe permitir administracin remota deeventos.

    Procedimientos que permitan actuar ante elevento de una falla para restaurar el estado de tolerancia afalla en un servidor.

    Modelos de Servidores Tolerantes a Fallas.

    Hay dos modelos de servidores Tolerantes a Fallas, el de perdida dedatos y el de perdida de tiempo [Wals96].

    El servidor de perdida de datos lo que hace es prevenir la perdida del datoal registrarlo de manera simultnea en varios medios de almacenamiento, paraesto se usan discos duros tipos espejo o tipos RAID. Bajo el concepto deredundancia hay que asegurar que el acceso al dispositivo sea a travs de dosadaptadores SCSI. Si tiene un Servidor con disco tolerante a fallas RAID, eltener una tarjeta de control SCSI no es de gran utilidad ya que, s esta falla nopodr evitar paralizar el servicio.

    Si un servidor falla por algn evento, la data puede ser salvada bajo lospreceptos anteriores, pero puede ese servidor reiniciar sus actividades en

    tiempos adecuados. Hay que evaluar para observar el tiempo que toma cargar einiciar un servidor. El iniciar un servidor siempre toma tiempo, ms an cuandohay discos extras, unidades de respaldo en cinta u otros dispositivos y esto nose resuelve con adicionar ms memoria. Se debe hacer un diseo derecuperacin (reinicio) del servidor en el menor tiempo posible. Mida el tiempoque toma una restauracin total de las actividades del servidor. En caso de quese disponga del tiempo para iniciar un servidor que ha fallado en sufuncionamiento, sin crear contratiempos, es una buena alternativa.

    Si no se dispone del tiempo para reiniciar un servidor, hay dos alternativaspara el arranque en caliente: aplicaciones basadas en redundancia y cambios de

    perifricos.

    Aplicaciones basadas en redundancia se refieren a diseos de rutinas enlas aplicaciones que mantienen la integridad del dato, tales como dos fases decommit (culminar exitosamente) o varios procesos de replicacin de datos.Manejadores de bases de Datos que soporten dos fases de commit, son msrobustos para recuperar y asegurar contra perdida de datos.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 13

  • 7/28/2019 Tolerancia de Fallas

    14/20

    Las Redes y su Tolerancia a Fallas

    Conmutar perifricos es usar un conmutador inteligente sobre el SCSIentre el servidor y el dispositivo de RAID. Un ejemplo de conmutacin deperifricos es: Dos dispositivos RAID son conectados a un conmutadorcompartido por dos servidores. Un servidor es primario, el otro es un respaldoactivo. Cada servidor posee uno de los dispositivos RAID. En el servidor

    standby, una aplicacin background se ejecuta peridicamente monitoreando alprimario con pequeas lecturas al disco para asegurar la operacin. Si la pruebafalla, espera un perodo configurable para reiniciar. Ante una segunda fallanotifica al conmutador para mover la falla del dispositivo RAID al secundario. Elsecundario monta el volumen e inicia las aplicaciones apropiadas.

    Discos redundantes con Cambios en Caliente

    Los discos son componentes crticos del Servidor, son de naturalezamecnica, tienen movimiento, por lo tanto estn propensos a fallar. Hay unavariedad de Discos Redundantes y mtodos de proteccin de fallas, disponibles

    en los diseos de los Servidores. Hay un rango desde discos espejos hastaarreglos de discos que proveen total tolerancia a falla. El ms popular de losarreglos de discos es llamado el RAID (Redundant Array Independent Disk). Fuedesarrollado con dos objetivos: Tolerancia a fallas y capacidad y rendimiento(performance). El sistema RAID incrementa la velocidad de lectura y escritura dela data, ofrece ms proteccin a la data que los sistemas de discos que no sonRAID. Sin embargo administrarlos y distribuir la data sobre estos discos puedeser complejo [Vogo99].

    Hay varias configuraciones de RAID, denotadas por nmeros, abarcandoun espectro de velocidad, flexibilidad y costos [Wong00]:

    Otras consideraciones para Servidores Tolerantes a Fallas.

    Ventilacin apropiada y aire acondicionado redundante.

    Adems de las fallas de los componentes de hardware y lasinterrupciones de energa, el polvo y el calor son dos grandes enemigos de loscomponentes de un servidor. El sistema de ventilacin de un servidor Tolerantea Fallas debe tener redundantes ventiladores (al menos tres) que puedan enfriarcontinuamente. De igual manera en el rea donde tiene ubicado el servidor debe

    haber sistemas duales de aire acondicionado o dos aires independientes que encaso de falla se activa el de respaldo.

    Excelente soporte tcnico y de mantenimiento.

    Es importante obtener hardware de proveedores reconocidos, que dengaranta y soporte tcnico en sitio, con visita el mismo da o en las prximas 24

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 14

  • 7/28/2019 Tolerancia de Fallas

    15/20

    Las Redes y su Tolerancia a Fallas

    horas. Otra rea crtica para el servidor es la rutina de mantenimiento delsistema, esto es mantenimiento preventivo del disco de fragmentacin, etc.

    Fcil acceso a los componentes interno.

    Al ver el chasis de un servidor, se observa que su construccin es rgida yno es flexible. En un chasis flexible los componentes de hardware internospueden sacarse y ajustarse con facilidad, debe ser fcil abrir y remover, sinestorbar a las tarjetas que estn en el Backplane. La fuente de poder y elcontrolador del disco deben ser accesibles sin abrir l case.

    Capacidad de Expansin.

    Para un servidor que tenga Backplane pasivo el nmero de Slots es muyimportante, normalmente son diseados para soportar sobre 20 tarjetas. Aladquirir un servidor observe que el chasis soporte cuatro o ms tarjetascontroladoras de discos, dos o ms ventiladores y dos o ms fuentes de poder.

    Sistema de monitoreo propio.

    De nada sirve tener un servidor con cambios en caliente y componentesredundantes, si no hay manera de saber si uno de esos componentes ha fallado.Los servidores Tolerantes a Fallas deben tener un sistema de monitoreo propiopara notificar al administrador de la red (idealmente al sistema operativo) de lafalla de un componente. Si una falla es detectada y reportada, inmediatamenteun plan de contingencia debe ser ejecutado para reparar la falla con un mnimoimpacto sobre la disponibilidad del sistema.

    Kits de reserva para componentes importantes de hardware.

    Para esos componentes de cambios en caliente, como los otroscomponentes del sistema, se debe mantener componentes de reemplazos, parahacer reparaciones rpidas. Un tpico Kit de respaldo debe incluir:

    Unidad de Disco. Una fuente de Poder. Un ventilador. Una tarjeta de comunicaciones telefnica.

    Una tarjeta de red. Chips de memoria. Tarjeta de Vdeo. Otros que sean relevantes al servicio.

    Finalmente bajo la estrategia de redundancia en el cableado, enconcentradores, Switches y en enrutadores no se debe olvidar las siguientesrecomendaciones:

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 15

  • 7/28/2019 Tolerancia de Fallas

    16/20

    Las Redes y su Tolerancia a Fallas

    Todo servidor debe tener mnimo dos tarjetas NIC. Esas interfaces deben conectarse a segmentos diferentes de

    LAN. Cada uno de estos segmentos se conectar a interfaces

    separadas en diferentes enrutadores.

    Sistemas Operativos de red (NOS) Tolerantes a Fallas.

    Los Sistemas Operativos de Redes (NOS) Flexibles y Tolerantes a Fallas,deben asegurar alta disponibilidad de la informacin y de los servicios quepresta, de tres maneras [Micr99]:

    Manejo uniforme del Hardware y del Software por Sistemasde manejo de Fallas.

    Proteccin a los programas de los usuarios, entre ellosmismos y el sistema operativo.

    Proveer mecanismos de recuperacin de datos.

    Estos NOS deben ser fciles de operar, seguros, mantenibles, fciles deadministrar, con interfaces amigables y herramientas para diagnosticar loscomponentes del servidor. Deben permitir mltiples thread (Unidad despachablede trabajo [Stal01] ) para procesar, lo cual incrementa la eficiencia y laflexibilidad [Micr99].

    Caractersticas:

    Sub-sistema de proteccin y manejo deerrores. Sistema de recuperacin de archivos. Reinicio Automtico. Soporte de unidades de respaldo en cintas. Soporte de UPS. Soporte de Discos Espejos. Soporte de Discos Dplex. Soporte de Discos con Franja (RAID 5).

    Sub-Sistema de Proteccin y manejo de Errores.

    Las aplicaciones de software no siempre operan como se espera, estaspueden fallar. Un NOS debe estar diseado para tolerar esas fallas y asegurarque estas no afecten otros componentes del Sistema Operativo. Para un NOS laprimera lnea de defensa es el software de manejo de error de excepcin.Cuando un evento anormal ocurre, el evento es capturado y el procesador o elsistema operativo manejan la excepcin. Este diseo asegura que errores

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 16

  • 7/28/2019 Tolerancia de Fallas

    17/20

    Las Redes y su Tolerancia a Fallas

    detectados no se les permita influir en el sistema o en los programas de losusuarios.

    Los subsistemas de proteccin, asignan localizaciones nicas de memoriaa los diferentes procesos y aplicaciones, separando as a los programas. De esta

    manera el NOS asegura que si un programa falla no afectar al ncleo delsistema, evitando el colapso del sistema. Tambin se evita de esta forma quecuando un programa falle no afecte a otros que estn ejecutndose sobre elsistema.

    Reinicio Automtico.

    La combinacin del manejo de errores de excepcin y el subsistema deproteccin hace que una falla en el NOS sea extremadamente rara. Sin embargoel NOS debe incluir un reinicio automtico. En el evento de una falla el sistemapuede ser configurado para un reinicio automtico. Esta mejora debe proveer un

    mximo de tiempo para estar disponible. El NOS debe guardar el contenido de lamemoria antes del reinicio en un archivo en disco (log), para su posterior anlisispor parte del administrador, para determinar la causa de la falla.

    Sistema de Recuperacin de Archivos.

    El NOS debe manejar las fallas de Hardware tales como las de discos ylas relacionadas. Debe haber archivos Log en el cual se registren cada una delas operaciones de entrada y salida de una transaccin. Cuando un usuarioactualiza un archivo, el servicio de Log, guarda lo anterior y posterior de la

    informacin para esa transaccin. Rehacer (Redo) es la informacin de cmo serepetir la transaccin. Deshacer (Undo) es como hacer RollBack a latransaccin. Si la transaccin es completada, el archivo actualizado es commit(la transaccin culmin exitosamente). Si la transaccin es incompleta, se haceun RollBack de la transaccin por la informacin del Deshacer (Undo). Si sedetecta un error en la transaccin esta tambin es RollBack [Date90].

    Deben manejar el Hot-Fixing. Si un error ocurre en un sector, el serviciodebe mover la informacin a un sector diferente y marcar el sector original comodaado. Este proceso es completado de manera transparente para la aplicacinevitando mensajes como Abort, Retry, o Fail.

    Soporte de Respaldo en Cinta.

    Respaldos en cintas es un modo importante de la disponibilidad de ladata. Es recomendable que el NOS disponga de herramientas para esteproceso, si son grficas mucho mejor. Este respaldo debe permitir:

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 17

  • 7/28/2019 Tolerancia de Fallas

    18/20

    Las Redes y su Tolerancia a Fallas

    Respaldar y Restaurar archivos locales y remotos. Respaldar y Restaurar por volumen, directorios o archivos

    individuales, visualizando informacin como el detalle, largo, fecha demodificacin, etc.

    Tipos de respaldos, normal, copia, incremental, diferencial y

    programados. Crear procesos para automatizar respaldos repetitivos, esto

    es programar los respaldos. Control del destino de la restauracin. Pasos de verificacin para asegurar respaldos y

    restauraciones. Administracin remota de respaldos y dispositivos de respaldo

    en clientes.

    UPS (uninterruptible Power Supply).

    El UPS es una batera conectada a un computador que suple energapara mantener funcionando el sistema en caso de falla de la energa normal. ElNOS debe tener un servicio que permita avisar a los usuarios cuando hay fallade energa y debe manejar un apagado automtico del equipo cuando el nivel debatera del UPS este muy baja y cerca de terminar.

    El NOS debe permitir:

    Seleccionar el puerto serial donde el UPS estaconectado.

    Chequea si el Dispositivo del UPS enva unaseal s la energa regular falla.

    Chequea si el Dispositivo del UPS enva unaseal de alarma cuando el nivel de batera es bajo.

    Chequea que el servicio de UPS enve unaseal al dispositivo del UPS para apagarlo.

    Tiene un archivo de comandos que alejecutarse hacen un Apagado del equipo en un tiempodeterminado.

    Notifica al usuario el tiempo de vida esperada y

    de carga de una batera. Selecciona el tiempo para mensajes de alertas.

    Discos RAID.

    Los sistemas de Discos tolerantes a fallas son estandarizados ycategorizados en seis niveles, conocidos como Arreglos Redundantes de Discos

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 18

  • 7/28/2019 Tolerancia de Fallas

    19/20

    Las Redes y su Tolerancia a Fallas

    Econmicos (RAID), desde el nivel 0 hasta el 5. Cada nivel ofrece variosalcances, flexibilidad y costos.

    Referencias.[Acnc99] ACNC, Ac&Nc Array Technology, www.acnc.com, 1999.

    [Anix96] Anixter, Estndar TIA/EIA 568-A,www.anixter.com/techlib/pdf/B3015100.pdf, 1996.

    [Blac99] Black Uyless, Tecnologas emergentes para redes decomputadoras, 2a. ed, Prentice Hall Hispanoamericana, S.A.,1999.

    [Buch96] Buchanan Robert W., The Art of Testing Network Systems, JohnWiley & Son, 1996.

    [Cahn98] Cahn Robert S., Wide Area Network Design, Concepts and Toolsfor Optimization, Morgan Kaufmann Publishers, Inc, 1998.

    [Carr92] Carrasco Eddy, Metodologa para el diseo y Ejecucin de

    Proyectos para la Comunicacin de Sistemas, integracin deRecursos y Automatizacin de Oficinas con Redes de rea,Escuela de Computacin, Facultad de Ciencias, U.C.V., 1992.

    [Carr99] Carrasco Eddy, Notas de clases dadas por el Prof. EddyCarrasco, 1999.

    [Cisc00] Cisco, Cisco Networking Academy Program, Tutorial versin enespaol, 1999.

    [Coll97] Collier Keith, The PC-Based telephony Platform a perspective onFault Tolerance, Hardware and Operating System choices,www.inter-intelli.com, Abril 1997.

    [Date90] Date C.J., Introduccin a los Sistemas de Bases de Datos, Vol I,

    5ta ed, Addison-Wesley Iberoamericana, S.A., 1990.[Delm99] Harris Michael P, LAN Hardware / Wiring & Installation, Lesson 8,

    Exploring Hubs, Bridges, Routers y Switches,http://Viking.Delmar.edu, 1999.

    [Dnpg00] Digital, DECNIS Multiprotocol Backbone Routers,www.dnpg.com/dr/npg/dnsfm-mn.html,

    [Ente00] Enterasys, Smart Switch virtual router cluster,www.enterasys.com, Mayo 2000.

    [Ford98] Ford Merilee, Lew Kim, Spanier Steve, Stevenson Tim,Tecnologas de interconectividad de redes, Prentice Hall, 1998.

    [Micr99] Microsoft, Reliability and Fault Tolerance in Windows NT

    SERVER,www.microsoft.com/NTServer/fileprint/exec/overview/reliability.asp,Septiembre 1999.

    [Musc00] Musciano Chuck, 0,1,0+1, Raid basics, Part 1, A quick tutorial onhow these different Raid configuration work, www.sunworld.com,

    Abril 2000.

    Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 19

    http://www.acnc.com/http://www.anixter.com/techlib/pdf/B3015100.pdfhttp://www.inter-intelli.com/http://viking.delmar.edu/http://www.dnpg.com/dr/npg/dnsfm-mn.htmlhttp://www.enterasys.com/http://www.microsoft.com/NTServer/fileprint/exec/overview/reliability.asphttp://www.microsoft.com/NTServer/fileprint/exec/overview/reliability.asphttp://www.sunworld.com/http://www.anixter.com/techlib/pdf/B3015100.pdfhttp://www.inter-intelli.com/http://viking.delmar.edu/http://www.dnpg.com/dr/npg/dnsfm-mn.htmlhttp://www.enterasys.com/http://www.microsoft.com/NTServer/fileprint/exec/overview/reliability.asphttp://www.sunworld.com/http://www.acnc.com/
  • 7/28/2019 Tolerancia de Fallas

    20/20

    Las Redes y su Tolerancia a Fallas

    [Stal00] Stallings William, Data and computer communications 6th ed.,Prentice Hall Inc., 2000, 1996.

    [Stal01] Stallings William, Operating System, Internal and Design Principles3 ed., Prentice Hall Inc., 1997.

    [Swam81] Swamy, M., Graphs, Networks and Algorithms, John Wiley & Son,

    1981.[Tane96] Tanenbaum Andrew, Computer networks 3rd ed, Prentice HallPTR, 1996.

    [Trul97] Trulove James, LAN Wiring: an illustrated networking guide,McGraw-Hill, 1997

    [Vogo99] Vogon International, Raid & Disk Array Recovery, What is Raid?,www.disk-recovery-vogon.com, 1999.

    [Wals96] Wals Brian, Fault-Tolerance Networking,www.networkcomputing.com, Noviembre 1966.

    [Wong00] Wong Brian, Raid: What does it mean to me?,www.sunworld.com, 2000.

    http://www.disk-recovery-vogon.com/http://www.networkcomputing.com/http://www.sunworld.com/http://www.disk-recovery-vogon.com/http://www.networkcomputing.com/http://www.sunworld.com/