Sistemas Tolerantes a Fallos (STF)

6 June, 2016

Título:Sistemas Tolerantes a Fallos (STF)
Docentes: Pedro Gil y Juan José Serrano
Universidad Politécnica de Valencia
Fecha impartición: 5 de Junio de 2000.
Duración: 10 horas.

MATERIAL DE SEMINARIO.

Objetivos:

* Conocer los conceptos y terminología básicos referentes a la garantía de funcionamiento[1] o confiabilidad ( fiabilidad, seguridad-inocuidad, seguridad-confidencialidad, disponibilidad, mantenibi-lidad, etc.) de los sistemas informáticos.

* Conocer y comprender las técnicas de redundancia (mecanismos de tolerancia a fallos), tanto a nivel físico como lógico, que permiten diseñar sistemas de funcionamiento garantizado.

* Conocer las arquitecturas básicas de los STF, en sistemas monoprocesadores, multiprocesadores y distribuidos.

* Estudiar las técnicas de modelado y evaluación de la garantía de funcionamiento de los sistemas tolerantes a fallos.

* Conocer ejemplos de sistemas tolerantes a fallos comerciales, así como sus principales campos de aplicación: Satélites espaciales, aviónica, medicina, comunicaciones, banca, comercio electrónico

Título:Temario

Tema 1 : Introducción a la garantía de funcionamiento. Definiciones fundamentales:

1.1.- Definición de la garantía de funcionamiento.

1.2.- Necesidad de los sistemas con alta garantía de funcionamiento. Atributos de la garantía de funcionamiento.

* Fiabilidad , Seguridad – inocuidad, Seguridad – confidencialidad, Disponibilidad, Mantenibilidad.

1.3.- Árbol de la garantía de funcionamiento.

1.4.- Causas de la disminución de la garantía de funcionamiento.

* Fallos.

* Errores.

* Averías.

* Patología de los fallos

1.5.- Medios para obtener cierta garantía de funcionamiento:

* Prevención de fallos

* Tolerancia a fallos.

1.7.- Medios para la validación de la garantía de funcionamiento

* Eliminación de fallos.

* Predicción de fallos.

Tema 2.- Técnicas de redundancia:

2.1. Técnicas de redundancia en la información:

* Introducción a los códigos detectores y correctores de errores.

* Códigos de paridad.

* Sumas de prueba.

* Códigos m de n.

* Códigos cíclicos. CRCs

* Códigos aritméticos.

* Códigos correctores de errores de Hamming.

2.2. Técnicas de redundancia en el hardware:

* Introducción.

* Redundancia pasiva. Principios básicos.

* Redundancia activa. Principios básicos.

* Redundancia híbrida.

2.3. Técnicas de redundancia en el software:

* Introducción.

* Redundancia temporal

* Redundancia en el software para detección de fallos aleatorios

* Mecanismos de tolerancia a fallos de diseño en el software.

* Tolerancia a fallos en el Sistema Operativo.

Tema 3.- Arquitectura de los sistemas tolerantes a fallos:

3.1.- Sistemas monoprocesadores tolerantes a fallos:

* Detección de errores por el propio microprocesador.

* Detección de errores por control del flujo del programa.

* Recuperación de los errores en sistemas monoprocesador.

3.2.- Sistemas multiprocesadores tolerantes a fallos.

* Introducción.

* Sistemas con redundancia estática.

* Sistemas con redundancia dinámica o “standby”.

* Sistemas de detección de errores no estándares.

* Recuperación de los errores sistemas multiprocesador.

3.3.- Sistemas distribuidos tolerantes a fallos.

* Introducción.

* Comunicaciones fiables.

* Procesadores con parada tras la avería

* Arquitecturas de sistemas distribuidos tolerantes a fallos.

* Sistemas de detección de errores no estándares.

* Recuperación de los errores sistemas distribuidos.

Tema 4.- Modelado y evaluación de los sistemas tolerantes a fallos:

4.1 Introducción.

4.2 Funciones para la evaluación de STFs.

4.3 Cálculo de la tasa de fallos y de la tasa de reparación.

4.4 Técnicas de modelado.

* Modelos combinatorios.

* Cadenas de Markov.

4.5 Modelado con coberturas.

4.6 Modelos de Markov.

* Modelos para la fiabilidad.

* Modelos para la seguridad.

* Modelos para la disponibilidad.

4.7 Ejemplos de modelado y evaluación teórica.

4.8 Introducción a la validación experimental de STFs: Inyección de fallos.

Tema 5.- Aplicaciones y ejemplos de sistemas tolerantes a fallos:

5.1 Sistemas de larga vida. Satélites espaciales.

* STAR (Self Testing And Repairing Computer)

* Sistema de la sonda espacial Voyager

* Sistema de la sonda espacial Galileo

5.2 Sistemas críticos. Aviónica, industrias peligrosas.

* Sistema del Space Shuttle

* Sistema flying by wire de los Airbus

5.3 Sistemas de alta disponibilidad.

* Tandem NonStop Cyclone

* Stratus XA/R serie 300

* Sequoia Serie 400

Bibliografía:

[Arlat 96] J. Arlat y otros, coordinados por J. C. Laprie:“Guide de la sûreté de fonctionement”. Ed. Cépaduès editions, Toulouse, Francia, 1996.

[Johnson 89] B. W. Johnson: Design and analysis of fault tolerant digital systems. Ed. Addison–Wesley, 1989

[Gil96] P. J. Gil: Garantía de funcionamiento, conceptos básicos y terminología. Informe interno, DISCA–GSTF, 1996

[Laprie92] J. C. Laprie: Dependable computing: Basic concepts and terminology: in english, french, german, italian and japanese. Ed. Springer–Verlag, 1992

[Pradhan86] D. K. Pradhan: Fault tolerant computing: Theory and techniques; vol. 1 y 2. Ed. Prentice Hall, 1986

[Pradhan96] D. K. Pradhan: Fault-Tolerant Computer System Design. Ed. Prentice Hall, 1996

[Siewiorek92] D.P. Siewiorek, R. S. Schwarz: Reliable computer systems: Design and evaluation (2nd. Edition). Ed. Digital Press, 1992

[1] En inglés “Dependability”.