Las empresas de tamaño medio son las que más subestiman los efectos de las averías informáticas en su funcionamiento global. Uno de los motivos radica en la alta fiabilidad de los componentes estándar utilizados hoy día en la infraestructura informática corporativa, cuya disponibilidad se estima por regla general en un 99,9 %. Este valor, aunque aparentemente alto, implica, sin embargo, una caída de una duración de casi 9 horas en un año en un sistema que funciona sin pausa. Si esta caída tiene lugar en horas de máxima actividad comercial, aun siendo mínima, puede conllevar importantes pérdidas para la compañía. Esto ha originado la consolidación de sistemas informáticos de alta disponibilidad (99,99 %) como estándar para garantizar la conservación de datos y aplicaciones especialmente relevantes, unos sistemas que prometen un downtime máximo de 52 minutos al año. Yendo más allá, hoy los expertos hablan de alta disponibilidad a partir de un 99,999 por ciento de disponibilidad, con un margen de caída de 5 minutos como máximo al año. El único problema a la hora de valorar estos datos sobre disponibilidad, es que se limitan a la seguridad del hardware de los servidores.
Según la definición del IEEE (Institute of Electrical and Electronics Engineers), un sistema puede considerarse altamente disponible cuando, a pesar del fallo de algunos componentes, puede garantizar la disponibilidad de sus recursos informáticos:
“High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system.”
Esto se logra, por ejemplo, mediante servidores completamente redundantes, en los cuales los componentes cruciales para su funcionamiento, como procesadores, chips de almacenamiento y unidades I/O están repetidos, de tal forma que, por un lado, se impide que un componente defectuoso ocasione un fallo en el servidor, pero que, por el contrario, no ofrece protección ante un incendio en el centro de datos, ataques planificados con software dañino y ataquesDDoS, sabotaje o el secuestro del servidor por parte de un hacker. Para las empresas esto implica, por consiguiente, padecer apagones más largos y considerar la necesidad de tomar las medidas de contingencia correspondientes.
Otras estrategias recurren a sistemas stand by y a clústers de alta disponibilidad, ambos basados en un conjunto de dos o más servidores que globalmente disponen de más recursos de hardware de los que se necesitan para su funcionamiento normal.
Los sistemas de espera están basados en un servidor alternativo que, a modo de servidor de seguridad del sistema primario, se hace cargo de las tareas del primero tan pronto como este falla debido a una avería de software o de hardware, lo que se denomina failover y tiene lugar automáticamente, sin intervención del administrador, mediante un software de gestión de clústeres. Una estructura de este tipo, compuesta por un nodo activo y otro pasivo, puede ser considerada un clúster asimétrico altamente disponible, opuesto a uno simétrico, que sería aquel en el que todos los nodos del clúster están disponibles al mismo tiempo en funcionamiento normal.
Sin embargo y con motivo del retraso que origina la migración de un servicio de un sistema a otro, en los sistemas stand by y en los clústeres altamente disponibles no es posible evitar por completo una interrupción del servicio, aunque sea muy breve.