Causas de fallos en RAID

En el mundo actual, todos han comprendido desde hace mucho tiempo el valor de la información y el enorme potencial inherente al desarrollo de la tecnología de TI. Dado que los servidores y las computadoras pueden fallar, surgió automáticamente la pregunta de cómo garantizar la seguridad de los datos, ya que la pérdida de información importante puede llevar a la quiebra de empresas enteras y las pérdidas pueden alcanzar muchos millones. Esto, a su vez, llevó a la aparición de matrices RAID, una tecnología diseñada para prevenir la pérdida de datos mediante la combinación de varios discos en una matriz. Sin embargo, como ha demostrado la práctica, las matrices RAID también pueden fallar.

En este artículo analizaremos las principales causas de fallos en las matrices RAID.

Contenido

Historia del desarrollo de RAID

Al comienzo del desarrollo de la tecnología informática, toda la atención se centraba en cómo hacer que las computadoras fueran lo más fáciles de usar posible. En aquellos días no existía el concepto de «computadora personal», ya que las computadoras se utilizaban principalmente en la industria militar (pero eso es otra historia, ya que la industria militar tiene sus propios avances en seguridad de la información, etc.) y en grandes corporaciones. Pero en aquellos días, las computadoras tenían muy poca funcionalidad y, en su mayor parte, los programadores trabajaban con ellas.

Incluso en la década de 1970, cuando Apple y Microsoft comenzaron sus actividades, el tema de la seguridad de los datos no estaba en primer lugar. Todo cambió con la aparición y el desarrollo de Internet, que comenzó a cubrir cada vez más países y permitió a los usuarios comunicarse. También vale la pena mencionar que para ese momento todos ya se habían acostumbrado a las computadoras personales y se dieron cuenta de que podían simplificar mucho la vida al procesar grandes cantidades de información. Con la aparición de cámaras y videocámaras digitales para uso personal, quedó claro para todos que las computadoras personales estarían en casi todos los hogares. Después de eso, llegó el auge de la industria digital, lo que planteó automáticamente la cuestión de la seguridad de los datos. Las grandes empresas, que ya tenían grandes servidores para almacenar datos en los que su nivel de eficiencia dependía mucho, contribuyeron a esto. Por lo tanto, en 1987 se inventaron las matrices RAID. Su objetivo principal era evitar la pérdida de información importante y, dado que la tecnología era eficiente y ofrecía varias opciones de protección de datos según las necesidades del usuario, se extendió rápidamente. El bloque de discos combinados en una matriz RAID se ve así:

Aunque no se ha realizado una estandarización, se han aceptado los siguientes niveles de RAID como estándar:

RAID 1 – una matriz de espejo en la que cada disco es una copia completa del otro;
RAID 2 – es una matriz de discos que utiliza un código Hemming;
RAID 3, 4 – matrices de discos con distribución de datos y un disco de paridad dedicado;
RAID 5 – matriz de discos con redundancia y sin disco de paridad dedicado;
RAID 0 – una matriz de discos cuyo objetivo principal es aumentar la velocidad de lectura/escritura y no hay redundancia en absoluto;

Todos los demás tipos de matrices RAID (como RAID 10, RAID 50, etc.) se basan en los tipos de RAID mencionados anteriormente y utilizan su concepto de una forma u otra.

El uso de matrices RAID ha demostrado ser tan efectivo que hoy en día casi todas las tiendas de datos modernas (servidores, NAS, etc.) utilizan matrices RAID de una forma u otra.

Sin embargo, a pesar de la confiabilidad de esta solución, vale la pena mencionar que la probabilidad de pérdida de datos aún está presente (aunque se reduce en gran medida), ya que incluso las matrices RAID a veces fallan. Esto puede suceder debido a muchas razones y para obtener más información al respecto, lea el siguiente párrafo de este artículo.

¿Qué es el modo degradado en RAID?

La matriz RAID, al igual que los discos ordinarios, puede estar expuesta a todo tipo de fallos, y si uno de los discos falla, toda la matriz pasará al llamado «modo degradado«. En este modo, los datos siguen estando disponibles y la matriz continúa funcionando, pero con una degradación significativa del rendimiento. El modo degradado es responsabilidad del controlador, que habilita este modo si algún disco falla o uno de los discos está ausente. Cuando la matriz pasa al modo degradado, el usuario verá el mensaje «Se detectó un evento de matriz degradada en el dispositivo md dev/md/1» o «LA MATRIZ ESTÁ DEGRADADA – Falta 1 disco«.

También se puede ver el símbolo «[U_]» al verificar el estado del RAID en la terminal. Por lo general, está cerca del disco dañado y significa que está desincronizado.

En este caso, debe reemplazar inmediatamente el disco dañado, porque si falla otro disco, se perderán todos los datos de la matriz.

Causas de pérdida de datos en matrices RAID

Cuando se utilizan matrices RAID, los datos se almacenan en las mismas unidades que se utilizan en las computadoras convencionales, las cuales pueden fallar, etc. La tecnología RAID permite prevenir la pérdida de datos, pero el proceso de recuperación de datos puede ser muy lento, ya que a menudo cuando una unidad falla, la velocidad de toda la matriz RAID es muy lenta, especialmente cuando se trata de terabytes de información, como en un servidor. Además, en algunos casos, reemplazar una unidad dañada por una nueva requiere un corte de energía, lo cual tampoco es muy bueno para los servidores. Por lo tanto, es mejor conocer las principales causas de falla de RAID para poder prevenir problemas.

Entonces, entre las principales razones se encuentran las siguientes:

Fallo del controlador RAID.

El controlador RAID es uno de los elementos más importantes, ya que se encarga de la distribución de datos entre las unidades y permite que el conjunto funcione como una sola unidad. Si el conjunto deja de funcionar, la causa más común es un fallo del controlador. Cabe destacar que los controladores de hardware se rompen un poco menos a menudo que los controladores de software, pero también son más caros. Además, no hay compatibilidad entre controladores de hardware de diferentes fabricantes. Esto significa que si compraste el controlador de Supermicro, deberás comprar el mismo modelo para restaurar la funcionalidad del conjunto. De lo contrario, tendrás que recrear el conjunto, lo que provocará la pérdida de datos. Algunas de las razones por las que un controlador falla incluyen una caída de voltaje o un corte de energía repentino. Esto es válido tanto para los controladores RAID de hardware como para los de software. Por lo tanto, asegúrate de contar con un suministro de energía ininterrumpido para proteger tu conjunto RAID de posibles problemas.

Error de ensamblaje de RAID

En cada reinicio de la computadora, el conjunto de RAID se vuelve a ensamblar y su funcionalidad posterior depende de si el ensamblaje se realiza correctamente o no. Si durante la reconstrucción el conjunto pasa por un pico de tensión o cualquier otro evento de fuerza mayor, el conjunto de RAID puede fallar y el usuario puede perder los datos.

Fallo del disco

Todos sabemos que el propósito principal de las matrices RAID es proteger los datos en caso de fallo de uno o dos discos. Por lo general, una matriz RAID puede hacer esto sin problemas. Sin embargo, a veces sucede que un fallo de uno o más discos corrompe los datos en el disco adyacente, y en esta situación la matriz RAID puede volverse completamente inoperable, lo que a su vez conduce a la pérdida de datos. Por lo tanto, se recomienda encarecidamente verificar periódicamente la salud de los discos que se utilizan en una matriz RAID.

Fallo del servidor

Un equipo de servidor, al igual que cualquier otro equipo informático, puede fallar o tener un mal funcionamiento. Esto a su vez afecta al conjunto RAID. En el 70% de estos casos, los datos no están disponibles.

Todas las fallas mencionadas anteriormente son las causas más comunes de fallos en RAID. Por lo general, después de tales fallos, es necesario utilizar software de recuperación de datos de terceros. Lea sobre cómo recuperar datos en un conjunto RAID en el siguiente párrafo de este artículo.

¿Qué hacer cuando un arreglo RAID falla o no se puede ensamblar después de reiniciar?

Si su arreglo RAID dejó de funcionar después de un fallo o no se ensambla después de reiniciar, primero debe extraer los datos del RAID para evitar dañarlos durante la solución de problemas del arreglo RAID. Para hacer esto, siga estos pasos:

Paso 1: Apague su computadora/servidor o dispositivo NAS y desconecte las unidades que formaban el arreglo RAID.

Paso 2: Conecte esas unidades a una computadora en funcionamiento (desconecte su alimentación antes).

Paso 3: Encienda la computadora en funcionamiento. Luego, descargue e instale RS RAID Retrieve siguiendo las indicaciones del Asistente de Configuración de Windows.

Elegimos este programa a propósito porque tiene amplias capacidades de recuperación de datos y una interfaz intuitiva al mismo tiempo, lo que lo hace excelente tanto para usuarios inexpertos como para profesionales.

Paso 4: Inicie RS RAID Retrieve haciendo doble clic en el icono de su escritorio. El constructor RAID incorporado se abrirá frente a usted.

Paso 5: Elija el tipo de adición de un arreglo RAID para el escaneo. RS RAID Retrieve ofrece tres opciones para elegir:

Modo automático – le permite simplemente especificar las unidades que formaban el arreglo, y el programa determinará automáticamente su orden, tipo de arreglo y otros parámetros
Búsqueda por fabricante – debe elegir esta opción si conoce el fabricante de su controlador RAID. Esta opción también es automática y no requiere ningún conocimiento de la estructura del arreglo RAID. Conocer el fabricante permite un tiempo más corto para construir el arreglo, por lo tanto, es más rápido que la opción anterior;
Modo manual – use esta opción si sabe qué tipo de RAID está utilizando. En este caso, puede especificar todos los parámetros que conoce y aquellos que no conoce, el programa los determinará automáticamente.

Después de elegir la opción adecuada, haga clic en «Siguiente«.

Paso 6: Seleccione las unidades que formaban el arreglo RAID y haga clic en «Siguiente«. El proceso de detección de las configuraciones del arreglo comenzará. Cuando esté completo, haga clic en «Finalizar«

Paso 7: En la ventana del programa, seleccione su arreglo, haga clic derecho sobre él y elija «Guardar disco«, luego especifique dónde guardar la copia del disco y haga clic en «Guardar» nuevamente

Esto iniciará la copia de archivos en la ubicación especificada. También puede guardar archivos individuales o recuperar datos perdidos si es necesario. Para hacer esto, haga doble clic en el arreglo y elija un tipo de escaneo. RS RAID Retrieve ofrece dos tipos de escaneo para elegir: escaneo rápido y análisis completo. La primera opción es útil si solo desea copiar archivos a otra unidad, y la segunda opción es útil si desea recuperar datos perdidos.

También seleccione el tipo de sistema de archivos de su arreglo en este paso. RS RAID Retrieve admite TODOS los sistemas de archivos modernos.

Ahora que todo está configurado, haga clic en «Siguiente»

El proceso de escaneo del arreglo comenzará y cuando finalice, verá la estructura anterior de archivos y carpetas.

Paso 8: Seleccione el archivo que desea restaurar y haga doble clic en él. Luego seleccione la ubicación donde desea recuperar el archivo perdido. Puede ser un disco duro, un archivo ZIP o un servidor FTP. Lo más importante es asegurarse de que la ubicación donde se escriben los nuevos archivos sea diferente de las unidades del arreglo. Luego haga clic en «Recuperar«

Ahora, cuando los datos estén seguros, puede proceder a restaurar el arreglo en sí. Lo primero que debe hacer es encontrar la causa del problema y solucionarlo.

El arreglo RAID puede no ensamblarse después de reiniciar debido a las siguientes razones:

Error en el archivo mdadm.conf (está en el lugar incorrecto o el archivo no existe);
Error de ensamblaje;
Un virus o malware;
Sectores defectuosos en los discos RAID;
Error humano;
Otras causas;

Las dos primeras causas son bastante comunes, por lo que vale la pena prestarles especial atención.

Si la causa o el fallo fue a nivel físico, reemplace los elementos fallidos.

Si no desea perder tiempo solucionando errores de software, simplemente puede recrear el arreglo RAID y luego copiar los datos desde la copia guardada.

Preguntas frecuentes

El modo degradado significa que uno o más discos del conjunto han fallado, pero el conjunto sigue funcionando. En esta situación, se recomienda encarecidamente encontrar la causa y reemplazar las partes defectuosas.

SÍ. Con los algoritmos avanzados de RS RAID Retrieve, reconstruirá su matriz y recuperará su información sin ningún problema. El proceso de recuperación se describe en detalle en nuestro sitio web.

Lo primero que debes hacer es verificar el estado de salud de las unidades en el conjunto, ya que el fallo de las unidades es la razón por la cual el rendimiento es muy lento.

Este mensaje de error significa que una unidad de disco está dañada. Por lo tanto, cuando recibas este error, por favor verifica el estado del RAID y reemplaza las partes no funcionales, de lo contrario, podrías perder tu información.

Entre las principales razones de fallo de RAID se encuentran el fallo del controlador RAID, el fallo de uno o más discos, el fallo del servidor/computadora/NAS, la falta de particiones del arreglo, etc. Lee nuestro sitio web para obtener más detalles.