Recuperación de datos de una matriz SHR (Synology Hybrid RAID) con fallo durante el proceso de reconstrucción

Se reemplazó un disco de 4 TB en una matriz SHR de Synology por un disco de 8 TB. La reconstrucción (rebuild) se inició, avanzó durante un tiempo y luego se detuvo. DSM muestra Degraded, Crashed, o la barra de progreso no se ha movido en horas. El NAS puede haber quedado completamente inoperativo. Este artículo aborda la recuperación de datos tras una falla en la reconstrucción de un SHR: qué ocurrió dentro de la matriz, cómo interpretar el estado actual sin agravar el problema y cómo recuperar sus archivos.

Antes de intervenir

Tres acciones parecen lógicas cuando una reconstrucción (por ejemplo, una reconstrucción de RAID) se congela — y cualquiera de ellas puede convertir una situación recuperable en una pérdida permanente de datos:

🔄

Reinicio del NAS

Un array RAID degradado conserva el estado de sus miembros en memoria. Un reinicio obliga a mdadm a volver a leer los superbloques desde el disco —si esos superbloques están desincronizados por una reconstrucción interrumpida, el array podría no reensamblarse en absoluto tras el reinicio.

💽

Extracción de discos

Esto afecta incluso al disco que DSM marca como «Faulty». Al retirar un miembro se altera el recuento del conjunto RAID y mdadm actualiza los superbloques de las unidades restantes, registrando la extracción como un evento permanente. Como resultado, una unidad que en realidad era legible puede quedar excluida de forma definitiva.

🔧

Hacer clic en «Reparar» en el Administrador de almacenamiento

La opción «Reparar» inicia un nuevo intento de reconstrucción. Si la reconstrucción inicial falló debido a errores de lectura en una unidad existente, un segundo intento vuelve a leer los mismos sectores — agravando el daño en una unidad ya sometida a estrés y aumentando el riesgo de un fallo adicional.

⚡

Apagado forzado

Un corte de energía repentino durante una reconstrucción activa (incluso si está congelada) puede escribir bloques de paridad parciales en la unidad nueva, dejando la matriz RAID en un estado en el que ni los datos antiguos ni los nuevos son coherentes. Para preservar la integridad de datos durante una reconstrucción RAID, utilice siempre el procedimiento de apagado de DSM si la interfaz sigue accesible.

🔬

Ejecutar fsck o btrfs check

Las herramientas de reparación de sistemas de archivos operan en la capa de volúmenes —un nivel por encima de la matriz RAID. Ejecutarlas en una matriz degradada implica que leerán datos reconstruidos que pueden contener errores de paridad y que podrían volver a escribir metadatos corruptos en el disco.

🔀

Agregar otra unidad

Al insertar un disco de repuesto en un conjunto RAID que ha fallado, DSM intenta una reconstrucción automática. Si no se identifica la causa del primer fallo de reconstrucción, un segundo intento encontrará el mismo problema —y además implicará otra ronda de lecturas de disco de todo el conjunto sobre un hardware ya sobrecargado.

Por qué falló la reconstrucción

Cuando SHR (Synology Hybrid RAID) sustituye un disco de distinta capacidad, realiza mucho más que una simple copia de datos. La secuencia es la siguiente:

mdadm lee todas las particiones de datos de los discos restantes a un rendimiento secuencial sostenido — durante horas o días en matrices RAID de varios terabytes.
Se calcula y escribe la paridad en el disco nuevo. En SHR con discos de tamaño mixto, mdadm utiliza varios dispositivos md de diferentes tamaños apilados, por lo que el cálculo de la paridad es más complejo que en un RAID 5 de geometría fija.
LVM recalcula la asignación de extents físicos en el pool de almacenamiento ampliado. Si el disco nuevo tiene mayor capacidad, esto implica remapear la disposición del Grupo de Volúmenes — una operación independiente que se ejecuta en paralelo o tras la reconstrucción de mdadm.

Cualquier error en cualquiera de las fases aborta la secuencia. Tres causas raíz explican la mayoría de los fallos de reconstrucción de SHR:

🧱

Errores de lectura irrecuperables (URE)

Los discos de consumo presentan una tasa de errores de lectura irrecuperables (URE) de aproximadamente 1 por cada 10¹⁴ bits leídos. En un disco de 4 TB, esto implica que, estadísticamente, es probable que ocurra un error de lectura en algún punto durante una pasada secuencial completa. En funcionamiento normal esos sectores rara vez se acceden. Durante una reconstrucción de RAID se leen todos los sectores — y un único sector ilegible detiene el cálculo de paridad de toda la franja. No es necesario que la unidad falle por completo; basta con que produzca un error de lectura en el momento inoportuno.

🔌

Tiempos de espera SATA bajo carga

Una conexión de cable o del backplane que sea marginal con cargas de trabajo normales puede fallar de forma constante durante las lecturas sostenidas de alto rendimiento propias de una reconstrucción del RAID. El kernel registra un error SATA; mdadm interpreta que el disco queda inaccesible y lo marca como «Faulty», aunque el disco en sí esté físicamente sano. Tras reconectar el dispositivo vuelve a funcionar, pero mdadm ya lo ha eliminado del conjunto RAID.

⚙️

Tareas en segundo plano de DSM

Synology programa automáticamente pruebas S.M.A.R.T., la indexación de medios (para Photo Station y Video Station) y las comprobaciones de integridad de Btrfs (scrub). Cualquiera de estas tareas, si se ejecuta simultáneamente con una reconstrucción, compite por el mismo ancho de banda de E/S del disco. En un sistema que ya está realizando una lectura sostenida del disco al completo, las E/S adicionales pueden elevar la latencia de lectura hasta provocar tiempos de espera del disco, obteniéndose el mismo resultado que ante un problema de conexión física.

Para una comparación más amplia del riesgo de una reconstrucción frente a la recuperación directa de datos, consulte nuestro artículo sobre Reconstrucción de RAID frente a recuperación por software.

Leer el estado actual del array

Antes de cualquier intento de recuperación, determine exactamente qué informa mdadm. Si dispone de acceso por SSH, dos comandos ofrecen la información completa. Para una guía detallada sobre cómo interpretar la salida de mdadm, consulte nuestra guía de recuperación RAID con mdadm. A continuación se muestran los patrones específicos que debe buscar en este escenario.

cat /proc/mdstat — muestra el estado de ensamblaje y, si hay una reconstrucción en curso, el progreso y la velocidad actuales.

Una reconstrucción congelada se muestra así:

Reconstrucción congelada — progreso sin avanzar

Personalities : [raid5] [raid6] [raid1]
md3 : active raid5 sdb3[0] sdc3[1] sdd3[2]
      5860468736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [3/2] [UU_]
      [================>....]  recovery = 83.2% (2436352/2930234) finish=∞ speed=0K/sec
unused devices: <none>

finish=∞ y speed=0K/sec confirman que la reconstrucción se ha detenido: mdadm está bloqueado esperando un sector que no puede leer.

Un array caído se muestra así:

Array inactivo — no ensamblado

Personalities : [raid5] [raid6] [raid1]
md3 : inactive sdb3[0](S) sdc3[1](S)
      5860468736 blocks super 1.2
unused devices: <none>

inactive con las marcas (S) (spare) indica que mdadm no tiene el array activo: los dispositivos están presentes pero no ensamblados. Los datos están físicamente en los discos pero inaccesibles.

La tabla siguiente relaciona el estado que muestra DSM con lo que realmente ocurre y la acción recomendada:

Qué muestra DSM	Qué significa	No hacer	Siguiente paso
Reconstrucción congelada, velocidad = 0 Degradado	Error de lectura no recuperable (URE) en una unidad existente que bloquea las escrituras de paridad. Array degradado pero íntegro.	No espere; no reinicie la reconstrucción	RS RAID Retrieve
Una unidad marcada como Faulty, reconstrucción detenida Degradado	mdadm descartó una unidad tras errores de lectura repetidos o errores SATA. Funcionando sin redundancia.	No retire la unidad marcada como Faulty	Comprobación S.M.A.R.T., luego RS RAID Retrieve
Pool de almacenamiento: Caído Caído	mdadm no pudo mantener el quórum. Array inactivo — datos presentes pero inaccesibles.	No haga clic en Reparar; no reinicie	RS RAID Retrieve
NAS no responde, DSM no carga Desconocido	Posible bloqueo del kernel durante E/S de reconstrucción. Estado del array desconocido.	No apagar por fuerza si es evitable	Apagado limpio manteniendo pulsado el botón de encendido, luego RS RAID Retrieve

Recuperación de datos con RS RAID Retrieve

💻

RS RAID Retrieve Windows · Linux · macOS

Dificultad:

Baja

RS RAID Retrieve reconstruye la configuración del array SHR a partir de los superbloques de mdadm en las unidades restantes. Esta herramienta de recuperación de datos RAID funciona con arrays degradados en los que falta un miembro o está marcado como defectuoso, y ofrece acceso de solo lectura al volumen para la recuperación selectiva de archivos — sin iniciar un nuevo intento de reconstrucción.

Paso 1 — Conectar unidades y comprobar S.M.A.R.T.

Apague el NAS de forma ordenada si es posible. Conecte todas las unidades —incluida la que DSM marcó como defectuosa— a un equipo de recuperación y abra el monitor S.M.A.R.T. integrado en RS RAID Retrieve. Realice la comprobación S.M.A.R.T. en todos los discos, no solo en el que falló. Durante la reconstrucción del RAID, la unidad que aparenta estar sana suele ser la que provocó la avería por errores de lectura en un miembro del conjunto.

Paso 2 — Crear imagen de cualquier unidad con valores S.M.A.R.T. elevados

Si alguna unidad muestra valores no nulos en el Conteo de Sectores Reasignados, Sectores Pendientes o Errores No Corregibles, cree una imagen a nivel de sector (imagen sector por sector) de esa unidad utilizando la función de imagen integrada de RS RAID Retrieve antes de iniciar el escaneo. Todo el trabajo de recuperación posterior se realizará sobre la imagen. Esto protege la unidad de origen frente a lecturas adicionales durante el escaneo y evita un mayor deterioro en una unidad que ya está estresada.

Paso 3 — Reconstrucción automática del arreglo

RS RAID Retrieve lee el superbloque de mdadm de cada unidad o imagen conectada, identifica el UUID del conjunto, los roles de los miembros, el nivel RAID y los parámetros de franja (stripe), y reconstruye la estructura del volumen SHR. Para un arreglo RAID degradado con un miembro ausente o averiado, el programa puede reconstruir usando las unidades restantes: calcula los datos faltantes a partir de la paridad —de la misma forma que lo haría mdadm en modo degradado— pero sin escribir nada de vuelta en el disco.

Paso 4 — Examinar y recuperar archivos

Apague el NAS de forma ordenada siempre que sea posible. Conecte todos los discos —incluido el que DSM marcó como «Faulty»— a un equipo de recuperación de datos y abra el monitor S.M.A.R.T. integrado en RS RAID Retrieve. Verifique todas las unidades, no solo la que falló. Durante la reconstrucción del RAID, la unidad que aparenta estar sana suele ser la que provocó la falla debido a errores de lectura en el miembro existente.

🔍

Funciona con arreglos RAID degradados y averiados

Reconstruye volúmenes SHR a partir de los discos miembros disponibles sin exigir un arreglo RAID completo y operativo para la recuperación de datos —incluye arreglos inactivos que mdadm se niega a ensamblar—.

📊

Monitorización S.M.A.R.T.

Compruebe la salud de la unidad antes de iniciar el escaneo. Permite identificar qué unidad provocó la falla de reconstrucción y si es necesario crear una imagen del disco antes de la recuperación de datos.

💾

Creación de imagen de disco

Crear una imagen a nivel de sectores (imagen sectorial) de una unidad con problemas antes de la recuperación de datos. Todo el trabajo se realiza sobre la imagen forense, protegiendo el original de ciclos de lectura adicionales.

🔗

Conexión SSH

Si el NAS sigue encendido y es accesible en la red, RS RAID Retrieve puede conectarse mediante SSH — sin necesidad de extraer físicamente los discos del chasis.

Cuando la recuperación por software no es suficiente

Si varias unidades no aparecen al conectarlas al equipo de recuperación de datos, o si S.M.A.R.T. devuelve valores críticos en más de un miembro de la matriz, la situación ha superado el ámbito del software. Una matriz SHR‑1 con dos unidades fallidas carece de la paridad necesaria para reconstruir los datos: no existe una vía matemática para recuperar la información perdida únicamente mediante software, por lo que se requiere intervención física o un servicio profesional de recuperación de datos.

Detenga el equipo y contacte a un laboratorio de recuperación de datos si observa

Dos o más discos duros o unidades no detectados, o que muestran fallo S.M.A.R.T. inmediato al encender
Ruidos de clics, rechinamientos o fallos repetidos de arranque en cualquier unidad
RS RAID Retrieve no puede reconstruir la matriz ni siquiera en modo manual
Las unidades se encuentran calientes al tacto a los pocos minutos de conectarlas

La recuperación física de datos — sustitución de cabezas, transferencia de platos — requiere instalaciones con sala limpia. Cada ciclo de encendido adicional en una unidad con fallo mecánico reduce la probabilidad de recuperación de datos.

Después de la recuperación: prevención de la próxima falla de reconstrucción

Una caída durante la reconstrucción del RAID al reemplazar una unidad no es aleatoria. Se dirige a una vulnerabilidad específica: todas las unidades restantes están sometidas a la carga máxima sostenida de lectura en el instante exacto en que el conjunto RAID queda sin redundancia. Los pasos siguientes reducen la probabilidad de que se repita este escenario.

📋

Comprobar S.M.A.R.T. antes de reemplazar una unidad

Ejecute una prueba S.M.A.R.T. completa (extendida) en todas las unidades restantes antes de retirar la unidad antigua. Un disco con sectores reasignados o errores pendientes probablemente provoque un URE (error de lectura irrecuperable) durante la reconstrucción posterior del RAID.

🔕

Desactivar tareas en segundo plano de DSM durante la reconstrucción

Vaya a Panel de control → Programador de tareas y suspenda las pruebas programadas S.M.A.R.T., las operaciones scrub de Btrfs y los escaneos de la biblioteca multimedia durante la reconstrucción (por ejemplo, de un RAID). Las E/S concurrentes son una de las causas de fallo de reconstrucción más fácilmente evitables.

🔌

Reconectar los cables SATA antes de iniciar

Una conexión marginal que funciona con cargas ligeras puede fallar bajo el rendimiento sostenido de una reconstrucción prolongada (por ejemplo, una reconstrucción RAID de varios días). Desconecte y reconecte todos los cables SATA de datos y de alimentación antes de iniciar el proceso de reemplazo.

🗂️

No mezclar lotes de unidades de almacenamiento

Las unidades adquiridas al mismo tiempo y procedentes de la misma serie de producción acumulan desgaste a la misma tasa. Cuando una falla, las demás unidades suelen fallar poco después. Procure obtener unidades de reemplazo de un fabricante o de un lote de producción distinto para reducir el riesgo de fallos simultáneos y mejorar la fiabilidad del almacenamiento (HDD/SSD).

🔔

Habilitar notificaciones por correo en DSM

Panel de control → Notificación → Correo electrónico. DSM puede emitir una alerta en cuanto una unidad se marca como defectuosa o un grupo de almacenamiento se degrada. Detectar la falla de forma temprana —antes de que la reconstrucción supere las 60 horas— permite conservar más opciones de recuperación.

💾

Mantener una copia de seguridad independiente

SHR ofrece tolerancia a fallos, no copia de seguridad. Un conjunto degradado durante la reconstrucción no está protegido frente a una segunda falla. Hyper Backup a una unidad externa o a un destino en la nube es la única garantía de que un fallo durante la reconstrucción no se convierta en una pérdida de datos permanente.

Un fallo de reconstrucción durante el reemplazo de una unidad es uno de los escenarios de pérdida de datos en SHR más habituales, precisamente porque se produce en el peor momento posible: carga máxima de E/S sobre el hardware más antiguo del conjunto, con margen de redundancia nulo. Una vez recuperados los datos, el suceso debe interpretarse como una señal —no solo sobre la unidad que falló, sino sobre la salud y la integridad de todo el hardware que convivía en el conjunto.

Preguntas frecuentes

No necesariamente, y esta es una de las ideas erróneas más peligrosas sobre las reconstrucciones de RAID. En RAID 5 y SHR la paridad no se escribe de forma secuencial de disco a disco: la paridad se distribuye entre todos los miembros en franjas (stripes). Una reconstrucción al 97 % significa que se han recalculado y escrito el 97 % de las franjas, pero la matriz no queda consistente hasta que se completa al 100 %. Una reconstrucción interrumpida deja la tabla de paridad parcialmente actualizada, lo que implica que cualquier franja que cruce la frontera entre las regiones reconstruidas y las no reconstruidas queda en un estado indefinido. No puedes acceder selectivamente a “la parte que se terminó”: el volumen o bien se monta correctamente en su totalidad o no se monta en absoluto.

No exactamente; probablemente no sea porque la unidad nueva esté defectuosa. Cuando mdadm marca un disco como "Faulty" durante una reconstrucción, está respondiendo a un evento: un error de lectura, un timeout de SATA o un comando que no se completó dentro de la ventana de timeout del kernel. Durante la reconstrucción la unidad nueva es el destino de escritura, no una fuente de lectura. Si aparece como "Faulty", lo más probable es que sea un problema de conexión SATA (cable, puerto del backplane o ranura del controlador) que se manifestó bajo la carga sostenida de escritura de la reconstrucción. Antes de dar por muerta la unidad, prueba a volver a insertarla en otra bahía y a conectarla con otro cable. Los datos S.M.A.R.T. de una unidad nueva estarán prácticamente a cero y no deberían mostrar errores; si los muestran, entonces la propia unidad es el problema.

Esta es una opción razonable si el NAS de reemplazo es idéntico o compatible, pero conlleva el mismo riesgo que cualquier reconstrucción: si alguno de los discos existentes tiene un URE (uncorrectable read error — error de lectura no corregible) o un estado de salud marginal, la reconstrucción en el nuevo hardware topará con el mismo problema. Antes de migrar, comprueba S.M.A.R.T. en cada disco. Si todos los discos están sanos, el procedimiento HDD Migration de Synology preserva la configuración del pool de almacenamiento y de los volúmenes — el DSM (DiskStation Manager) en la nueva unidad reconocerá el conjunto existente y reanudará en vez de reconstruir desde cero. Sin embargo, si el fallo original de la reconstrucción fue causado por un error de lectura en un disco existente, la migración no lo soluciona: el disco problemático permanece con el conjunto independientemente del chasis que lo aloje.

La velocidad de reconstrucción en hardware Synology normalmente está entre 50–120 MB/s en condiciones ideales — sin E/S competidora, discos sanos y conexiones estables. A 60 MB/s, una reconstrucción de 4 TB tarda aproximadamente 18–19 horas; una de 8 TB, alrededor de 37 horas. La velocidad fluctúa de forma natural, y DSM (DiskStation Manager) reduce la prioridad de la reconstrucción para mantener el NAS utilizable, por lo que una reconstrucción lenta no es necesariamente un problema. Una reconstrucción colgada es diferente: /proc/mdstat mostrará speed=0K/sec y finish=∞, y el porcentaje no avanzará durante 15–30 minutos. Esa combinación concreta — velocidad cero más tiempo estimado infinito — significa que mdadm está bloqueado en un sector ilegible y reintentando indefinidamente. Esperar más no ayuda; el sector no se hará legible por sí solo.