Users Guide

Table Of Contents
Perforación de RAID
Una perforación de RAID es una característica de Dell PowerEdge RAID Controller (PERC) diseñada para permitir que la controladora
restaure la redundancia del arreglo pese a la pérdida de datos causada por una condición de falla doble. Otro nombre para una perforación
de RAID es el de regeneración con errores. Cuando la controladora de RAID detecta una falla doble y no hay suficiente redundancia para
recuperar los datos en la franja afectada, crea una perforación en esa franja y permite que prosiga la regeneración.
Cualquier condición que haga que se pierda el acceso a los datos en la misma franja en más de una unidad es una falla doble.
Las fallas dobles causan la pérdida de todos los datos en la franja afectada.
Todas las perforaciones de RAID son fallas dobles, pero NO todas las fallas dobles son perforaciones de RAID.
Causas de una perforación en RAID
Sin la característica de perforación de RAID, la regeneración de un arreglo fallaría y lo dejaría en estado degradado. En algunos casos, las
fallas pueden hacer que otras unidades fallen y que el arreglo quede en estado inoperante sin conexión. Perforar un arreglo no tiene ningún
efecto en la capacidad de arranque o de acceso a los datos del arreglo.
Las perforaciones en RAID pueden darse en una de dos situaciones:
Ya hay una falla doble (ya se perdieron los datos).
Se propaga (copia) un error de datos en una unidad en línea a una en regeneración.
No hay una falla doble (los datos se pierden cuando se produce el segundo error).
En estado degradado, si se registra un bloque dañado en una unidad en línea, se realiza una perforación de RAID en esa dirección lógica
de bloque (LBA).
Esta ventaja de perforar un arreglo mantiene al sistema en estado de producción hasta que se restaura la redundancia del arreglo. Los
datos de la franja afectada se pierden independientemente de que se produzca o no la perforación de RAID. La principal desventaja de este
método es la siguiente: mientras el arreglo tenga una perforación de RAID, se seguirán encontrando errores que no pueden corregirse cada
vez que se acceda a los datos afectados (de haber alguno).
Se puede producir una perforación de RAID en las siguientes tres ubicaciones:
En un espacio en blanco que no contiene datos. No se podrá acceder a esa franja, pero como no hay datos en esa ubicación, no habrá
ningún efecto significativo. Todo intento de un SO de escribir en una franja con perforación de RAID fallará y los datos se escribirán en
otra ubicación.
En una franja que contiene datos que no son críticos, como un archivo LÉAME.TXT. Si no se accede a los datos afectados, no se
generan errores durante el proceso de E/S normal. Los intentos de realizar una copia de seguridad del sistema de archivos no podrán
copiar ningún archivo afectado por una perforación de RAID. Realizar operaciones de Comprobación de coherencia o Lectura de
patrullaje generará el siguiente código de detección: 3/11/00 para la LBA y/o las franjas que correspondan.
En un espacio de datos al que se accede. En tal caso, los datos perdidos pueden causar diversos errores. Pueden ser errores menores
que no afectan adversamente un entorno de producción. También pueden ser más graves e impedir que el sistema arranque en un
sistema operativo, o que fallen las aplicaciones.
Un arreglo con perforación de RAID eventualmente tendrá que eliminarse y volverse a crear para eliminar la perforación de RAID. Este
procedimiento hace que se borren todos los datos. Entonces, los datos tendrán que volver a crearse o restaurarse a partir de una copia de
seguridad una vez eliminada la perforación de RAID. La resolución de una perforación de RAID puede programarse para un horario que sea
más ventajoso para lo que necesita la empresa.
Si se accede a los datos que se encuentran en una franja con perforación de RAID, se seguirán informando errores con referencia a las
LBA con falla, sin ninguna corrección posible disponible. Eventualmente (podría demorar minutos, días, semanas, meses, etc.), la tabla de
Administración de bloques dañados (Bad Block Management, BBM) se completará y eso hará que al menos una unidad se marque como
falla predicitva. Como se ve en la figura, la unidad 0 habitualmente será la que se marque como falla predictiva debido a que los errores en
las unidades 1 y 2 se propagan a ella. En realidad, la unidad 0 puede estar funcionando normalmente, y reemplazarla solamente hará que
eventualmente también se la marque como falla predictiva.
Una Comprobación de coherencia realizada después de inducida una perforación de RAID no resolverá el problema. Por ese motivo, es
muy importante realizar comprobaciones de coherencia periódicamente. Es especialmente importante antes de reemplazar unidades,
cuando es posible. El arreglo debe estar en estado óptimo para realizar la Comprobación de coherencia.
Un arreglo de RAID que contien un error de datos único junto con un evento de error aicional como una falla en una unidad de disco duro
causa una perforación de RAID cuando se regenera la unidad con falla o de reemplazo en el arreglo. A modo de ejemplo, un arreglo de
RAID 5 óptimo tiene tres miembros: unidad 0, unidad 1 y unidad 2. Si la unidad 0 falla y se la reemplaza, se utilizan los datos y la paridad
restantes en las unidades 1 y 2 para regenerar la información faltante en la unidad 0 de reemplazo. Sin embargo, si hay errores de datos en
la unidad 1 cuando la operación de regeneración llega a ese error, habrá insuficiente información dentro de la franja para regenerar los
94
Solución de problemas de hardare