Users Guide

ManualsBrandsDell ManualsComputer HardwarePowerEdge R220

111

112

113

114

115

116

117

118

119

120

Der Hauptnachteil dieser Methode: Solange auf einem Array ein RAID-Loch gesetzt ist, werden weiterhin nicht korrigierbare Fehler

auftreten, wann immer auf gegebenenfalls vorhandene betroene Daten zugegrien wird.

RAID-Löcher können an den folgenden drei Stellen auftreten:

• In leerem Speicherplatz, der keine Daten enthält. Auf den betreenden Stripe kann dann zwar nicht mehr zugegrien werden, dies hat

aber keine größeren Auswirkungen, da an dieser Speicheradresse keine Daten abgelegt sind. Alle Versuche des Betriebssystems, in

einen Stripe mit RAID-Loch zu schreiben, schlagen fehl und die Daten werden an eine andere Speicheradresse geschrieben.

• In Stripes, die unkritische Daten wie Dateien des Typs „README.TXT“ enthalten. Solange auf die betroenen Daten nicht zugegrien

wird, werden während normaler E/A-Vorgänge keine Fehler erzeugt. Bei Versuchen, ein Dateisystembackup durchzuführen, werden alle

von einem RAID-Loch betroenen Dateien nicht gesichert. Werden Konsistenzprüfungen oder Patrol Reads durchgeführt, wird für die

betreende LBA und/oder die betreenden Stripes der Sense-Code „3/11/00“ erzeugt.

• In Datenbereichen, auf die zugegrien wird. In einem solchen Fall kann der Datenverlust zu einer ganzen Reihe von Fehlern führen.

Dabei kann es sich um geringfügige Fehler handeln, die keine negativen Auswirkungen auf die Produktionsumgebung haben. Die Fehler

können aber auch schwerwiegender sein und dazu führen, dass das System kein Betriebssystem starten kann oder dass Anwendungen

fehlschlagen.

Ein Array mit RAID-Loch muss irgendwann gelöscht und neu erstellt werden, um das RAID-Loch zu beseitigen. Bei diesem Vorgang werden

alle Daten gelöscht. Die Daten müssen dann neu erstellt oder aus einem Backup wiederhergestellt werden, sobald das RAID-Loch behoben

wurde. Die Behebung eines RAID-Lochs kann für einen Zeitpunkt geplant werden, der für den Unternehmensbetrieb vorteilhafter ist.

Wann immer auf die Daten in einem Stripe mit RAID-Loch zugegrien wird, werden nicht korrigierbare Fehler an den betroenen defekten

LBAs gemeldet. Nach einer gewissen Zeit (Minuten, Tage, Wochen, Monate usw.) läuft die Tabelle zur Verwaltung defekter Blöcke (Bad

Block Management, BBM) voll und für ein oder mehrere Laufwerke wird gemeldet, dass ein Ausfall wahrscheinlich ist. Wie in der Abbildung

ersichtlich, wird in der Regel für Laufwerk 0 Ausfallwahrscheinlichkeit gemeldet, weil Fehler auf Laufwerk 1 und Laufwerk 2 auf es kopiert

werden. Tatsächlich kann es sein, dass Laufwerk 0 normal arbeitet. Wenn Sie es austauschen, führt das lediglich dazu, dass nach einer

gewissen Zeit auch für das neue Laufwerk Ausfallwahrscheinlichkeit gemeldet wird.

Auch die Durchführung einer Konsistenzprüfung nach der Setzung eines RAID-Lochs behebt dieses Problem nicht. Deshalb ist es sehr

wichtig, regelmäßig Konsistenzprüfungen durchzuführen. Insbesondere vor dem Austausch von Laufwerken sollte wenn möglich eine

Konsistenzprüfung durchgeführt werden. Das Array muss in optimalem Zustand sein, damit eine Konsistenzprüfung durchgeführt werden

kann.

Schon wenn in einem RAID-Array ein einziger Datenfehler auftritt und es gleichzeitig zu einem weiteren Fehlerereignis wie einem

Festplattenausfall kommt, wird ein RAID-Loch gesetzt, sobald das ausgefallene Laufwerk oder ein Ersatzlaufwerk per Rebuild wieder in das

Array integriert wird. Nehmen wir als Beispiel ein RAID-5-Array im Optimalzustand mit drei Mitgliedern: Laufwerk 0, Laufwerk 1 und

Laufwerk 2. Wenn Laufwerk 0 ausfällt und ausgetauscht wird, werden die auf den Laufwerken 1 und 2 verbleibenden Daten und

Paritätsdaten verwendet, um die fehlenden Informationen auf dem Ersatzlaufwerk 0 neu zu erstellen. Wenn jedoch ein Datenfehler auf

Laufwerk 1 vorhanden ist und der Rebuild-Vorgang diesen Fehler erreicht, stehen in dem Stripe nicht genügend Informationen zum Rebuild

der im Stripe fehlenden Daten zur Verfügung. Auf Laufwerk 0 liegen keine Daten, die Daten auf Laufwerk 1 sind fehlerhaft und die Daten

auf Laufwerk 2 sind unbeschädigt, während es neu aufgebaut wird. Innerhalb des betreenden Stripes sind mehrere Fehler. Laufwerk 0 und

Laufwerk 1 enthalten keine gültigen Daten, so dass alle Daten in diesem Stripe nicht wiederhergestellt werden können. Sie sind verloren.

Das Ergebnis sehen Sie in Abbildung 3: Während des Rebuilds werden RAID-Löcher gesetzt (in den Stripes 1 und 2). Die Fehler werden auf

Laufwerk 0 kopiert.

Beheben von Hardwareproblemen

111