Backup vs. RAID

Backups sind ein wesentlicher Bestandteil unseres digitalen Lebens. Jeder Computer, von riesigen Datenbanken bis hin zu einem einzelnen PC oder mobilen Gerät, benötigt ein Backup. Ein Ort, an dem die relevantesten Benutzerdaten für lange Zeit gespeichert und auch so gespeichert werden können, dass sie im Bedarfsfall wiederhergestellt werden können. Wir können zwischen den Daten auf unserem aktuell laufenden System unterscheiden, nennen wir es mal Lebensdaten, und der Gesichert Daten. Letztere werden außerhalb des aktuellen Systems gespeichert, das die Live-Daten verwendet.

RAID, beschäftigt sich mit den Live-Daten, es ist ein Mechanismus, mit dem ein laufendes System mehrere Festplatten zu einer einzigen Speichereinheit kombiniert. Die Daten werden dann auf alle Festplatten so verteilt, dass sie den Ausfall von mindestens einer (oder mehreren) der physischen Festplatten überstehen. Die einfachste Art von RAID-Array ist RAID1 oder Spiegelung. Hier kopieren (oder spiegeln) Sie die gleichen Daten auf zwei oder mehr Festplatten, sodass die Daten auch bei Ausfall einer der Festplatten überleben und weiterhin aktiv genutzt werden können. Es gibt auch andere RAID-Konfigurationen, und wir werden diese im Laufe der Zeit besprechen.

Über RAID

RAID oder Redundant Array of Inexpensive Disks ist ein Mechanismus zum Speichern von Daten auf mehreren Festplatten. Es gibt ein breites „Array“ von RAID-Setup, mit dem Sie arbeiten können, aber die beiden grundlegenden Mechanismen, auf denen sie alle basieren, sind die folgenden:

1. Spiegelung:

Spiegelung bedeutet, dass Ihre Datenblöcke auf mehrere Festplatten kopiert und gespiegelt werden. Wenn Sie Ihre Daten auf drei Festplatten spiegeln, können Sie den Ausfall von bis zu zwei Festplatten gleichzeitig überleben. Die ausgefallenen Festplatten können dann ohne großen Aufwand durch neue ersetzt werden. Ähnlich verhält es sich, wenn Sie Daten über n+1 Festplatten können Sie bis zu nein Festplatten versagen. Der Nachteil dabei ist, dass Sie nur die Speicherkapazität erhalten, die der kleinsten Festplatte in Ihrem RAID-Array entspricht.

2. Parität:

Ein zweiter Ansatz besteht darin, Ihre Daten in zwei Teile aufzuteilen. Mit den beiden Benutzerdatenblöcken können Sie einen dritten "Paritätsblock" erstellen. Die drei Blöcke sind alle gleich groß und auf verschiedene Geräte verteilt. Damit diese Konfiguration funktioniert, sind mindestens drei Geräte erforderlich. Wenn einer der Datenträger ausfällt, können Sie die auf diesem Datenträger gespeicherten Blöcke mit den anderen beiden Blöcken neu erstellen. Wenn beispielsweise der zweite Benutzerblock verloren geht, können der erste Block und der Paritätsblock verwendet werden, um den zweiten Benutzerblock zu berechnen. Wenn Sie daran interessiert sind, wie das funktioniert, lesen Sie diese wunderbare Erklärung.

Diese Methode kann weiter verbessert werden, um 2 oder sogar 3 Paritätsblöcke zu haben. Aber mehr als 3 Paritätsblöcke sieht man in der Branche nicht so oft. Wenn Sie einen Paritätsblock haben, können Sie einen Festplattenausfall überleben. Zwei Paritätsblöcke bedeuten, dass Sie dem Ausfall von zwei Festplatten standhalten können und so weiter.

Es ist in Bezug auf die Speichernutzung effizienter als die Spiegelung. Wenn Sie einen Paritätsblock haben, benötigen Sie nur 50% mehr physischen Speicherplatz pro tatsächlich gespeicherter Benutzerdaten. Dies bedeutet, dass Sie zum Speichern von 1 GB Daten 1 . benötigen.5 GB Speicherplatz (plus ein kleiner Overhead für die Metadaten). Dies ist viel effizienter als selbst das effizienteste Spiegelungsschema, bei dem Sie mindestens 2 GB Speicherplatz benötigen, um 1 GB Daten zwischen zwei Festplatten zu spiegeln.

Der Nachteil ist, dass zufällige Schreibvorgänge dank der zusätzlichen Rechen- und Schreibvorgänge, die mit dem Paritätsblock verbunden sind, verlangsamt werden. Auch die Zuverlässigkeit ist nicht so gut wie bei einem n+1 gespiegelte Festplatten, bei denen Sie sich auf den Ausfall einer beliebigen Anzahl von Festplatten vorbereiten können.

RAID-Konfigurationen können so komplex oder einfach sein, wie Sie es wünschen. Sie können die Paritäts- und Spiegelungsstrategien kombinieren und an die Bedürfnisse Ihres Unternehmens anpassen. Es gibt dedizierte RAID-Controller, an die Sie Ihre physischen Festplatten anschließen, und das Betriebssystem sieht dann eine einzelne logische Festplatte, wie vom Controller angezeigt. LSI ist ein solcher Anbieter von RAID-Controllern. Sie können RAID auch in der Software durchführen OpenZFS ist wahrscheinlich die beste Wahl, die Sie in dieser Hinsicht haben.

Eine letzte Art von RAID, die eine lobende Erwähnung erhält, ist RAID 0. Technisch gesehen handelt es sich nicht um ein RAID-Schema, da hier keine Redundanz involviert ist. Die Idee hinter RAID 0 besteht darin, Ihre Daten einfach auf mehrere Speichergeräte zu verteilen, ohne irgendein Widerstandsfähigkeit gegen Festplattenausfälle. Der Vorteil ist, dass Sie dadurch Leistungsverbesserungen erhalten. Wenn Sie 1 GB Daten auf eine einzelne Festplatte schreiben, ist der Vorgang langsam. Die Festplatte kann nur eine begrenzte Anzahl von Schreibvorgängen pro Sekunde ausführen und Ihr Betriebssystem muss warten, bis es diesen Vorgang abgeschlossen hat, bevor neue Daten gesendet werden. Wenn Sie die gleichen 1 GB Daten auf zwei solcher Festplatten verteilen, können Sie von beiden gleichzeitig schreiben (und lesen) und eine beträchtliche Leistungssteigerung erzielen.

Backups

Das Konzept von Backups ist wohl wichtiger als das von RAID. Ein Backup im Zusammenhang mit der Speicherverwaltung ist eine bekanntermaßen gute Kopie von Daten zu einem bestimmten Zeitpunkt, von der aus Sie Dateien bei Bedarf wieder auf Ihrem Hauptsystem wiederherstellen können. In Bezug auf die Implementierung gibt es viele Cloud-gehostete Lösungen und auch viele Offline-Lösungen, die verwendet werden können.

Tarsnap und Backblaze sind meine bevorzugten Managed Backup Services für private und geschäftliche Anwendungsfälle. Sie können auch Google Drive, iCloud oder Dropbox in diese Definition von a einschließen Sicherung Lösung, aber sie richten sich eher an den Verbrauchermarkt als an das Unternehmen. Das zugrunde liegende Prinzip ist jedoch immer noch das gleiche. Wenn Sie sich bei einem neuen iPhone oder iPad anmelden, werden alle Daten, Ihre Kontakte, Fotos, Medienbibliothek usw. nahtlos von Ihrem iCloud-Konto synchronisiert und wenn Sie Ihr Gerät weiter verwenden, werden die neueren Daten stillschweigend in die Cloud gesichert und Sie tun es nicht. musst dir keine Sorgen machen.

Ihre Backup-Lösung kann so einfach sein wie das Kopieren von Daten auf eine externe Festplatte oder die Verwendung von rsync (oder zfs send, wenn Sie OpenZFS verwenden), um regelmäßig eine Kopie aller relevanten Informationen zu erstellen. Dies könnte Ihren Documents-Ordner, Ihre Datenbank, Ihr Quell-Repository oder sogar Ihr gesamtes Root-Dateisystem einschließen, das in eine flache ZIP-Datei oder einen Tarball. Die wichtigen Kriterien, die eine gute Backup-Lösung erfüllen sollte, sind die folgenden:

Backups sollten häufig erfolgen - Wenn Sie Ihre Daten jeden Monat statt wöchentlich sichern, riskieren Sie bei einer Katastrophe einen Datenverlust von bis zu einem Monat.
Ihre Backups sollten in der Zeit zurückgehen - Der Backup-Speicher ist endlich. Manchmal muss man ältere Backups wegwerfen. Je mehr Speicherplatz Sie haben, desto besser können Ihre Backups sein. Angenommen, Sie sichern Ihre Daten wöchentlich, aber werfen Backups, die älter als 2 Wochen sind, weg. Wenn eine Datei versehentlich gelöscht wird und dies zwei Wochen lang unbemerkt bleibt, können Sie sie nicht wiederherstellen.
Ihre Dateien sollten eigentlich wiederherstellbar sein - Wenn Sie noch nie versucht haben, Ihre Daten aus dem Backup wiederherzustellen, haben Sie kein Backup. Sie sollten nicht lernen müssen, Daten zu dem kritischen Zeitpunkt wiederherzustellen, wenn Sie einen Datenverlust erlitten haben. Planen Sie im Voraus und wissen Sie, wie Sie das System aus dem letzten als funktionierend bekannten Backup wiederherstellen können.
Ihr Backup sollte vom laufenden System getrennt werden - Wenn eine Katastrophe eintritt und alle Ihre Dateien auf dem Produktionsserver verschlüsselt, gelöscht oder beschädigt werden, müssen Sie sicherstellen, dass das gleiche mit Ihrem Backup nicht passiert. Eine gute Möglichkeit, dies sicherzustellen, besteht darin, sicherzustellen, dass Ihr Backup-Gerät nicht mit Ihrer Produktionsumgebung „verbunden“ ist, d. h.e, trennen Sie Ihre USB-Festplatte, unmounten Sie Ihr NFS-Dateisystem, wenn Sie mit der Sicherung fertig sind. Geben Sie dem Produktionssystem zumindest nicht die Berechtigung, Ihre Backup-Daten zu überschreiben oder zu ändern. Schreibgeschützt machen.

Da wir nun ein wenig über RAID und Backup wissen, wollen wir einige Unterschiede zwischen ihnen hervorheben.

Dateien und Blöcke

Bei RAID geht es immer um Datenblöcke, nicht darum, wie das Dateisystem diese Daten dem Benutzer präsentiert. Sowohl Software- als auch Hardware-RAID behandeln Daten als Informationsblöcke, die Größe der Blöcke kann von 128 KiB bis 1 MiB variieren.

Backups hingegen sind viel flexibler. Sie werden normalerweise auf Dateisystemebene ausgeführt, obwohl es dafür keine feste Regel gibt. Sie sind auch granularer. Sie können eine einzelne Datei aus Ihrem Backup wiederherstellen, wenn Ihre Lösung flexibel genug ist. RAID-Arrays sind keine Backups, sie sind nur eine Möglichkeit, Daten auf mehrere Festplatten zu verteilen. Wenn eine Datei gelöscht wird, werden alle ihre gespiegelten Blöcke und Paritätsblöcke freigegeben. Ende der Geschichte.

Anwendungsfälle

Backups sind für alle da. Der Ansatz und der Umfang können von persönlichem Anwendungsfall zu Unternehmen variieren, aber jeder mit einem digitalen Leben braucht Backup. RAID ist eher eine geschäfts-/unternehmensspezifische Funktion. Sie sehen RAID-Arrays in Servern, Speichergeräten wie NAS und SANs, Cloud-Hypervisoren usw. So ziemlich jeder Ort, an dem kritische Live-Daten gespeichert werden, verwendet eine Form von RAID. Sogar die Server, die Ihre Cloud-gehosteten Backups ausführen, verwenden wahrscheinlich RAID-Arrays. Dies sind keine sich gegenseitig ausschließenden Technologien.

Dies bedeutet nicht, dass Sie RAID nicht für Ihren persönlichen Anwendungsfall verwenden können, es hat nur mehr Nutzen in Unternehmen. Ein Grund dafür ist, dass in Unternehmen rund um die Uhr Festplatten mit E/A-Operationen überlastet sind. In Produktionsumgebungen, wie der Speicherung einer Datenbank oder eines Video-Streaming-Dienstes oder eines Cloud-Hypervisors, wird das Speichergerät Ihres Servers ständig grausam belastet, Daten werden ständig von diesen Geräten gelesen und auf diese geschrieben und oft von mehreren Anwendungen gleichzeitig. Unter diesen Bedingungen ist es viel wahrscheinlicher, dass Ihre Laufwerke ausfallen. Eine RAID-Konfiguration bedeutet, dass Sie beim Ausfall eines Laufwerks nur geringe oder keine Ausfallzeiten erleiden. Die meisten Server können auch nach einem Festplattenausfall weiterarbeiten, damit Sie nicht jede Sekunde neue Informationen und Anfragen verlieren.

Ein durchschnittlicher Desktop-Computer kann den gleichen stressigen Zustand kaum wiederherstellen, selbst wenn die Festplatte kaputt geht. Wenn Sie eine Backup-Lösung wie Backblaze verwenden, können Sie die meisten Ihrer verlorenen Daten wiederherstellen und ein paar Stunden Arbeit zu verlieren ist wahrscheinlich das Schlimmste, was Sie tun können kann passieren. Auch dies wird dank Cloud-gehosteter Lösungen wie Adobe Creative Cloud, Office 365 usw. immer seltener.

RAID ist kein Ersatz für Backup

Wenn Sie einen einzigen Take-Away aus diesem Artikel wünschen, sollte es dieser sein. RAID ist kein Ersatz für Backup. Sichern Sie immer Ihre Daten! Es gibt viele Leute da draußen, die denken, dass ein RAID bedeutet, dass die Daten auf mehreren Festplatten sicher sind und es daher nicht erforderlich ist, sie zu sichern. Nichts ist weiter von der Wahrheit entfernt. RAID soll ein einzelnes spezifisches Problem lösen – die Festplatten versagen oder geben fehlerhafte Daten zurück. RAID schützt Sie nicht vor einer Million anderer Bedrohungen wie den folgenden:

Benutzerfehler und versehentliches Löschen
Anwendungs- oder Betriebssystemfehler, die eine weit verbreitete Datenbeschädigung verursachen
Ransomware oder andere Malware, die Ihre Daten verschlüsselt, löscht oder beschädigt
Ausfall von RAID-Controllern selbst

Die Daten auf Ihrem RAID-Array sind live. Wenn das Betriebssystem, eine Anwendung (oder ein Benutzer) durcheinander geht und hier und da ein paar Dateien löscht, wird die Datei auf Ihrem gesamten RAID-Array gelöscht. Eine separate Kopie Ihrer Daten, ein Backup, ist die einzige Möglichkeit, sich gegen diese Art von Szenario zu schützen.

Fazit

Wenn Sie sich Sorgen um Ihre Daten machen, sollte Ihre erste Sorge eine Backup-Lösung sein. Die meisten Desktop-Benutzer, außer vielleicht Power-User, sollten mehr in ein zuverlässiges Backup investieren, anstatt mit RAID1, RAID5 oder RAIDZ herumzufummeln. Wenn Sie Ihren eigenen Backup-Server aufbauen möchten, müssen Sie an eine anständige Backup-Richtlinie und ein zuverlässiges Speicher-Backend denken. Dieser Artikel ist vielleicht ein guter Anfang. Sie können rsync oder zfs send verwenden, um periodische Kopien Ihrer Daten an dieses Backend zu senden.

Wenn Sie im Unternehmen tätig sind und eine RAID-Lösung in Betracht ziehen, um alle Ihre Live-Daten zu speichern. Ziehen Sie die Verwendung von OpenZFS in Betracht, es bietet eine sehr flexible Lösung, von n-Disk-Spiegelung über RAIDZ1 mit einem Paritätsblock bis hin zu RAIDZ2 und RAIDZ3 mit 2 und 3 Paritätsblöcken. Sie müssen viel über die Anforderungen Ihrer Bewerbung nachdenken, bevor Sie eine Entscheidung treffen. Es gibt Kompromisse zwischen Ihrer Lese-/Schreibleistung, Ausfallsicherheit und Speichereffizienz. Ich würde jedoch empfehlen, erst an RAID zu denken, wenn Sie sich für eine Backup-Lösung entschieden haben.