Effektive Datensicherung mit rsync
Das URZ betreibt verschiedene Technologien zur Sicherung von Daten in Filesystemen. Diese Technologien berücksichtigen die Besonderheiten der eingesetzten Filesysteme und werden ständig weiter entwickelt. Nach einem Überblick zu den eingesetzten Verfahren wird hier eine neue Technologie vorgestellt, die auf der Softwarersync basiert und geeignet ist, die
gesicherten Daten besonders effizient zu speichern. Diese neue Technologie
soll zunächst den auf AMANDA beruhenden Backupdienst ergänzen und
mittelfristig AMANDA ablösen.
Datensicherung im URZ
Im URZ wird ein großer Teil der Speicherressourcen für die Datensicherung belegt. Dabei wurden bisher zwei unterschiedliche Verfahren genutzt:- Sicherung von Daten, die im AFS gespeichert sind. Dazu gehören alle Daten in den HOME-Verzeichnissen der Nutzer, alle WWW-Verzeichnisse, Projekt-Filesysteme u.a. Diese Daten werden mit CABS (Chemnitzer AFS Backup Suite) gesichert, einer Eigenentwicklung des URZ.
- Sicherung von Filesystemen, die auf Servern in den verschiedenen Struktureinheiten (Fakultätsserver) außerhalb des AFS liegen. Die Sicherung erfolgt bisher mit der Opensource Backup Software AMANDA.
Datensicherung mit CABS
- Die Organisation der Daten im AFS erfolgt in sogenannten Volumes. Jedes Home-Verzeichnis ist z.B. ein separates AFS-Volume.
- Mittels CABS wird täglich von allen Volumes mit denen aktiv gearbeitet wird, sogenannte RW-Volumes (schreibbar), eine nur lesbare Kopie erzeugt (RO = readonly). Zusätzlich wird an jedem Wochenende ein Arbeitsstand gesichert (BK = backup Snapshot). Diese beiden Sicherungen sind online unter den bekannten Namen YESTERDAY und LAST_WEEK z.B. im Ordner BACKUP im HOME-Verzeichnis jedes Nutzers zu finden.
- Für die meisten Volumes wird zusätzlich täglich von den RO-Volumes ein Backup angefertigt, das die geänderten Daten in Form eines Dump-Files auf einem lokalen Filesystem eines URZ-Backup-Servers ablegt. Die Daten werden damit aus dem AFS exportiert und sind nicht mehr im AFS sichtbar.
- Einmal im Monat wird von diesen Volumes ein sogenannter Fulldump erzeugt, der alle Daten eines Volumes komplett sichert. Zwei Fulldumps werden zur Sicherung immer aufbewahrt.
- Damit wird von den mit CABS gesicherten Daten immer mindestens die 4-fache Datenmenge als Speicherresourcen belegt.
- Seit Kurzem kann man per WEB-Filemanager WFM auch direkt auf diese gesicherten Daten zugreifen, siehe dazu den Beitrag "WEB-Interface zum Restore von AFS-Daten"? in dieser Ausgabe der "Mitteilungen des URZ".
Datensicherung mit AMANDA
- Die OpenSource-Software AMANDA ist für alle UNIX/Linux-Distributionen verfügbar und muss für das Backup geeignet konfiguriert werden. Für Windows-Klienten wird das SMB-Protokoll genutzt
- Pro Nacht erfolgt ein Backup, einmal pro Woche ein komplettes (full) Backup aller Daten, an den restlichen Tagen die Sicherung der geänderten Daten (incremental backup)
- Die zu sichernden Daten werden in Form von komprimierten tar-Archiven auf lokalen RAID-Arrays (sichere Plattensysteme) gespeichert.
- Auf die Daten ist kein direkter Online-Zugriff möglich.
- Nach dem Ende aller Datensicherungen schickt der Backup-Server an alle Ansprechpartner eine E-Mail und stellt weitere Informationen im AFS bereit.
- Da das URZ eine Datenhaltung von mindestens 4 Wochen gewährleistet, ist normalerweise mit einer etwa 5-fachen Menge der Originaldaten für die Datensicherung zu rechnen.
- Im WWW gibt es seit 2008 das Informationsportal
weramba, https://weramba.hrz.tu-chemnitz.de/weramba/www. Neben Informationen und Statistiken zu den Datensicherungen kann sich der Administrator des Fakultätsrechners online die Datensicherungen anzeigen und bei Bedarf das Rückstellen (restore) einzelner Dateien oder Verzeichnisse oder des gesamten Backup anfordern. Je nach Größe der Datensicherung kann das mehrere Stunden dauern.
Datensicherung mit rsync
Nach einer erfolgreichen Testphase wird seit Anfang 2009 durch das URZ die Sicherung von Daten auf Fakultätsservern mittels rsync angeboten. Die OpenSource-Software rsync ist für alle UNIX/Linux-Systeme verfügbar. Unter Windows kann im Zusammenhang mit der Software cygwin, die eine Linux-Umgebung für Windows bereitstellt, das Kommando rsync installiert werden.Wie funktioniert rsync?
Wie der Name schon sagt beruht das Prinzip auf der Synchronisation zweier Datenbestände, wobei von einer Quelle (src) die Daten zu einem Ziel (dest) übertragen werden, wenn Sie dort noch nicht vorhanden oder veraltet sind. Im Folgenden werden Möglichkeiten von rsync und Unterschiede zu anderen Backup-Technologien beschrieben:- Im Unterschied zu den meisten klassischen Backup-Systemen werden bei rsync die zu sichernden Daten nur einmal zu Beginn komplett von einer Quelle zu einem Ziel übertragen. Im Weiteren werden nach verschiedenen Kriterien nur noch die geänderten Daten ermittelt und kopiert.
- Als Quelle kann dabei ein beliebiger Rechner (Klient) dienen, der seine Daten sichern möchte, als Ziel ein Rechner (Server), der die Daten auf einem geeigneten Medium (Filesystem) speichern kann. Quelle und Ziel können aber auch zwei Verzeichnisse oder Laufwerke eines Rechners sein.
- Mit rsync kann man sehr einfach identische Kopien von Originaldaten erzeugen, man kann auch von einem Datenspiegel sprechen, vergleichbar mit RAID-Verfahren bei sicheren Plattensystemen.
- Alternativ dazu gibt es eine Möglichkeit in UNIX-Filesystemen, mittels sogenannter Hardlinks eine Backup-Technologie zu betreiben, die bei täglichen Sicherungen mittels rsync nur die geänderten Daten in einem neuen Verzeichnis speichert und alle ungeänderten Daten auf dem Server einfach mit dem Stand der letzten Sicherung verlinkt.
- rsync ist ein flexibles Werkzeug, dass mit einer Vielzahl von Optionen den Abgleich von Daten zwischen zwei Verzeichnissen bei Bedarf auf unterschiedlichen Rechnern steuert. Der Vergleich kann anhand von Verzeichnisinformationen wie Datum und Dateigröße erfolgen oder bei bereits vorhandenen Dateien in der Kopie durch Vergleich einer sogenannten Prüfsumme (MD4) von Original und Kopie, wodurch die Konsistenz der Daten auch nach langer Zeit noch sicher bestimmt wird.
- Zur Übertragung von Daten zwischen unterschiedlichen Rechnern (Klient/Server) kann rsync ein eigenes Protokoll benutzen oder als Transportmedium ein alternatives Protokoll nutzen, z.B. ssh zum sicheren Datentransfer.
- Betrachtet man die Daten auf dem Backup-Server, so gibt es von allen Daten nur genau eine Kopie. Im Gegensatz zu klassischen Backup-Technologien, bei denen Dateien in allen Fulldumps und in inkrementellen Dumps wiederholt für eine bestimmte Zeit gespeichert werden, kann somit bei rsync erheblich Platz gespart werden.
Wie kann ich im URZ Daten per rsync sichern?
- Die Methoden der Datensicherung sind im WWW auf den Seiten des URZ unter Datensicherung beschrieben. Über ein Online-Formular wird der Antrag für einen bestimmten Rechner oder ein Windows-Laufwerk gestellt.
- Auf dem Fakultätsserver muss der Zugriff auf die Daten für das URZ freigeschaltet und ggf. rsync wie beschrieben konfiguriert werden.
- Für UNIX-Systeme wird auf dem Fakultätsserver (Klient) ein Backup-Nutzer eingerichtet, der vom Backup-Server mittels eines Sicherheitsschlüssels (authority key) aufgerufen wird und ein Backup-Skript startet, das mit Rechten des Systemverwalters (root) arbeiten muss, um die Backupdaten zu ermitteln und gesichert zum Backup-Server zu übertragen.
- Auf dem Backup-Server werden die Daten im Originalformat (unkomprimiert und unverschlüsselt) auf einem lokalen, sicheren Plattensystem (RAID5|SAN) gespeichert. Bereits vorhandene Daten werden nur verlinkt.
- Windows-Systeme werden zur Zeit gesichert, indem sie per SMB vom Klienten freigegeben, dann am Backup-Server als Filesystem gemountet und die Daten lokal per rsync auf das Ziel-Filesystem kopiert werden.
Wie kann ich mit den gesicherten Daten arbeiten?
- Nach jeder Datensicherung erhält der Administrator (Ansprechpartner) des Klientenrechners eine E-Mail mit wesentlichen Informationen u.a. zum Ort der Daten, Zugriffsmechanismen und Informationsquellen.
- In einer einfachen Textdatei ist eine Übersicht über die belegten Ressourcen enthalten. Der Gesamtbedarf kann über das Online-Portal MyURZ eingesehen werden. Das URZ verwaltet die Speicherressourcen für Struktureinheiten der TU.
- Der Administrator des Fakultätsrechners kann jederzeit auf die Daten zugreifen, indem er das Backupverzeichnis per NFS oder SMB am Klienten verfügbar macht.
Datensicherung im Vergleich
An dieser Stelle soll ein Vergleich der Datenmengen der drei im URZ eingesetzten Sicherungsverfahren gegeben werden:| Originalgröße | Ein Fulldump | Komplettsicherung | |
|---|---|---|---|
| CABS | 4,3 GB | 4,2 GB | 14,6 GB |
| AMANDA | 8,5 GB | 6,8 GB | 40,9 GB |
| RSYNC | 20,8 GB | 20,8 GB | 22,6 GB |
Empfehlung zur individuellen Datensicherung
- Wer seine Daten ausschließlich im AFS speichert oder Fakultätsserver nutzt, die regelmäßig Datensicherung durchführen, kann davon ausgehen, dass seine Daten gut gesichert werden.
- In vielen Lehrstühlen werden bereits die Dienste des URZ zur Sicherung der auf Fakultätsservern gespeicherten Daten genutzt. Sowohl für die bisher mit AMANDA gesicherten Server als auch die noch nicht gesicherten Rechner wäre eine aktuelle Prüfung der Nutzung von rsync zur Datensicherung sinnvoll.
- Von vielen Mitarbeitern und Studenten werden für die tägliche Arbeit mobile Geräte genutzt, z.B. Laptops aber auch Daten auf lokalen Plattenbereichen von Arbeitsplatzrechnern abgelegt. Dabei besteht ein ständiges Risiko für Datenverlust. Daher empfiehlt es sich, möglichst täglich (vor Beginn oder Ende der Arbeit) eine Sicherung des lokalen Arbeitsbereiches auf ein Netzfilesystem zu machen. Das kann z.B. ein Laufwerk auf einem Fakultätsserver sein oder ein Projektfilesystem bzw. das HOME-Verzeichnis im AFS (Server im URZ).
- Das Kommando rsync liefert dazu ein einfaches Hilfsmittel. Dazu kann man z.B. ein einfaches Skript zum Aufruf von rsync mit festem Quell- und Zielverzeichnis aufrufen, das eine Kopie der zu sichernden Daten auf einem Zielordner erzeugt, von dem dann automatisch ein Backup erzeugt wird. Ein einfaches Beispiel für ein Skript unter Windows ist:
@ECHO OFF ECHO *** Backupscript per rsync *** # Backup LW C:/Daten mach LW U:/Backup rsync.exe -a -v --delete /cygdrive/C/Daten/ /cygdrive/U/Backup # /cygdrive verweist auf cygwinIst dieses kleine Skript einmal eingerichtet, werden durch einfachen Aufruf oder Anklicken die aktuell geänderten Daten gesichert und es geht in der Regel auch recht schnell, wenn keine riesigen Dateien neu angelegt wurden. - rsync ist auf allen vom URZ administrierten Linux/Windows-Systemen installiert
- Im Internet findet man bei der Suche nach "rsync windows" viele Möglichkeiten zur Installation unter Windows-Systemen, z.B. cwrsync. Ein grafisches Tool auf Basis von rsync ist Unison.
- Neben rsync können natürlich beliebige andere Programme zur Sicherung der Daten genutzt werden. Wird als Ziel der Sicherung ein Verzeichnis genutzt, für das ein tägliches Backup nach oben geschilderten Prinzipien erfolgt, dann kann man von den Vorteilen des komfortablen Umgangs mit Backups profitieren.
Schlussbemerkungen
- Viele Tipps und Beschreibungen zur Nutzung von rsync und darauf basierenden Werkzeugen findet man auf der HOME-Page von rsync
- Es ist ein Irrtum zu glauben, dass die größte Gefahr für Datenverluste von defekter Technik ausgeht. Eigene Fehler und nicht überschaubare Fehler bei Anwendung verschiedener Applikationen einschließlich der Betriebssysteme selbst stellen ein vielfach höheres Risiko dar.


