Mit der Deduplizierung gespeicherter Daten können auch kleine und mittelständische Firmen Storage-Kosten sparen. Unser Ratgeber erklärt wie es geht.
von von Kriemhilde Klippstätter
Deduplizierung ist eine Technik, mit der redundant vorhandene Daten identifiziert und durch einen Zeiger ersetzt werden. Er verweist auf die Stelle, an der die Information erstmalig aufgetaucht ist. Der Zeiger ist um ein Vielfaches kleiner als das eigentliche Datum. So spart man Speicherplatz – meist viel mehr als durch Datenkompression.
Die Technik ist seit längerem bekannt und gehört zumindest in vielen Großunternehmen zur Standardprozedur bei der Datensicherung. Dabei eignet sich Deduplizierung auch hervorragend für kleine und mittelgroße Firmen, weil auch sie unter der ständig steigenden Informationsflut leiden, die irgendwie bewältigt werden muss.
Mittlerweile gibt es einige Spielarten der Reduzierungsmethode und auch neue Anwendungsgebiete. Bezüglich der Methoden unterscheidet man zwischen dem synchronen Verfahren, wo die Daten beim Schreiben auf den Speicher dedupliziert werden und dem asynchronen Vorgehen, bei dem die Analyse zur Deduplizierung erst nach dem Speichern erfolgt.
Wann und wie wird dedupliziert?
Das synchrone Verfahren bringt sofort Vorteile, weil die Daten, die doppelt vorhanden sind, nur einmal abgelegt werden, die zweite und folgende Kopien erhalten nur mehr den Zeiger auf das erste Datum. Die Erkennungsarbeit wird meist im Hauptspeicher erledigt, was I/O-Verwaltung und Speicherplatz spart, aber Ressourcen bindet. Es besteht die Gefahr, dass Deduplizierung zum Flaschenhals wird. Trotzdem sind die Vorteile der „On-the-Fly“-Verarbeitung so groß, dass sie am häufigsten eingesetzt wird.
Wird asynchron dedupliziert, müssen alle Daten zunächst zwischengespeichert werden, bevor die Nachbearbeitung dann die Duplikate aussondert. Das kostet Speicherplatz und viel I/O-Verkehr, spart allerdings Transferzeit, etwa beim Backup, weil die Daten nur durchgeschoben werden.
Das zweite Kriterium, worin sich die Verfahren unterscheiden, ist die Feinheit, mit der aussortiert wird. Die File-Level-Deduplizierung untersucht ganze Files auf Redundanzen. Dieses Verfahren, das auch als „single instancing“ bezeichnet wird, überprüft die Inhalte der Dateien nicht auf Kopien. Das bedeutet, dass jede kleine Änderung in einem File zu einem erneuten Speichern der ganzen Datei führt. Das kostet Speicherplatz, reduziert aber den Verwaltungsaufwand.
Bei der Deduplizierung auf Block-Level wird der Inhalt des Files in Blöcke (mit variabler oder fester Größe) aufgeteilt und dann auf Redundanzen hin untersucht. Mehrfach Vorhandenes sowohl innerhalb der Datei als auch zwischen unterschiedlichen Dateien wird aussortiert. Dieses Verfahren verbraucht mehr Rechenleistung und führt zu längeren Indexlisten als die File-Level-Betrachtung. Zudem besteht die Gefahr der „Hash-Kollision“: der Deduplizierungs-Algorithmus, der die Blöcke untersucht, findet einen Block mit der gleichen Hash-Zahl wie ein schon gespeicherter und speichert die neuen Inhalte deshalb nicht.
Wer es ganz genau mag, verwendet die Deduplizierung auf Byte-Level, wo, der Name sagt es schon, Byte für Byte betrachtet und doppelt vorhandene Daten aussortiert werden. Leicht einzusehen, dass damit ein großer Aufwand verbunden ist, der zudem viel Zeit beansprucht. Dieses Verfahren eignet sich allenfalls bei einem asynchronen Deduplizierungsprozess.
Die gängigste und am meisten verwendete Form ist die synchrone Block-Level-Deduplizierung, die schnell und ohne ungebührlich großen Verwaltungsaufwand auskommt, aber dennoch ein hohes Einsparpotenzial birgt. Die Marktforscher von IDC beziffern die durchschnittlichen Deduplizierungsraten für File Deduplication auf einen Wert von 5:1; Block Deduplication kommt auf 20:1.
Was wird dedupliziert?
In den Anfangsjahren wurde Deduplizierung vor allem beim Backup auf Band oder später auch auf Disk eingesetzt. Im Laufe der Zeit setzte sich die Technik aber so erfolgreich durch, dass man begann, auch die Kapazität der teuren Primärspeicher mit Deduplizierung zu vergrößern indem man die Volumina reduzierte.
Die Verfahren dabei sind unterschiedlich: Deduplikation kann als Programm im Server angestoßen werden oder in einer Appliance ablaufen, die zwischen dem Host-Rechner und dem Speicher-Array platziert ist. Sie kann aber auch im Speicher selbst erfolgen. Laut IDC liegen die Reduzierungsraten für Primärspeicher zwischen Werten von 2:1 und 5:1 – eine Menge, wenn man die Kosten für Primärspeicher bedenkt.
Die Deduplizierung der Primärdaten schafft neben der Kapazitätsverringerung noch zusätzliche Vorteile. So beispielsweise bei der Datenreplikation und Datensicherung, wenn zur Wiederherstellung der Systeme die deduplizierten Daten verwendet werden: Man spart an Bandbreite und steigert die Leistung.
Teil 2: Marktübersicht - Wer dedupliziert wie?
Wir haben eine Umfrage unter einigen Herstellern von Deduplizierungslösungen für den Mittelstand unternommen. Die Übersicht zeigt die wichtigsten Ergebnisse.
Produktname |
Hersteller |
Hardware-Appliance |
Dedup.
|
Einspar-
|
synchron/
|
Block/
|
DXi 4000 |
Quantum Corp. |
ja |
ja |
> 90 % |
synchron |
variable Blocklänge |
Data Domain DD160 |
EMC |
ja |
ja |
10:1 - 30:1 |
synchron |
variable Segmente |
Hitachi Content Platform |
Hitachi Data Systems |
ja |
ja |
je nach |
asynchron |
File-Level |
HP StoreOnce Backup |
Hewlett-Packard |
ja |
ja |
20 : 1 |
synchron |
Block-Level |
Acronis B & R 11.5 |
Acronis |
nein |
ja |
bis zu 90 % |
Kombination |
Beides |
Avamar Client StorCenter |
EMC /Iomega |
nein |
ja |
bis zu 95 % |
an der Quelle |
File-Level |
Symantec Backup Exec |
Symantec |
nein |
gemäß Lizenz-modell |
10 : 1 |
synchron |
Block-Level |
Symantec 3600 Appliance |
Symantec |
ja |
ja |
10 : 1 |
synchron |
Block-Level |
FDS / VTL |
FalconStor |
ja, auch als SW |
ja |
20 :1 bis 60 : 1 |
sowohl als auch |
Beides |
CA ARCserve Backup r16 |
CA Technologies |
nein |
ja |
1 : 15 |
hybrid synchron |
Beides |
Hitachi Data Protection |
OEM Commvault |
nein |
optional |
je nach dem |
synchron |
Block-Level |
Dell DR4000 |
Dell |
ja |
ja |
je nach dem |
synchron |
Block, Subblock |
Sun ZFS Storage 7120 |
Oracle |
ja |
ja |
20 : 1 |
synchron |
keine Angabe |
Data ONTAP |
NetApp |
ja |
ja |
20 : 1 |
asynchron |
Beides |
VTL, SVC, V7000 |
IBM |
ja |
ja bei VTL |
je nach dem |
synchron |
Beides |
TSM |
IBM |
nein |
ja |
je nach dem |
asynchron |
Beides |
DXi 4000 von Quantum
Die Hardware-Appliance skaliert von 4 bis 12 TB (Nutzkapazität) und wurde spezielle für kleine bis mittelgroße Unternehmen und Zweigstellen entwickelt. Sie unterstützt laut Hersteller alle führenden Backup-Anwendungen. Dazu sollen auch „speziell für virtuelle Server konzipierte Systeme“ gehören.
EMC Data Domain DD160 von EMC
Das EMC DataDomain OS nutze “variable Segmente”, erklärt der Hersteller. Das heißt, es werden Segmente aus den Daten gebildet, um eine effiziente Deduplizierung zu erreichen. Die Deduplizierung erfolge inline, noch vor dem Schreiben auf Disk und skaliere damit über die CPU-Leistung. Den Angaben zufolge sollen sich der Gesamtdurchsatz auf bis zu 32 TB in der Stunde steigern und die Netzwerklast trotzdem um 80 bis 99 Prozent reduzieren lassen. Basispreis: 8925 Euro inkl. MWST.
Hitachi Content Platform (HCP) von Hitachi Data Systems
Als Besonderheiten des Produkts bemerkt der Hersteller: „Deduplizierung von Objekt- und Archivdaten auf File/Dokumentebene in HPC als einem zentralen Content Repository, auf Mandanten-Ebene einstellbar. HDS verlangt für eine „HCP300“ mit 8 TB Nettokapazität und drei Jahren Wartung 35.000 Euro.
HP StoreOnce Backup Systems von Hewlett Packard
HP wirbt mit einer „einheitlichen Deduplizierungs-Engine über alle Produkte der HP StoreOnce Backup Systems hinweg“. Enthalten sind unter anderem eine Schnittstelle für Backup-Software sowie Low-Bandwith-Replication. Preis der Lösung: ab 8100 Euro zuzüglich MWST.
Acronis Backup & Recovery 11.5 von Acronis
Acronis hat die Deduplizierungssoftware vollständig in die „Acronis Backup & Recovery 11.5 Advanced Platform“ integriert. Die Deduplizierung kann laut Hersteller auf Image- und Datei-Backups angewendet werden.
Avamar Client auf StorCenter px von EMC/Iomega
Als Besonderheit meldet der Hersteller, dass die Deduplizierung an der Quelle erfolgt, bevor die Daten übers Netz zum Speicher gesandt werden. Die Netzwerkbandbreite für das Backup soll sich so um bis zu 99 Prozent reduzieren lassen. Das Produkt ist kostenloser Bestandteil von „Iomega StorCenter px“- Systemen.
Symantec Backup Exec 2012 von Symantec
Das Produkt eignet sich auch für virtuelle Umgebungen und soll laut Hersteller Backup und Disaster Recovery vereinfachen, sowie Daten oder Systeme in jedem Umfang wiederherstellen - und das vom einzelnen Objekt bis hin zum kompletten Server.
Symantec Backup Exec 3600 Appliance
Symantec positioniert das Gerät als Komplettlösung für Backup und Recovery – Software und Hardware aus einer Hand sollen die Komplexität reduzieren.
File Interface Deduplication System (FDS)/Virtual Tape Library (VTL) von FalconStor
FalconStor setzt vor allem auf Schnelligkeit und wartet mit einer Deduplizierungsgeschwindigkeit von bis zu 40 TB in der Stunde auf. Komfortables Management sowie ein gemeinsames Repository für FDS und VTL und Wahlfreiheit beim Deduplizierungsprozess ergänzen die Lösung, die ab 1700 Euro zu haben ist.
CA ARCserve Backup r16 von CA Technologies
Die Lösung bietet laut Hersteller in einem Produkt Datendeduplizierung, Backup-Kopien im Cloud-Speicher, vollständigen synthetischen Backup, differenzierte Wiederherstellung von Anwendungen und bedient auch virtuelle Server.
Hitachi Data Protection von Commvault, als OEM-Produkt bei HDS
Die Software dedupliziert Backup- und Archivdaten auch auf Band und schließt die Möglichkeit zur Verschlüsselung ein.
Dell DR4000 von Dell
Die laut Hersteller „hocheffektive Datendeduplizierung“ ist mit unterschiedlichen Kapazitäten verfügbar und ab rund 6900 Euro zu haben.
Sun ZFS Storage Appliance 7120 von Oracle
Der Hersteller nennt eine Fülle von Funktionen, die die Appliance beherrsche, unter anderem Hybrid Storage Pool, Real-time Analyse und Diagnose und vieles mehr. Basispreis 19.000 Euro.
Data ONTAP von Netapp
Die Lösung eignet sich laut Hersteller zur Deduplizierung sowohl von Primär- als auch Sekundärdaten und ist kostenloser Bestandteil des Netapp-Betriebssystems ONTAP.
VTL, TSM, SVC, V7000 von IBM
IBM hat seine Produkte im Fragebogen zusammengefasst und unterscheidet zwischen Primärdaten, wo aus Performance-Gründen eher komprimiert wird, und Backup/Restore.
(Dieser Beitrag wurde von der ChannelPartner-Schwesterpublikation Computerwoche übernommen / rb)