Archive, Formate, Revisionsicherheit

Was ist was bei der Archivierung

29.08.2013 von Klaus Manhart
Geschäftsdokumente müssen von jedem Unternehmen langfristig und sicher archiviert werden. Sie sollten so gespeichert werden, dass sie Compliance-Regeln und rechtlichen Anforderungen genügen. Hier finden Sie die wichtigsten Begriffe.
Formatfrage: PDF/A gilt als Standard für Langzeitarchivierung. Foto: PDF Association
Foto: PDF Association

Geschäftsdokumente müssen heute von jedem Unternehmen langfristig und sicher archiviert werden. Sie sollten so gespeichert werden, dass sie Compliance-Regeln und rechtlichen Anforderungen genügen. Hier finden Sie die wichtigsten Begriffe, die Sie für die Dokument-Archivierung unbedingt kennen sollten.
von Dr. Klaus Manhart
Heute müssen Unternehmen immer mehr elektronisch erzeugte, verarbeitete und gespeicherte Dokumente und Daten langfristig archivieren. Die Geschäftsdaten sollten dabei dauerhaft und applikationsneutral archiviert und so gespeichert werden, dass sie autark und über den gesamten Document-Lifecycle lesbar sind.

Das ist aus zwei Gründen wichtig: Zum einen hat jedes Unternehmen seine internen Compliance-Regeln und regulatorischen Anforderungen, die zum Teil auch branchenspezifisch sind. Zum anderen gibt es die vom Gesetzgeber verlangten Aufbewahrungspflichten. Im öffentlichen Bereich etwa müssen Daten über mindestens 70 Jahre vorgehalten werden.

Zurzeit gibt es zwar nur wenige Segmente wie das Sozialgesetzbuch, in denen die Archivierung elektronischer Unterlagen gesetzlich geregelt ist. Der Gesetzgeber spricht aber ganz klar von einer allgemeinen Aufbewahrungspflicht, der Unternehmen und öffentliche Verwaltungen nachkommen müssen - egal, ob die Dokumente in Papierform oder digital vorliegen.

Tipp 1:
Archivierte Daten sollten aus Sicherheitsgründen alle fünf Jahre umkopiert werden. Das gilt auch für optische Speichermedien, die laut Hersteller eine längere Speicherdauer ermöglichen.
Tipp 2:
Ähnlich wie beim Erstellen von Backups ist es sinnvoll, nach dem Umkopieren zu testen, ob die Daten fehlerfrei übermittelt wurden.
Tipp 3:
Daten sollten auf mindestens zwei unterschiedlichen Medien gespeichert werden, etwa einem Magnetband und optischen Speichermedien oder einem CAS-Storage-System.
Tipp 4:
Damit auch nach einem Brand oder Wasserschaden ein Satz der archivierten Daten zur Verfügung steht, sollte eine Kopie der Informationen an einem zweiten Standort gelagert werden. Dies kann auch im Rechenzentrum eines externen Dienstleisters erfolgen.
Tipp 5:
Nach jedem Umkopieren der Daten ist zu prüfen, ob die Meta-Daten vollständig sind. Diese müssen gegebenenfalls ergänzt werden.
Tipp 6:
Vor der Anschaffung einer Archivlösung sind die Systemvoraussetzungen zu ermitteln: unterstützte Betriebssysteme, Datenbanken, Speichermedien und -systeme und Netzwerkkomponenten.
Tipp 7:
Installation und Konfigurationsprozesse eines Archivierungssystems sollten Unternehmen kritisch unter die Lupe nehmen, speziell Faktoren wie Benutzerfreundlichkeit, die Anpassung an die vorhandene IT-Infrastruktur und die bestehenden Arbeitsprozesse.
Tipp 8:
Sicherheitsfunktionen sind ebenfalls zu prüfen, etwa wie Datentransfers innerhalb und außerhalb des Systems abgesichert werden (Verschlüsselung) und welche gesetzlichen Vorgaben das System erfüllt (Datenschutz). Hier spielt auch das Patch-Management eine wichtige Rolle.
Tipp 9:
Schnittstellen und Interoperabilität: Wichtig sind Schnittstellen zu Tools, etwa für die Migration von Daten, sowie die Verträglichkeit mit selbst erstellten Scripts. Ein zentraler Punkt sind Schnittstellen für den Import und Export von Daten. Herstellerspezifische Ansätze führen zu einem "Vendor-Lock-in".
Tipp 10:
Datentypen: Nur solche Formate sollten verwendet werden, die für die Langzeitarchivierung freigegeben wurden, etwa PFD/A, TIFF, JPEG, SGML und XML. Das Archivierungssystem muss die automatisierte Umwandlung anderer Formate, etwa .doc oder .xslx, in diese Standardformate unterstützen.
Tipp 11:
Meta-Daten müssen in einem Format gespeichert werden, das für Langzeitarchivierung ausgelegt ist, etwa PREMIS. Zudem sind Arbeitsabläufe so zu gestalten, dass alle Dokumente mit Meta-Daten versehen und indiziert werden.
Tipp 12:
Zudem sollte eine Risikovorsorge getroffen und eine Exit-Strategie entwickelt werden: Sicherzustellen ist unter anderem, dass sich Daten komplett exportieren und wiederherstellen lassen, wenn eine Archivierungssoftware nicht mehr zur Verfügung steht. Eine zentrale Rolle spielen hierbei die Datenexportformate.

Langzeitarchivierung und revisionssichere Archivierung

Mit digitaler Archivierung ist allgemein die datenbankgestützte, langfristige und sichere Speicherung von Daten gemeint. Die Informationen müssen stabil und geschützt aufbewahrt werden und wieder reproduzierbar sein. Von Langzeitarchivierung spricht man, wenn die Dokumente mindestens zehn Jahre gespeichert werden sollen.

Die revisionssichere Archivierung geht noch einen Schritt weiter und verschärft die Anforderungen - wie etwa, dass die Daten auf dem Archivträger unveränderbar zu speichern sind.

Die revisionssichere Archivierung verlangt insbesondere, bestimmten gesetzlichen Vorgaben zu genügen. Das sind hauptsächlich die Forderungen, wie sie das Handelgesetzbuch (HGB), die Abgabenordnung (AO) und die Grundsätze ordnungsmäßiger DV-gestützter Buchführungssysteme (GoBS) beschreiben.

Aus dem HGB lassen sich zehn Merkmale der revisionssicheren Archivierung ableiten. Die wichtigsten davon sind:

Records Management

Records Management (RM) ist eine Möglichkeit der revisionssicheren Archivierung. RM entspricht im Deutschen in etwa der Begriff "Aktenführung" oder "Schriftgutverwaltung". Dessen Ziel ist es, wichtige, aufbewahrungswürdige und vor allem aufbewahrungspflichtige Informationen nachprüfbar zu dokumentieren und abzulegen.

Für das elektronische Records Management stehen Programme zur Verfügung, die digitale Medien und herkömmliche physische Archive verwalten. RM-Software bietet beispielsweise Funktionen zur geordneten Ablage von Informationen, zur Thesaurus- und wortgestützten Identifizierung sowie zum Schutz von Dokumenten oder bestimmten Teilen davon.

Zeitstempel und elektronische Signaturen ermöglichen die Verwaltung von Aufbewahrungs- und Vernichtungsfristen. Um nachträgliche Veränderung auszuschließen, erledigt die RM-Software auch die Speicherung der Daten auf physisch unveränderbaren Medien.

Records Management ist im Übrigen kein Thema, das sich nur auf reine Dokumente bezieht. So wird es zunehmend wichtig, auch Inhalte wie Web-Content revisionssicher zu hinterlegen. Damit lassen sich beispielsweise Änderungsstände einer Website zu einem bestimmten Zeitpunkt dokumentieren - und für gerichtliche Auseinandersetzungen nachweisen.

Archivsysteme

Marktübliche Archivlösungen bestehen heute meist aus mehreren Elementen. Sie müssen zum einen auf die Robustheit und Langlebigkeit der Hardware achten, zum anderen sollte die genutzte Software die Datenmigration erleichtern.

Ablauf: Archivsysteme - im Bild Secdocs von Fujitsu - verfügen über einen definierten Workflow. Foto: Fujitsu
Foto: Fujitsu

Für die normale Langzeitarchivierung genügen Archivsysteme, die aus Datenbanken, Archivsoftware und Speichersystemen bestehen. Diese Systeme basieren meistens auf einer Referenzdatenbank und verweisen mit den Verwaltungs- und Indexkriterien auf einen externen Speicher, in dem die Informationsobjekte gehalten werden.

In der Regel ist das Archivsystem in eine IT Infrastruktur eingebunden und wird von verschiedensten IT-Systemen genutzt. Das zu archivierende Dokument erhält das Archivsystem entweder direkt vom Client oder von einer anderen Anwendung. Das Dokument wird zunächst in einen Zwischenspeicher gelegt, und es wird eine Dokument-ID generiert. Zu dieser Dokument-ID werden zudem entsprechende Stichwörter in einer Indexdatenbank gespeichert.

Die Datenbank erlaubt es über den Index jederzeit, das Dokument wiederzufinden und dem Anwender bereitzustellen. In den meisten Fällen erfolgt in regelmäßigen Intervallen eine Datensicherung auf einen nicht veränderbaren Datenträger.

NCI- und CI-Dokumente

Bei der Archivierung wird grundsätzlich zwischen dem physischen (Papier-)Dokument und dem digitalen Dokument unterschieden. Physische Dokumente liegen in der Regel in Papierform oder anderen analogen Formaten vor. Die im Dokument enthaltenen Informationen können nur von Menschen verarbeitet werden. Sie lassen sich jedoch durch Scanner in eine digitale Form überführen.

Um Medienbrüche zu vermeiden, wird heute in vielen Unternehmen eine komplette Digitalisierung angestrebt. Digitalisierte Dokumente können als Non Coded Information"-Dokumente (NCI) und "Coded Information"-Dokumente (CI) vorliegen.

NCI-Dokumente sind digitalisierte Abbilder, also Faksimiles, des papiergebundenen Originals. Sie liegen nur als Rasterbild vor. Um die Datei elektronisch bearbeitbar zu machen oder sie per Volltextsuche wiederzufinden, muss das NCI-Dokument mittels Optical-Character-Recognition (OCR)-Software in CI-Dokumente transferiert werden.

Ein CI-Dokument ist ein digital erstelltes Dokument, das durch Zeichensätze kodiert ist und von Programmen direkt ausgewertet werden kann. Durch Techniken wie OCR lassen sich aber NCI-Dokumente in CI-Dokumente überführen. In CI-Dokumenten ist im Unterschied zu NCI-Dokumenten eine Volltextrecherche möglich.


Ein Treffpunkt der Dokumentenbranche: Der Channel Solution Day "Drucken und Archivieren".

ChannelPartner-Chefreporter Armin Weiler begrüßt die Gäste.

Oliver Jendro von Dokulife erörtert in der Eröffnungs-Keynote die Auswirkungen von mobilen Geräten auf gedruckte Dokumente.

Nicole Glaremin (Also) und Marco Block (Canon, links) im Gespräch mit ChannelPartner-Chefreporter Armin Weiler.

Das Publikum folgt interessiert den Ausführungen der Referenten.

PFU-Manager Roland Kastner erläutert einem Gast die Vorteile der Fujitsu-Dokumentenscanner.

Marco Block, Area Manager DIMS / Region West bei Canon, beschreibt die Veränderungen im Scannermarkt.

Helmut Dürbaum (Epson) zeigt die Vorteile von Business-Ink-Geräten.

Am Stand von Also informieren sich die Händler neben den MPS-Angeboten des Distributors auch über Produktneuheiten von Hewlett-Packard und Canon.

Epson-Manager Andreas Asel schlägt die Bücke zwischen kosmischen Ereignissen und MPS-Business.

Gute Stimmung am Stand von Notable Solutions (NSi).

Canon-Scannerspezialist Marco Block gibt Auskunft über seine Produkte.

Dass MPS mehr als nur Drucken ist, verdeutlicht Frank Gießler, Regional Sales Manager MFP & OEM Imaging Sales D-A-CH bei Nuance Communications Germany.

Die Teilnehmer nutzen den Ausstellungsbereich für angeregte Gespräche.

Glückliche Teilnehmer - das freut den Veranstalter!

Stethos-Geschäftsführer Stefan Schmidt stellt sich gerne den Herausforderungen für mobiles Drucken in Firmennetzwerken.

Mark Muschelknautz, Leiter Marketing & Communication EMEA bei NSi, rät Händlern, sich über Software-Lösungen zu differnzieren.

Roland Kastner (PFU) referiert über Fujitsu-Dokumentenscanner.

Was NSi zur Dokumentenerfassung anbietet, kann man bei Mark Muschelknautz erfahren.

Thomas Dörschner, Solution Marketing Manager bei Samsung, beleuchtete die zunehmende Konvergenz der Produkte und deren Auswirkungen.

Hans-Werner Stottmeister, Geschäftsführer der Off Script GmbH, verdeutlicht die Vorteile eines herstellerunabhängigen MPS-Systems.

Am Anschluss der Vorträge besteht häufig noch weiterer Informationsbedarf wie hier bei Nuance.

In der abschließenden Expertenrunde diskutiert die Runde über die Frage: "Verpennt der Fachhandel das Lösungsgeschäft?"

Geschafft! Jetzt haben sich die Akteure ein Feierabendbier verdient!

Datenerfassung: OCR, ICR und OMR

Nicht-digitale Dokumente lassen sich teil- und vollautomatisch erfassen. Eine teilautomatische Erfassung ist zum Beispiel das Einscannen von Textdokumenten. Hierzu werden verschiedene Erkennungstechnologien wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) oder OMR (Optical Mark Recognition) genutzt.

Bei OCR (Optical Character Recognition) wird der Text einer gedruckten Vorlage durch einfachen Mustervergleich automatisch erkannt und in maschinenlesbare Zeichen transformiert. Auf diese Weise wird möglichst 1:1 ein digitales Abbild der Papiervorlage erzeugt. Das elektronische Dokument kann dann digital weiterarbeitet und gespeichert werden - das Original kann klassisch archiviert oder auch vernichtet werden.

Moderne Texterkennung geht heute aber über OCR hinaus. Bei der Weiterentwicklung "Intelligent Character Recognition" (ICR) wird die Qualität der Texterkennung durch Kontextanalyse verbessert. Typische Fehler von OCR-Systemen wie ein eingescanntes "8estellung", bei dem "B" als "8" identifiziert wird, können durch ICR-Methoden korrigiert werden, wenn der Kontext berücksichtigt wird. Dabei wird die Qualität der Ergebnisse durch Vergleiche mit Wörterbüchern und einen Abgleich mit Referenzlisten und statistisch-linguistischen Verfahren verbessert.

Die dritte Erkennungstechnologie "Optical Mark Recognition" (OMR) liest mit großer Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich beim Einlesen von Fragebögen, Multiple-Choice-Tests und Vordrucken bewährt.

Neben manueller und halbautomatischer Erfassung lassen sich Daten auch vollautomatisch - direkt aus Anwendungsprogrammen heraus - generieren. Beispielsweise kann ein ERP-System Bestelldaten erzeugen, wenn es den Lagerbestand automatisch über eine Schnittstelle prüft.

Archivierungsmedien I: HD, Bänder, Cloud

Für die normale, nicht revisionssichere Archivierung kommen vor allem Festplatten und Magnetbänder in Betracht. Beide Systeme sind wiederbeschreibbar, also nicht revisionssicher.

Normale Festplatten eignen sich aufgrund des hohen Ausfallrisikos allerdings nur bedingt für die Langzeitarchivierung. Die meisten Hersteller geben eine durchschnittliche Lebensdauer von fünf Jahren an. Bei Festplatten, die nur als Backup-Medium dienen, kann man von einer Haltbarkeit von zehn Jahren ausgehen.

Anders sieht es aus, wenn man Festplatten in einem RAID-Verbund zusammenschließt. Durch Redundanz wird die Ausfallsicherheit erhöht RAID 5 beispielsweise ist eine kostengünstige Möglichkeit, Daten auf mindestens drei Festplatten redundant und für den Nutzer bequem handhabbar zu speichern.

Magnetbänder sind seit Jahrzehnten im Einsatz und eignen sich besonders zur Speicherung großer Datenmengen. Da auf Bänder nur sequentiell zugegriffen werden kann, ist der Datenabruf allerdings langsam. Aufgrund der hohen Kapazitäten bei langen Zugriffszeiten eignen sich Bänder vor allem für Backups von laufenden Systemen. Die Lebensdauer von Bändern ist von vielen Faktoren abhängig, unter normalen Bedingungen erreichen sie eine Lebenszeit zwischen 20 und 30 Jahren.

In neuerer Zeit kommt auch die Cloud als Archivspeicher in Mode. Die zu archivierenden Dokumente werden hier nicht mehr lokal im Rechenzentrum gespeichert, sondern in weltweit vernetzten Cloud Data Centern. Symantec bietet beispielsweise mit Enterprise Vault.cloud bereits ein Cloud-basiertes Archivsystem an. Rechtlich sind Cloud-Archive allerdings noch umstritten.

Archivierungsmedien II: revisionssicher speichern

Weil Festplatten und Magnetbänder wiederholt beschreibbar sind, gehören sie nicht zu den revisionssicheren Medien. Bei einer revisionssicheren Archivierung dürfen die Daten auf dem Medium nur einmal geschrieben werden und anschließend weder veränderbar noch löschbar sein. Solche Storage-Medien bezeichnet man als WORM (Write Once, Read Many).

WORM-Datenträger sind im Idealfall physikalisch vor Veränderungsmöglichkeiten geschützt. Dies ist bei TrueWORM-Medien wie optischen und magnetoptischen Datenträgern der Fall. Hier ist die Write-Once-Eigenschaft von der Hardware vorgegeben.

Bei anderen Medien, die die WORM-Eigenschaft nicht per se aufweisen, kann das Write-Once-Merkmal über eine Softwarelösung "nachgerüstet" werden; man spricht dann von SoftWORM.

TrueWORM-Systeme sind digital-optische Wechseldatenträger wie die CD-R oder DVD-ROM. Da sie nur einmal beschreibbar sind, werden sie den rechtlichen Anforderungen der Unveränderbarkeit von Daten gerecht.

Optische Medien wie CD-Rs, DVDs, DVD-RAMS und Blu-ray-Discs haben zudem den Vorteil, dass durch das berührungslose Auslesen kein mechanischer Verschleiß stattfindet. Das BSI empfiehlt CD-Rs für kleine Archive und DVD-R und DVD-RAMs und Blu-ray-Discs für mittelgroße Archive. Für sehr große Archive sind diese Datenträger nicht geeignet.

Was die Haltbarkeit betrifft, geht man von deutlich weniger als 30 Jahren aus. Bei DVD-RAMs sind es bis zu 30 Jahre, bei Blu-ray-Discs etwa 50 Jahre.

Aktuell kommen diese Speichermedien im Zeitalter serverbasierter Speicherung und Cloud-Lösungen als Träger von digitalen Informationen aus der Mode, sind aber aus historischen Gründen immer noch im Einsatz.

Archivierungsmedien III: Revisionssicherheit nachrüsten

Um auf Festplatten revisionssicher zu speichern, kann man die WORM-Funktionalität softwaretechnisch als SoftWORM über Contend Adressed Storage (CAS) nachbilden. Dabei wird jedes digitale Objekt, das in einem CAS-System abgelegt wird, über einen Hash-Wert repräsentiert. Ein Überschreiben oder Verändern von Daten ist damit unmöglich.

Auch NAS/SAN-Systeme können für die revisionssichere Archivierung eingesetzt werden, wenn sie die Bedingungen der Revisionssicherheit mit unveränderbarer Speicherung sowie Schutz vor Manipulationen und Löschen erfüllen.

Magnetbänder lassen sich ebenfalls auf die Anforderungen professioneller Archivierungszwecke hochrüsten. Ist eine revisionssichere Speicherung auf Bändern erforderlich, können kryptografische Verfahren, die eine Änderung der Daten anzeigen, eingesetzt werden.

WORM-Tapes stellen über spezielle Bandmedien und besondere Laufwerke die Einmalbeschreibbarkeit sicher. Besonders in Rechenzentren, in denen Bandroboter und Library-Systeme bereits vorhanden sind, sind WORM-Tapes eine einfach zu integrierende Komponente für die Langzeitarchivierung.

Die wichtigsten Archivformate

Zu archivierende Dokumente sollten immer in dafür geeigneten Formaten archiviert werden. Institutionen wie das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfehlen die Beschränkung auf Standardformate.

Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XML. Für die Archivierung infrage kommen aber auch Bildformate wie TIFF.

Da zum Archivierungszeitpunkt oft nicht klar ist, welche Merkmale eines Dokumentes für eine spätere Reproduktion erforderlich sind, wird das Originaldokument oft in mehreren Formaten gespeichert, was als Rendition bezeichnet wird.

Neben der strukturellen Repräsentation in einer XML-Datei speichern deshalb viele Archivierungssysteme das Dokument in Form eines TIFF-Bildes, gegebenenfalls auch zusammen mit einer elektronischen Signatur zur Beglaubigung der Authentizität.

Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt, bestes Beispiel ist PDF von Adobe. Die Spezifikation ist frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.

Beim BSI finden Sie eine Liste von Formaten, die für die langfristige Archivierung von Text-, Bild-, Audio- und Videodateien geeignet sind.

Archivformate - Beispiel PDF

PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format ("A" = Archive) als Standard für die Langzeitarchivierung von Dokumenten zertifiziert. Das BSI empfiehlt dieses Format ebenfalls für die Langzeitarchivierung. Seitdem wird PDF im Markt hoch gehandelt.

Der Standard PDF/A (ISO Standard 19005-1) basiert auf PDF 1.4, schließt aber einige Funktionen davon aus, die eine langfristige Darstellbarkeit beeinträchtigen könnten. Dazu wurde eine Teilmenge von PDF definiert, mit der sich zu archivierende Dokumente so beschreiben lassen, dass die Forderungen für Langzeitarchiverung erfüllt sind. Damit soll eine langfristige Lesbarkeit der Dokumente garantiert sein - und zwar unabhängig davon, mit welcher Anwendungssoftware und auf welchem Betriebssystem sie ursprünglich erstellt wurden.

Seit 2005 PDF/A als Standard verabschiedet wurde, hat sich das Format weiterentwickelt. Mit PDF/A-2 gibt es eine aktuelle Version des Formats, das auf PDF 1.7 beruht und um Aspekte wie die JPEG-2000-Kompression erweitert wurde. PDF/A-2-Dokumente können zudem Dateianhänge enthalten, sofern diese selbst PDF/A-1- oder PDF/A-2-konform sind.

Mit PDF/A-3 wurde 2012 ein weiterer Teil der Norm veröffentlicht. Während PDF/A-2 nur PDF/A-konforme Dateianhänge erlaubt, dürfen bei PDF/A-3 beliebige Dateitypen als Anlagen verwendet werden, um den Anforderungen verschiedener Benutzergruppen gerecht zu werden.

Weiterführende Infos

Der wichtigste Standard für die elektronische Archivierung ist das OAIS "Reference Model for an Open Archive Information System". Das Referenzmodell beschreibt die Funktionen und Komponenten, die für eine langzeitige elektronische Archivierung notwendig sind.

Eine interessante Anlaufstelle ist das "Kompetenznetzwerk Langzeit-Archivierung und Langzeitverfügbarkeit digitaler Ressourcen" - kurz: Nestor. Nestor nimmt sich aller Aspekte der Archivierung an, ist allerdings wissenschaftlich orientiert und wendet sich vor allem an "Gedächtnisinstitutionen" wie Museen, Bibliotheken und Rechenzentren.

Auf welchem Stand sich die internationale Fachwelt bei der Suche nach langfristigen Aufbewahrungsstrategien befindet, haben Projektmitarbeiter in dem kostenfreien PDF-Handbuch "Kleine Enzyklopädie der digitalen Langzeit-Archivierung" zusammengefasst. (mje)

(mhr / rb)