NCI- und CI-Dokumente
Bei der Archivierung wird grundsätzlich zwischen dem physischen (Papier-)Dokument und dem digitalen Dokument unterschieden. Physische Dokumente liegen in der Regel in Papierform oder anderen analogen Formaten vor. Die im Dokument enthaltenen Informationen können nur von Menschen verarbeitet werden. Sie lassen sich jedoch durch Scanner in eine digitale Form überführen.
Um Medienbrüche zu vermeiden, wird heute in vielen Unternehmen eine komplette Digitalisierung angestrebt. Digitalisierte Dokumente können als Non Coded Information"-Dokumente (NCI) und "Coded Information"-Dokumente (CI) vorliegen.
NCI-Dokumente sind digitalisierte Abbilder, also Faksimiles, des papiergebundenen Originals. Sie liegen nur als Rasterbild vor. Um die Datei elektronisch bearbeitbar zu machen oder sie per Volltextsuche wiederzufinden, muss das NCI-Dokument mittels Optical-Character-Recognition (OCR)-Software in CI-Dokumente transferiert werden.
Ein CI-Dokument ist ein digital erstelltes Dokument, das durch Zeichensätze kodiert ist und von Programmen direkt ausgewertet werden kann. Durch Techniken wie OCR lassen sich aber NCI-Dokumente in CI-Dokumente überführen. In CI-Dokumenten ist im Unterschied zu NCI-Dokumenten eine Volltextrecherche möglich.
Ein Treffpunkt der Dokumentenbranche: Der Channel Solution Day "Drucken und Archivieren".
ChannelPartner-Chefreporter Armin Weiler begrüßt die Gäste.
Oliver Jendro von Dokulife erörtert in der Eröffnungs-Keynote die Auswirkungen von mobilen Geräten auf gedruckte Dokumente.
Nicole Glaremin (Also) und Marco Block (Canon, links) im Gespräch mit ChannelPartner-Chefreporter Armin Weiler.
Das Publikum folgt interessiert den Ausführungen der Referenten.
PFU-Manager Roland Kastner erläutert einem Gast die Vorteile der Fujitsu-Dokumentenscanner.
Marco Block, Area Manager DIMS / Region West bei Canon, beschreibt die Veränderungen im Scannermarkt.
Helmut Dürbaum (Epson) zeigt die Vorteile von Business-Ink-Geräten.
Am Stand von Also informieren sich die Händler neben den MPS-Angeboten des Distributors auch über Produktneuheiten von Hewlett-Packard und Canon.
Epson-Manager Andreas Asel schlägt die Bücke zwischen kosmischen Ereignissen und MPS-Business.
Gute Stimmung am Stand von Notable Solutions (NSi).
Canon-Scannerspezialist Marco Block gibt Auskunft über seine Produkte.
Dass MPS mehr als nur Drucken ist, verdeutlicht Frank Gießler, Regional Sales Manager MFP & OEM Imaging Sales D-A-CH bei Nuance Communications Germany.
Die Teilnehmer nutzen den Ausstellungsbereich für angeregte Gespräche.
Glückliche Teilnehmer - das freut den Veranstalter!
Stethos-Geschäftsführer Stefan Schmidt stellt sich gerne den Herausforderungen für mobiles Drucken in Firmennetzwerken.
Mark Muschelknautz, Leiter Marketing & Communication EMEA bei NSi, rät Händlern, sich über Software-Lösungen zu differnzieren.
Roland Kastner (PFU) referiert über Fujitsu-Dokumentenscanner.
Was NSi zur Dokumentenerfassung anbietet, kann man bei Mark Muschelknautz erfahren.
Thomas Dörschner, Solution Marketing Manager bei Samsung, beleuchtete die zunehmende Konvergenz der Produkte und deren Auswirkungen.
Hans-Werner Stottmeister, Geschäftsführer der Off Script GmbH, verdeutlicht die Vorteile eines herstellerunabhängigen MPS-Systems.
Am Anschluss der Vorträge besteht häufig noch weiterer Informationsbedarf wie hier bei Nuance.
In der abschließenden Expertenrunde diskutiert die Runde über die Frage: "Verpennt der Fachhandel das Lösungsgeschäft?"
Geschafft! Jetzt haben sich die Akteure ein Feierabendbier verdient!
Datenerfassung: OCR, ICR und OMR
Nicht-digitale Dokumente lassen sich teil- und vollautomatisch erfassen. Eine teilautomatische Erfassung ist zum Beispiel das Einscannen von Textdokumenten. Hierzu werden verschiedene Erkennungstechnologien wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) oder OMR (Optical Mark Recognition) genutzt.
Bei OCR (Optical Character Recognition) wird der Text einer gedruckten Vorlage durch einfachen Mustervergleich automatisch erkannt und in maschinenlesbare Zeichen transformiert. Auf diese Weise wird möglichst 1:1 ein digitales Abbild der Papiervorlage erzeugt. Das elektronische Dokument kann dann digital weiterarbeitet und gespeichert werden - das Original kann klassisch archiviert oder auch vernichtet werden.
Moderne Texterkennung geht heute aber über OCR hinaus. Bei der Weiterentwicklung "Intelligent Character Recognition" (ICR) wird die Qualität der Texterkennung durch Kontextanalyse verbessert. Typische Fehler von OCR-Systemen wie ein eingescanntes "8estellung", bei dem "B" als "8" identifiziert wird, können durch ICR-Methoden korrigiert werden, wenn der Kontext berücksichtigt wird. Dabei wird die Qualität der Ergebnisse durch Vergleiche mit Wörterbüchern und einen Abgleich mit Referenzlisten und statistisch-linguistischen Verfahren verbessert.
Die dritte Erkennungstechnologie "Optical Mark Recognition" (OMR) liest mit großer Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich beim Einlesen von Fragebögen, Multiple-Choice-Tests und Vordrucken bewährt.
Neben manueller und halbautomatischer Erfassung lassen sich Daten auch vollautomatisch - direkt aus Anwendungsprogrammen heraus - generieren. Beispielsweise kann ein ERP-System Bestelldaten erzeugen, wenn es den Lagerbestand automatisch über eine Schnittstelle prüft.