Neue APIs (Application Programming Interfaces) für die Document Services von Adobe sollen das Extrahieren von Daten aus PDF-Dokumenten erleichtern. Der Hersteller nennt die neuen Funktionen Adobe PDF Extract API und Adobe Document Generation API. Sie sollen die Struktur eingescannter und nativer PDF-Dokumente analysieren und dann "sämtliche in der Datei enthaltenen Elemente entsprechend der natürlichen Lesereihenfolge über Spalten und Seitenumbrüche hinweg anordnen" können.
Struktur von PDF-Dokumenten besser erkennen
Anders als bisher kann Adobe also beim Extrahieren von Daten Dank der PDF Extract API genau erkennen, in welcher Beziehung die einzelnen Bausteine einer PDF-Datei zueinander stehen. Anschließend lassen sich die Elemente entsprechend gruppieren, kündigte das Unternehmen an. Bislang lassen sich solche Aufgaben meist nur mit viel manueller Nachbearbeitung erledigen.
Die Document Generation API soll es darüber hinaus ermöglichen, benutzerdefinierte Templates für Microsoft Word sowie Word- und PDF-Dokumente zu erstellen und dynamisch mit Daten zu befüllen. Es ist nach Angaben des Herstellers zudem möglich, Adobe Sign zu integrieren. Dadurch können die generierten Dokumente anschließend auch elektronisch unterzeichnet werden. Die Document Generation API kann auf der Adobe-Webseite getestet werden.
Die neuen Services sind über den Marktplatz in AWS (Amazon Web Services) verfügbar. Bislang können sie dort aber nur von den USA aus abonniert werden. Wann die Dienste nach Europa kommen, ist nicht bekannt. Weitere Informationen zu den neuen APIs finden sich in einem Post im Adobe-Blog.