Digitalisierungs- und Konvertierungs-Technologie für Bücher, Zeitungen, Journale...

Um die Nutzbarkeit moderner, schnell wachsender Archive zu gewährleisten wird es für Institutionen, Sammlungen und Bibliotheken notwendig, durch Digitalisierung elektronischen Zugang zu dem einzelnen Buch, der einzelnen Zeitung zu ermöglichen.

Die docWorks-Technologie der CCS Content Conversion Specialists GmbH hilft durch Automatisierung große Mengen an Seiten in kurzer Zeit zu konvertieren und hält so selbst ambitionierteste Projekte mit Millionen von Seiten übersichtlich.

Die digitale Bereitstellung von Sammlungen oder ganzen Bibliotheken erfordert eine Vielzahl von Arbeitsschritten. Aus Buch oder Zeitung wird ein ein mit Metadaten angereichertes Digitalisat erzeugt, das sowohl den Spezifikationen der Bibliothek, als auch den Erwartungen derer Nutzer Rechnung trägt. docWORKS ist eine modular aufgebaute Technologie, deren Module spezifiziert, zu- und abgeschaltet werden können.

docWorks ist eine weltweit von den wichtigsten Bibliotheken, Verlagshäusern und Unternehmen eingesetzte Software, um hochwertige Bibliotheksbestände und Archive zugänglich und durchsuchbar zu machen sowie langfristig zu sichern. Der Begriff “Digitale Bibliothek” umschreibt dies eigentlich nur unzureichend, bedeutet “digital” lediglich die Umwandlung (zum Beispiel per Scannen) von analogen Dokumenten in digitale Images (z.B. JPGs, TIFs oder PDFs).

Erst durch die “Konvertierung” dieser Image-Dateien mittels OCR (Texterkennung) und Zoning (bei einer Zeitungsseite zum Beispiel die Unterteilung der einzelnen Artikel) entsteht eine wirklich durchsuchbare digitale Bibliothek. docWorks ist die einzige Software, die alle für die Konvertierung nötigen Schritte in einem barrierefreien Workflow bündelt. Es gibt passgenaue docWorks Editionen für jede Projektgröße, von kleinen Sammlungen bis zu großen Nationalbibliotheken.

Vorteile einer digitalen Bibliothek

  • Ein unmittelbarer weltweiter Zugriff auf die Daten
  • Eine viel bessere, schnellere und umfänglichere Durchsuchbarkeit von Inhalte
  • Es wird die Basis einer digitalen Langzeitsicherung geschaffen
  • Der Bestand kann auf Wunsch zweitverwertet und vermarktet werden

warum docWORKS?

  • Alle Arbeitsschritte in nur einem Workflow mit einem zentralen Controlcenter
  • Große Zeitersparnisse durch schlanken und effizienten Ablauf
  • Keine teuren Verzögerungen durch Kopierfehler oder Datenverlust
  • Konsistenter standardisierter Output
  • Problemlose Skalierung von Tausend- bis Millionenseiten

wie funktioniert docWORKS?

docWorks “konvertiert” gescannte Images. Das bedeutet, dass die Informationen der gescannten Seite, also Text und Struktur, identifiziert und in Form einer XML-Datei zur Image-Datei hinzugefügt werden. Die beiden wesentlichen Konvertierungsschritte sind die Texterkennung und die Unterteilung der Dokumente in logische Units (Artikel, Kapitel etc). Die Texterkennung ermöglicht überhaupt erst eine Durchsuchung der Scans während das Zoning und die Strukturerkennung dafür verantwortlich sind, dass wirklich relevante Suchergebnisse gefunden werden. Ohne Zoning/Struktur würde z.B. eine digitale Zeitungsseite komplett durchsucht werden, erst die Unterteilung in Artikel gewährleistet, dass Suchbegriffe auch wirklich logisch zusammengehören.
Der Konvertierungsprozess durchläuft mehrere Schritte: Nach dem Import werden die Images auf Wunsch “gecroppt”, d.h. auf eine gewünschte einheitliche Größe zugeschnitten. Es folgen das Zoning (Segmentierung der Seite in klassifizierte Blöcke und Spalten) und die Strukturanalyse (Abschnitte, Kapitel, Artikel), anschließend die Texterkennung sowie das Hinzufügen von beschreibenden Metadaten. Zuallerletzt werden die Daten in dem für Bibliotheken Standard-Format METS/ALTO ausgegeben, gesichert und in das Präsentationssystem eingespeist. Jeder Schritt besteht aus einer von docWorks automatisch ausgeführten Analyse, die von einer manuellen Nachkorrektur gefolgt wird. Diese Nachkorrektur kann entweder direkt vom docWorks-Nutzer durchgeführt werden – oder sie wird an spezielle Dienstleister “outgesourced”. Wichtig: Selbst bei einem Outsourcing verbleiben die Daten bei Ihnen – der Dienstleister erhält lediglich einen speziellen Online-Zugang, so dass die Daten zwar weltweit verarbeitet werden können, aber immer in Ihrer Hand bleiben.

Präsentationssystem und App

Wir arbeiten mit einer ausgesuchten Auswahl an Systemen, um Ihre Digitale Bibliothek auch optimal präsentieren zu können. Neben der Standardlösung als Website haben wir eine spezielle App entwickelt, mit der sich digitale Publikationen in einer ungeahnten Weise erleben lassen. Die App bietet, sofern die nötigen XML-Daten vorhanden sind, neben einer Thumbnail-Voranschau ein automatisch erstelltes Inhaltsverzeichnis sowie eine Textsuche. Das Inhaltsverzeichnis sowie die Ergebnisse der Textsuche verlinken automatisch zu den entsprechenden Fundstellen inklusive farbiger Markierung. Digitale Publikationen lassen sich nun dank für Tablets typischen Gestensteuerung wie richtige Bücher durchblättern. So kann man Inhalte auf eine einfache, moderne, anschauliche und informative Weise einem interessierten Publikum vorzustellen – oder die App auch als Kommunikationswerkzeug nach innen nutzen, um zum Beispiel die Fortschritte und Vorteile der Digitalen Bilbliothek für Mitarbeiter und Stakeholder direkt erfahrbar zu machen. Die App ist ferner so konzipiert, dass stets weitere Themen hinzugefügt und mit Fotos, Texten oder ganzen Publikationen illustriert werden können.
© 2017 jürgen baier consulting. All Rights Reserved.