Zeitungsdigitalisierung mit Goobi und UCC im Benchmark: 742 Seiten pro Stunde

Unsere Entwicklungen des Universal Capturing Clients in der Version 2.0 sind abgeschlossen und bringen für alle Anwender einige überraschende Neuerungen mit. Viele dieser neuen Funktionen sind großartige Ergänzungen für den Arbeitsalltag und bieten den Anwendern eine deutlich optimierte Bedienbarkeit. Detailliert werden wir darüber berichten, wenn wir die Version 2.0 offiziell veröffentlichen. Zur Zeit befindet sich die Version noch in der abschließenden Qualitätsprüfung unter Dauerlast. Hierzu scannt intranda aktuell ca. 300.000 Seiten aus großformatigen Zeitungsbänden. Workflowsteuerung, Metadatenorganisation, Projektkoordinierung und Datenaustausch erfolgen dabei durch Goobi, während der UCC für den eigentlichen Scanvorgang sowie die parallele Strukturerfassung der Bände Einsatz findet.

Der Einsatz unserer eigenen Software unter Produktionsbedingungen zeigte uns, welche Optimierungen für Anwender nicht nur wünschenswert sind, sondern was für enorme Verbesserungen sich oft schon durch kleine wohl überlegte Änderungen erreichen lassen.

Auf einen der neuen Bereiche innerhalb des UCC möchten wir heute bereits hinweisen, da er voraussichtlich den mit Abstand größten Einfluss auf den Arbeitsalltag unserer Anwender haben wird: die neue Makrofunktionalität.

UCC Strukturelemente Hierarchie

Mittels flexibel anpassbaren individuell konfigurierbaren Makros lässt sich die Arbeitsweise mit dem UCC für das gleichzeitige Scannen und Erschließen von Metadaten noch einmal deutlich beschleunigen. Im Kontext der Zeitungsdigitalisierung konnten wir durch die Bereitstellung eines Makromechanismus für das Scannen großformatiger Zeitungsbände einen neuen Geschwindigkeitsrekord aufstellen. Dazu setzen wir einen herkömmlichen Bookeye 4 V1 der Firma Image Access ein und führen während des Scannen eine gleichzeitige Erschließung von Strukturdaten und Metadaten durch. Als Strukturelemente klassifizieren wir konkret Ausgaben und verschiedene Typen von Beilagen der Zeitungen, wobei diese jeweils alle ca. 4 Seiten wechseln und teilweise mit neuen Paginierungen beginnen. Als Metadaten erfassen wir parallel während des Scannens jeweils die Ausgabennummer, das Erscheinungsdatum in normierter und ausgeschriebener Form sowie abhängig vom Beilagentyp den jeweiligen Beilagentitel. Bei der Stärke der derzeit bearbeiteten Bände hat ein Jahrgang – und damit auch ein Werk innerhalb des UCC bzw. ein Vorgang innerhalb von Goobi – ca. 2.800 Seiten mit ca 650 Strukturelementen sowie ca. 1.300 Metadaten.

Trotz dieser granularen Tiefenerschließung von Struktur- und Metadaten sowie des großen Formates der Zeitungen ist es uns bei Farbscans mit 300 dpi Auflösung möglich geworden, einen dauerhaften Produktionsdurchsatz von 742 Seiten pro Stunde zu erreichen.

Zur Verdeutlichung, wie eine solche parallele Arbeitsweise im Alltag tatsächlich aussieht, haben wir dies einmal in einem kurzen Video festgehalten. Schauen Sie selbst, wie Sie durch geschickte Kombination aus Hardware und Software eine enorme Scangeschwindigkeit erreichen und dabei zugleich perfekte tief erschlossene Metadaten erfassen und z.B. als PDF, METS/MODS, an Goobi oder den intranda viewer weitergeben können.