In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst mit Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare Volltexte automatisch generiert werden.
Der Mehrwert von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung, heute unverzichtbar. Die Förderinitiative OCR-D verfolgt das Ziel, die Volltexterkennung weiterzuentwickeln und für die Massendigitalisierung in Bibliotheken zu optimieren.
Das Projekt wird von einem Koordinationsprojekt der Herzog August Bibliothek, der Berlin-Brandenburgischen Akademie der Wissenschaften, der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, der Staatsbibliothek zu Berlin und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen gesteuert.
In Phase I (2015–2018) wurden der aktuelle Stand von OCR-Techniken evaluiert und Entwicklungsbedarfe herausgearbeitet. Darauf aufbauend wurde in acht Modulprojekten während Phase II (2018–2020) an Werkzeugen für OCR-D gearbeitet, die sich den spezifischen Herausforderungen bei der Volltexterkennung historischer Dokumente widmen. Die vom Koordinierungsprojekt integrierten, protoypischen Ergebnisse sind auf GitHub frei verfügbar.
Phase III startete 2021. Ziel dieser Phase ist die Implementierung der OCR-D-Software in bestandshaltenden und -verarbeitenden Einrichtungen und die Weiterentwicklung ausgewählter Werkzeuge. Vier Implementierungs- und drei Modulprojekte wurden von der DFG bewilligt:
Implementierungsprojekte
- Integration von Kitodo und OCR-D zur produktiven Massendigitalisierung (UB Braunschweig, SLUB Dresden, UB Mannheim)
- OPERANDI: OCR-D Performance Optimisation and Integration (SUB Göttingen, GWDG)
- OCR4all libraries – Volltexterkennung historischer Sammlungen (GEI Braunschweig, HCI und ZPD der Universität Würzburg)
- ODEM: OCR-D Erweiterung für Massendigitalisierung (ULB Sachsen-Anhalt)
Modulprojekte
- Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground Truth Aufwertung (UB Mannheim)
- Font Group Recognition for Improved OCR (JGU Mainz, FAU Erlangen-Nürnberg)
- OLA-HD Service - Ein generischer Dienst für die Langzeitarchivierung historischer Drucke (SUB Göttingen, GWDG)
Das Koordinierungsprojekt unterstützt die Implementierungs- und Modulprojekte bei ihrer Arbeit. In Phase III wird außerdem die OCR-D-Software für die Massendigitalisierung optimiert und ein Verstetigungskonzept erarbeitet.
Innerhalb des Koodinierungsprojekts übernimmt die Herzog August Bibliothek die Projektkoordination – dazu gehören Projektmanagement, Organisation von Workshops, Dokumentation, wissenschaftliche Publikationen sowie die konzeptionelle Vorbereitung der Volltexttransformation von VD 16, VD 17 und VD 18.
Website: https://ocr-d.de/de/
In Kooperation mit der Berlin-Brandenburgischen Akademie der Wissenschaften, der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, der Staatsbibliothek zu Berlin und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen
PURL: http://diglib.hab.de/?link=068
Finanzierung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: Oktober 2015 – Juni 2024
Projektbeteiligte: Leonie Eckert (Bearbeiterin)