Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition

OCR-D

Die „Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR)“, kurz OCR-D, untersucht und beschreibt Verfahren der automatischen Texterkennung. Am Ende des Gesamtvorhabens soll ein Konzept zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jahrhunderts erarbeitet sein. Zudem wird der vorhandene Prototyp einer OCR-Software in Phase III weiterentwickelt.

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst mit Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare Volltexte automatisch generiert werden.

Der Mehrwert von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung, heute unverzichtbar. Die Förderinitiative OCR-D verfolgt das Ziel, die Volltexterkennung weiterzuentwickeln und für die Massendigitalisierung in Bibliotheken zu optimieren.

Das Projekt wird von einem Koordinationsprojekt der Herzog August Bibliothek, der Berlin-Brandenburgischen Akademie der Wissenschaften, der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, der Staatsbibliothek zu Berlin und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen gesteuert.

In Phase I (2015–2018) wurden der aktuelle Stand von OCR-Techniken evaluiert und Entwicklungsbedarfe herausgearbeitet. Darauf aufbauend wurde in acht Modulprojekten während Phase II (2018–2020) an Werkzeugen für OCR-D gearbeitet, die sich den spezifischen Herausforderungen bei der Volltexterkennung historischer Dokumente widmen. Die vom Koordinierungsprojekt integrierten, protoypischen Ergebnisse sind auf GitHub frei verfügbar.

Volltexterkannte Seite aus Johannes Praetorius' im Jahr 1671 publizierter Schrift »Eine nützliche Spiel-Karte für die Flucher«

Korrekt auf Regionen- und Zeilenebene segmentierte, volltexterkannte Seite aus Johannes Praetorius' im Jahr 1671 publizierter Schrift »Eine nützliche Spiel-Karte für die Flucher« (M: Tg 117)

Phase III startete 2021. Ziel dieser Phase ist die Implementierung der OCR-D-Software in bestandshaltenden und -verarbeitenden Einrichtungen und die Weiterentwicklung ausgewählter Werkzeuge. Vier Implementierungs- und drei Modulprojekte wurden von der DFG bewilligt:

Implementierungsprojekte

Modulprojekte

Das Koordinierungsprojekt unterstützt die Implementierungs- und Modulprojekte bei ihrer Arbeit. In Phase III wird außerdem die OCR-D-Software für die Massendigitalisierung optimiert und ein Verstetigungskonzept erarbeitet.

Innerhalb des Koodinierungsprojekts übernimmt die Herzog August Bibliothek die Projektkoordination – dazu gehören Projektmanagement, Organisation von Workshops, Dokumentation, wissenschaftliche Publikationen sowie die konzeptionelle Vorbereitung der Volltexttransformation von VD 16, VD 17 und VD 18.

Website: https://ocr-d.de/de/

In Kooperation mit der Berlin-Brandenburgischen Akademie der Wissenschaften, der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, der Staatsbibliothek zu Berlin und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen

PURL: http://diglib.hab.de/?link=068

Finanzierung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: Oktober 2015 – Juni 2024
Projektbeteiligte: Leonie Eckert (Bearbeiterin)

Ansprechpartner

Außerdem an der HAB

Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition

OCR-D

Implementierungsprojekte

Modulprojekte

Ansprechpartner

Leiter der Abteilung Neuere Medien, Digitale Bibliothek und Stellvertretender Direktor

Gab es in der Frühen Neuzeit Konfessionen? Zur Geschichte eines problematischen Konzepts

Führung durch das Zeughaus

Feuerreiter und Melancholiker: Eduard Mörike zum 150. Todestag

Außerdem an der HAB

Zeugnis geistlicher Naturkunde und Archiv historischer Biodiversität

Fürstliche Verwahrung?

#17 Es genügt, ein Mensch zu heißen.

Aktuelles

Jobs

Ausbildung und Praktika

HAB-Repositorium

Publikationen

Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition

OCR-D

Implementierungsprojekte

Modulprojekte

Ansprechpartner

Leiter der Abteilung Neuere Medien, Digitale Bibliothek und Stellvertretender Direktor

Weitere Projekte

Außerdem an der HAB