DIGITEXTMATH


Volltexterfassung von bereits vorliegenden digitalisierten mathematischen Monographien und mehrbändigen Werke


Beschreibung

Das Projekt dient zur Produktion von elektronischen Volltexten mathematischer Monographien, die anschließend auf dem Dokumentenserver des GDZ zu Retrievalzwecken nutzbar gemacht werden sollen sowie auch mittels Protokollanfragen des CGM-Protokolls durchsuchbar sein werden. Grundlage für die Erstellung bilden bereits im GDZ digitalisierte Monographien, die derzeit lediglich als Images auf dem Dokumentenserver angeboten werden.

Die eigentliche Volltexterfassung erfolgt durch externe Dienstleister, welche die Texte erfassen und gemäß auf TEI/XML basierende Spezifikationen taggen. Neben dem eigentlichen Volltext sollen die Texte auch die logische Struktur enthalten, so dass entsprechende Volltextabschnitte mit den Metadaten und den bereits vorhandenen Images verknüpft werden können.

Während des Projekts erfolgte bzgl. der Erfassung eine Änderung vom Antrag. Ist bei Antragsstellung noch davon ausgegangen wurden, die Texte durch double-keyboarding manuell erfassen zu lassen, wurde das Projekt letztlich mittels OCR-Software bei einem Dienstleister durchgeführt. Das Ergebnis scheint für die angestrebten Retrievalzwecke ausreichend zu sein und enthält darüber hinaus Koordinaten der einzelnen Worte, was ein Highlighting des Suchbegriffs im Image ermöglicht.


Status

abgeschlossen


Förderzeitraum

01.05.2004 - 14.02.2005


Förderer

Leitende Institution

Leitung

Ralf Stockmann


MitarbeiterInnen an der SUB Goettingen

* ehemalige FE-KollegInnen sind mit einem (*) gekennzeichnet