* Nutzungsrechte: darf nur von Vortragenden an der RGL-Jubiläumsveranstaltung 2023 für diesen Zweck verwendet werden. Eine Weitergabe der Daten ist untersagt.
Das Korpus umfasst (fast) alle Bände der RGL-Reihe von 1975 bis 2021. Der Text wurde aus den vom Verlag zur Verfügung gestellten PDF-Dateien extrahiert. Daher
ist der Text nicht fehlerfrei: Abhängig vom Alter des Bandes enthält das PDF gescannte Seiten der gedruckten Bücher, die mit einer OCR-Software vom Verlag bearbeitet worden
sind, bei neueren Bänden handelt es sich um "born digital"-PDFs, bei denen es zu keinen Fehlern gekommen sein sollte.
Die Metadaten zu Bänden stammen aus den XML-Daten des Verlags zu jedem Band und sollten daher korrekt sein. Allerdings gibt es das Problem mit Sammelbänden: Die einzelnen
Beiträge werden als Buch aufgefasst und die Metadaten enthalten deshalb nur die Daten des gesamten Bandes.
In dieser ersten Version des Korpus wurde der gesamte Textinhalt eines Bandes inkl. Titelei, Inhaltsverzeichnis, Anhang etc. als Text aufgefasst. In einer späteren Version
könnte noch besser differenziert werden, so dass der eigentliche Text von den Indizes etc. getrennt ist.
Ebenso problematisch ist der Umgang mit Fussnoten, Kopf- und Fusszeilen, Abbildungen, Tabellen, Umbrüchen etc.: Diese sind im Lauftext enthalten und trennen ggf. Sätze.
Ein weiteres Problem sind Worttrennungen: In den Originaldaten sind diese nicht aufgelöst, d.h. ein getrenntes Wort erscheint mit dem Trennzeichen im Text ("Lingu-istik").
Bei der Aufbereitung des Korpus wurde versucht, solche Trennstellen automatisch zu identifizieren und zu korrigieren ("Lingu-istik" -> "Linguistik"). Das ist jedoch
sicher nicht zu 100% gelungen.
Bestimmte Sonderzeichen führen ebenfalls zu Problem, so z.B. spitze Klammern (<,>), die beim Tokenisieren ggf. nicht richtig interpretiert worden sind (als mathematisches Symbol