* Quellen: Reihe Germanistische Linguistik (RGL), https://www.degruyter.com/serial/rgl-b/html
* Zeitraum: 1975 bis 2021
* Ersteller\*innen: Xenia Bojarski, Noah Bubenhofer, Christopher Georgi
* Nutzungsrechte: darf nur von Vortragenden an der RGL-Jubiläumsveranstaltung 2023 für diesen Zweck verwendet werden. Eine Weitergabe der Daten ist untersagt.
Das Korpus umfasst (fast) alle Bände der RGL-Reihe von 1975 bis 2021. Der Text wurde aus den vom Verlag zur Verfügung gestellten PDF-Dateien extrahiert. Daher
ist der Text nicht fehlerfrei: Abhängig vom Alter des Bandes enthält das PDF gescannte Seiten der gedruckten Bücher, die mit einer OCR-Software vom Verlag bearbeitet worden
sind, bei neueren Bänden handelt es sich um "born digital"-PDFs, bei denen es zu keinen Fehlern gekommen sein sollte.
Die Metadaten zu Bänden stammen aus den XML-Daten des Verlags zu jedem Band und sollten daher korrekt sein. Allerdings gibt es das Problem mit Sammelbänden: Die einzelnen
Beiträge werden als Buch aufgefasst und die Metadaten enthalten deshalb nur die Daten des gesamten Bandes.
Basierend auf der ersten Version und einer manuellen, stichprobenartigen Evaluierung der Fehlervorkommnisse der Textdaten wurden folgende Anpassungen am Korpus gemacht:
- Weglassen/Abtrennen von Titelei, Inhaltsverzeichnis, Anhang, Register, Bibliografie (nicht ganz fehlerfrei, da auf einer automatisierten Heuristik basierend), sodass v.a. der Textinhalt des Bandes vorhanden ist.
- Heraustrennen von Headern/Kopfzeilen und entsprechenden Seitenzahl im Header
- Heraustrennen von Tabellen (nicht ganz fehlerfrei, da auf einer automatisierten Methode basierend). Abbildungen werden im Regelfall nicht übernommen und sind daher nicht so problematisch wie Tabellen.
- überarbeitete Wiederherstellung von getrennten Wörtern mit Wiederherstellung von Wörtern mit fehlendem Buchstaben basierend auf einer 'Wortliste' (ähnlich wie ein spezifisches Lexikon). Die Wortliste basiert auf dem Treetagger-Output der ersten rgl-Version.
Weiterhin problematisch ist der Umgang mit Fussnoten: Diese sind im Lauftext enthalten und trennen ggf. Sätze.
Sowohl das Abtrennen von Titelei/Inhaltsverzeichnis/Register als auch das Heraustrennen von Tabellen basiert auf automatisierten Regeln, die auf einen Grossteil der Bände zutreffen, jedoch nicht alle Fälle abdecken, weshalb das Heraustrennen nicht zu 100% sauber ist.
Ein weiteres Problem sind Worttrennungen: In den Originaldaten sind diese nicht aufgelöst, d.h. ein getrenntes Wort erscheint mit dem Trennzeichen im Text ("Lingu-istik").
Bei der Aufbereitung des Korpus wurde versucht, solche Trennstellen automatisch zu identifizieren und zu korrigieren ("Lingu-istik" -> "Linguistik"). Das ist im Vergleich zur ersten Version verbessert und ausgebaut worden (auch "Lingu -istik", "Lingu- istik", "Lingu istik" und Ling istik" sollten jetzt wiederhergestellt werden), jedoch
noch immer nicht zu 100% gelungen. Die benutzte Wortliste, die wie eine Art Lexikon darstellt, gegen die verglichen wird, bewahrt davor, "false positives" wiederherzustellen.
Bestimmte Sonderzeichen führen ebenfalls zu Problem, so z.B. spitze Klammern (<,>), die beim Tokenisieren ggf. nicht richtig interpretiert worden sind (als mathematisches Symbol