first commit

bafe9a6e · Noah Bubenhofer · e4ac1fe6 · bafe9a6e
Commit bafe9a6e authored 2 years ago by Noah Bubenhofer
--- a/corpora/rgl.md
+++ b/corpora/rgl.md
+# RGL
+
+## Grunddaten
+
+* Adresse: <https://korpuspragmatik.ds.uzh.ch/korpora/rgl/>
+* Name: rgl
+* Quellen: Reihe Germanistische Linguistik (RGL), https://www.degruyter.com/serial/rgl-b/html
+* Zeitraum: 1975 bis 2021
+* Ersteller\*innen: Xenia Bojarsi, Noah Bubenhofer
+* Nutzungsrechte: darf nur von Vortragenden an der RGL-Jubiläumsveranstaltung 2023 für diesen Zweck verwendet werden. Eine Weitergabe der Daten ist untersagt.
+
+## Corpus metadata
+
+* Anzahl Texte: 
+* Anzahl Tokens: 
+* Anzahl Types: 
+
+## Annotation
+
+<https://korpuspragmatik.ds.uzh.ch/korpora/ethki/index.php?thisQ=corpusMetadata&uT=y>
+
+## Kurzbeschreibung
+
+Das Korpus umfasst (fast) alle Bände der RGL-Reihe von 1975 bis 2021. Der Text wurde aus den vom Verlag zur Verfügung gestellten PDF-Dateien extrahiert. Daher 
+ist der Text nicht fehlerfrei: Abhängig vom Alter des Bandes enthält das PDF gescannte Seiten der gedruckten Bücher, die mit einer OCR-Software vom Verlag bearbeitet worden
+sind, bei neueren Bänden handelt es sich um "born digital"-PDFs, bei denen es zu keinen Fehlern gekommen sein sollte.
+
+Die Metadaten zu Bänden stammen aus den XML-Daten des Verlags zu jedem Band und sollten daher korrekt sein. Allerdings gibt es das Problem mit Sammelbänden: Die einzelnen
+Beiträge werden als Buch aufgefasst und die Metadaten enthalten deshalb nur die Daten des gesamten Bandes.
+
+In dieser ersten Version des Korpus wurde der gesamte Textinhalt eines Bandes inkl. Titelei, Inhaltsverzeichnis, Anhang etc. als Text aufgefasst. In einer späteren Version 
+könnte noch besser differenziert werden, so dass der eigentliche Text von den Indizes etc. getrennt ist.
+
+Ebenso problematisch ist der Umgang mit Fussnoten, Kopf- und Fusszeilen, Abbildungen, Tabellen, Umbrüchen etc.: Diese sind im Lauftext enthalten und trennen ggf. Sätze.
+
+Ein weiteres Problem sind Worttrennungen: In den Originaldaten sind diese nicht aufgelöst, d.h. ein getrenntes Wort erscheint mit dem Trennzeichen im Text ("Lingu-istik").
+Bei der Aufbereitung des Korpus wurde versucht, solche Trennstellen automatisch zu identifizieren und zu korrigieren ("Lingu-istik" -> "Linguistik"). Das ist jedoch 
+sicher nicht zu 100% gelungen.
+
+Bestimmte Sonderzeichen führen ebenfalls zu Problem, so z.B. spitze Klammern (<, >), die beim Tokenisieren ggf. nicht richtig interpretiert worden sind (als mathematisches Symbol
+oder als Anführungszeichen).
+
+## Publikationen
\ No newline at end of file