Skip to content
Snippets Groups Projects
Commit bafe9a6e authored by Noah Bubenhofer's avatar Noah Bubenhofer
Browse files

first commit

parent e4ac1fe6
No related branches found
No related tags found
No related merge requests found
# RGL
## Grunddaten
* Adresse: <https://korpuspragmatik.ds.uzh.ch/korpora/rgl/>
* Name: rgl
* Quellen: Reihe Germanistische Linguistik (RGL), https://www.degruyter.com/serial/rgl-b/html
* Zeitraum: 1975 bis 2021
* Ersteller\*innen: Xenia Bojarsi, Noah Bubenhofer
* Nutzungsrechte: darf nur von Vortragenden an der RGL-Jubiläumsveranstaltung 2023 für diesen Zweck verwendet werden. Eine Weitergabe der Daten ist untersagt.
## Corpus metadata
* Anzahl Texte:
* Anzahl Tokens:
* Anzahl Types:
## Annotation
<https://korpuspragmatik.ds.uzh.ch/korpora/ethki/index.php?thisQ=corpusMetadata&uT=y>
## Kurzbeschreibung
Das Korpus umfasst (fast) alle Bände der RGL-Reihe von 1975 bis 2021. Der Text wurde aus den vom Verlag zur Verfügung gestellten PDF-Dateien extrahiert. Daher
ist der Text nicht fehlerfrei: Abhängig vom Alter des Bandes enthält das PDF gescannte Seiten der gedruckten Bücher, die mit einer OCR-Software vom Verlag bearbeitet worden
sind, bei neueren Bänden handelt es sich um "born digital"-PDFs, bei denen es zu keinen Fehlern gekommen sein sollte.
Die Metadaten zu Bänden stammen aus den XML-Daten des Verlags zu jedem Band und sollten daher korrekt sein. Allerdings gibt es das Problem mit Sammelbänden: Die einzelnen
Beiträge werden als Buch aufgefasst und die Metadaten enthalten deshalb nur die Daten des gesamten Bandes.
In dieser ersten Version des Korpus wurde der gesamte Textinhalt eines Bandes inkl. Titelei, Inhaltsverzeichnis, Anhang etc. als Text aufgefasst. In einer späteren Version
könnte noch besser differenziert werden, so dass der eigentliche Text von den Indizes etc. getrennt ist.
Ebenso problematisch ist der Umgang mit Fussnoten, Kopf- und Fusszeilen, Abbildungen, Tabellen, Umbrüchen etc.: Diese sind im Lauftext enthalten und trennen ggf. Sätze.
Ein weiteres Problem sind Worttrennungen: In den Originaldaten sind diese nicht aufgelöst, d.h. ein getrenntes Wort erscheint mit dem Trennzeichen im Text ("Lingu-istik").
Bei der Aufbereitung des Korpus wurde versucht, solche Trennstellen automatisch zu identifizieren und zu korrigieren ("Lingu-istik" -> "Linguistik"). Das ist jedoch
sicher nicht zu 100% gelungen.
Bestimmte Sonderzeichen führen ebenfalls zu Problem, so z.B. spitze Klammern (<, >), die beim Tokenisieren ggf. nicht richtig interpretiert worden sind (als mathematisches Symbol
oder als Anführungszeichen).
## Publikationen
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment