upload New File: Dokumentation zu ANKO

b7b6800a · Sonja Huber · 5198f084 · b7b6800a
Commit b7b6800a authored 1 year ago by Sonja Huber
--- a/corpora/anko.md
+++ b/corpora/anko.md
+# ANKO: Ansichtskartenkorpus
+
+## Grunddaten
+- Adresse: https://korpuspragmatik.ds.uzh.ch/korpora/anko/
+- Name: Ansichtskartenkorpus
+- Quellen: rund 12'000 Ansichtskarten, welche durch einen Aufruf von Prof. Heiko Hausendorf gesammelt wurden. Auch Scans der Vorder- und Rückseiten sind im Korpus verlinkt. 
+- Zeitraum: 20. - Anfang 21. Jahrhundert
+- Ersteller*innen: Projekt Ansichtskartenkorpus
+- Nutzungsrechte: darf von angemeldeten Nutzer*innen verwendet werden
+
+## Corpus Metadata
+- Anzahl Texte: 12'380
+- Anzahl Token: 614'344
+
+## Annotation
+https://korpuspragmatik.ds.uzh.ch/korpora/anko/index.php?thisQ=corpusMetadata&uT=y
+
+## Kurzbeschreibung
+Link zum von Prof. Dr. Heiko Hausendorf durchgeführten Projekt: https://www.ds.uzh.ch/de/projekte/ansichtskartenprojekt/korpus.html [Abgerufen am 11.03.2024]
+
+## Dokumentation zur Verarbeitung des originalen XML-files
+
+Die erwähnten Skripte befinden sich auf dem Server des Lehrstuhls Bubenhofer [Stand 11.03.2024].
+
+1. Mit dem Skript modify_annotations.py die korpusübergreifenden ids entfernen, text_ids einfügen, Reihenfolge anpassen
+    1. aus : <w id="539" lemma="Sie|sie" pos="PPER" rf="PRO.Pers.Subst.3.Nom.Sg.Fem">Sie</w>
+    mach : <w lemma="Sie|sie" pos="PPER" rf="PRO.Pers.Subst.3.Nom.Sg.Fem" text_id="64">Sie</w>
+
+2. Mit dem Skript xml2vrt.py das xml in vrt form bringen, dabei erfolgen folgende Änderungen:
+    1. <card> wird zu <text>
+    2. <mitteilungstext> wird zu <body>
+    3. Füge links zu den Bildern von Vor- und Rückseite in die <text> tags ein, sie sehen so aus und beruhen auf der text_id: link_vorderseite=https://korpuspragmatik.ds.uzh.ch/ansichtskarten/90083 link_rückseite=https://korpuspragmatik.ds.uzh.ch/ansichtskarten/90084 . Die Bilddateinamen müssen entsprechend stimmen (es gibt keine geraden text_ids.)
+    Bemerkungen: s und p ids habe ich erhalten, sowie die vorkommenden Metadaten in s und p. 
+
+3. händische Korrekturen:
+    - in card 20233 hat es im Metadatum <gedruckter_text_bs> einen ungeschlossensn Apostroph("), habe ich umgewandelt in '', weil sonst auskommentiert wird... 
+    - in card 120121 dasselbe
+    - in card 91183 dasselbe 
+    - in card 20005 dasselbe
+    - ... und weitere
+    (am Nordkap / Nordkapp gibt man gerne den Breitengrad an, wies scheint)
+
+4. Korrekturen für CWB:
+    - \n aus den texttags entfernen
+    - die \" werden nicht escaped, ich muss sie in den text tags alle mit ' ersetzen.
+    - die card 230397 ist doppelt in den Daten, mit 4 bodys aber nur einem Tag. hab den mit weniger Metadaten-Infos (Texte sind identisch) gelöscht
+    - weiter Problemfälle, wo ich ähnlich anpassen musste: card 160623, 220659, 160791, 41051, 151441, 160913, 90741, 160755, 160793, 301021, 40813, 31525, 230397, 210419, 80585, 210331, 100415, 210349, 210327, 160787, 210395, 160947, 101077
+    - 41189, 101503: für die nächste Karte fehlt der card tag, ich lösche jeweils die zweite. 
+    --> bei diesen Problemfällen da kann ich die Verlinkung zu den Scans nicht 'garantieren', weil die xml-Struktur nicht eindeutig ist und mir momentan nicht alle Bilder zur Übrprüfung zur Verfügung stehen.
+
+- Sonja Huber
\ No newline at end of file