Skip to content
Snippets Groups Projects
Commit b7b6800a authored by Sonja Huber's avatar Sonja Huber
Browse files

upload New File: Dokumentation zu ANKO

parent 5198f084
No related branches found
No related tags found
No related merge requests found
# ANKO: Ansichtskartenkorpus
## Grunddaten
- Adresse: https://korpuspragmatik.ds.uzh.ch/korpora/anko/
- Name: Ansichtskartenkorpus
- Quellen: rund 12'000 Ansichtskarten, welche durch einen Aufruf von Prof. Heiko Hausendorf gesammelt wurden. Auch Scans der Vorder- und Rückseiten sind im Korpus verlinkt.
- Zeitraum: 20. - Anfang 21. Jahrhundert
- Ersteller*innen: Projekt Ansichtskartenkorpus
- Nutzungsrechte: darf von angemeldeten Nutzer*innen verwendet werden
## Corpus Metadata
- Anzahl Texte: 12'380
- Anzahl Token: 614'344
## Annotation
https://korpuspragmatik.ds.uzh.ch/korpora/anko/index.php?thisQ=corpusMetadata&uT=y
## Kurzbeschreibung
Link zum von Prof. Dr. Heiko Hausendorf durchgeführten Projekt: https://www.ds.uzh.ch/de/projekte/ansichtskartenprojekt/korpus.html [Abgerufen am 11.03.2024]
## Dokumentation zur Verarbeitung des originalen XML-files
Die erwähnten Skripte befinden sich auf dem Server des Lehrstuhls Bubenhofer [Stand 11.03.2024].
1. Mit dem Skript modify_annotations.py die korpusübergreifenden ids entfernen, text_ids einfügen, Reihenfolge anpassen
1. aus : <w id="539" lemma="Sie|sie" pos="PPER" rf="PRO.Pers.Subst.3.Nom.Sg.Fem">Sie</w>
mach : <w lemma="Sie|sie" pos="PPER" rf="PRO.Pers.Subst.3.Nom.Sg.Fem" text_id="64">Sie</w>
2. Mit dem Skript xml2vrt.py das xml in vrt form bringen, dabei erfolgen folgende Änderungen:
1. <card> wird zu <text>
2. <mitteilungstext> wird zu <body>
3. Füge links zu den Bildern von Vor- und Rückseite in die <text> tags ein, sie sehen so aus und beruhen auf der text_id: link_vorderseite=https://korpuspragmatik.ds.uzh.ch/ansichtskarten/90083 link_rückseite=https://korpuspragmatik.ds.uzh.ch/ansichtskarten/90084 . Die Bilddateinamen müssen entsprechend stimmen (es gibt keine geraden text_ids.)
Bemerkungen: s und p ids habe ich erhalten, sowie die vorkommenden Metadaten in s und p.
3. händische Korrekturen:
- in card 20233 hat es im Metadatum <gedruckter_text_bs> einen ungeschlossensn Apostroph("), habe ich umgewandelt in '', weil sonst auskommentiert wird...
- in card 120121 dasselbe
- in card 91183 dasselbe
- in card 20005 dasselbe
- ... und weitere
(am Nordkap / Nordkapp gibt man gerne den Breitengrad an, wies scheint)
4. Korrekturen für CWB:
- \n aus den texttags entfernen
- die \" werden nicht escaped, ich muss sie in den text tags alle mit ' ersetzen.
- die card 230397 ist doppelt in den Daten, mit 4 bodys aber nur einem Tag. hab den mit weniger Metadaten-Infos (Texte sind identisch) gelöscht
- weiter Problemfälle, wo ich ähnlich anpassen musste: card 160623, 220659, 160791, 41051, 151441, 160913, 90741, 160755, 160793, 301021, 40813, 31525, 230397, 210419, 80585, 210331, 100415, 210349, 210327, 160787, 210395, 160947, 101077
- 41189, 101503: für die nächste Karte fehlt der card tag, ich lösche jeweils die zweite.
--> bei diesen Problemfällen da kann ich die Verlinkung zu den Scans nicht 'garantieren', weil die xml-Struktur nicht eindeutig ist und mir momentan nicht alle Bilder zur Übrprüfung zur Verfügung stehen.
- Sonja Huber
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment