Skip to content
Snippets Groups Projects
Commit 0ad40cd0 authored by Sonja Huber's avatar Sonja Huber
Browse files

update to match other commit

parent f28ecd32
No related branches found
No related tags found
Loading
......@@ -5,7 +5,7 @@ Jetzt, wo die nötige Software installiert ist, kannst du mit dem Datensammeln f
Ein Web-Crawler sucht, ausgehend von einer Start-URL, weitere erreichbare bzw. verlinkte URLs. Die wohl am meisten genutzten Web-Crawler sind die von Search-Engines wie Google oder DuckDuckGo, welche dafür sorgen, dass die angezeigten Suchresultate aktuell bleiben.
Wir haben aber nicht vor, so grossflächig zu crawlen, sondern werden uns auf die Unterseiten einer URL (also z.B. die eines Blogs) beschränken, um thematisch einigermassen einheitliche Korpora zu erhalten. In anderen Worten wird die _Scope_ der Suche beschränkt.
Wenn dein Web-Crawler nun eine Liste von URLs gefunden hat, laden wir die Texte der Websiten herunter, was man _Web-Scraping_ nennt. In unserem Fall wird nur reiner Text in HTML-Format heruntergeladen, allerdings mit Kommentaren, falls sich auf der Seite welche befinden.
Wenn dein Web-Crawler nun eine Liste von URLs gefunden hat, laden wir die Texte der Websiten herunter, was man _Web-Scraping_ nennt. In unserem Fall wird nur reiner Text in XML-Format heruntergeladen, allerdings mit Kommentaren, falls sich auf der Seite welche befinden.
Und schon hast du den Rohtext, die Basis für dein Korpus.
......@@ -39,7 +39,7 @@ Dieser Ordner enthält zwei Skripte; eines zum Web-Crawlen und eines zum Web-Scr
`python3 scrape_websites.py file_with_urls.txt outputfile.xml`
Für die weitere Verwendung des Outputfiles ist es wichtig, das Dateiformat .xml zu verwenden. Anders als in obigem File wird der Inhalt des Output-Files nicht überschrieben, wenn das File schon existiert. Der Text wird dann einfach hinten am File angehängt.
Für die weitere Verwendung des Outputfiles ist es wichtig, das Dateiformat .xml zu verwenden.
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment