Wissen heißt wissen, wo es geschrieben steht. - Albert Einstein
Katzenbilder, Nachrichten, Wetterdaten, soziale Netzwerke und unzählige Einkaufsmöglichkeiten sind nicht das Einzige, was das Internet heutzutage zu bieten hat. Es ist auch die bisher größte digitale Sammlung von Wissen in der Menschheitsgeschichte. Verschiedene Suchmaschinen helfen dabei, gesuchte Daten innerhalb weniger Sekunden zu finden und darauf zurückzugreifen. Mit wachsender Größe und Verteilung der Daten reicht es oft nicht mehr zu wissen, wo diese zu finden sind, sondern diese auch in geeigneter Form aus dem Internet extrahieren zu können, um aus Ihnen neue Erkenntnisse und Wissen zu gewinnen.
In diesem Workshop gibt Jan Dix (eines der Gründungsmitglieder von CorrelAid) eine kurze, einfache Einführung zum Thema Webscraping - einer Technik zum automatischen, strukturierten Herunterladen von Daten aus dem Internet.
Der Workshop, richtet sich an alle Dateninteressierten mit grundlegender Programmiererfahrung in Python. Nach einer kurzen Erklärung zum Aufbau von Webseiten und HTML wird anhand von kleinen praktischen Beispielen und Code-Ausschnitten erklärt, wie gewünschte Daten aus dem Internet extrahiert werden können.