Portal für Frauen in Wissenschaft und Technik
in Baden-Württemberg

IF24-H23 Big Data Pipelines mit Apache Spark

In vielen Firmen sammeln sich Datenmengen an, die mit herkömmlichen Methoden nur schwer bearbeitet werden können. Für die effiziente und parallelisierte Verarbeitung von solchen großen Datenmengen ist Apache Spark ein beliebtes Werkzeug. Einerseits ermöglicht Spark die Implementierung von effizienten Pipelines, die große Mengen hereinkommender Daten transformieren und ablegen. Andererseits kann Spark auch für die eher explorative Analyse von Daten eingesetzt werden.

In diesem Kurs starten wir mit einem kleinen Einblick in die Architektur und die Besonderheiten, die die verteilte Datenverarbeitung mit sich bringt. Den Großteil des Kurses verbringen wir mit praktischen Übungen, die die verschiedenen Möglichkeiten von Spark ausloten. Der Fokus liegt hierbei auf Pipelines, die Daten filtern, transformieren, aggregieren und joinen. Neben den grundlegenden Funktionen von Spark wird es auch um Window-Functions, User Defined Functions und Pivotierung gehen. In einem (kleinen) Ausblick am Schluss können je nach Interesse der Teilnehmerinnen Themen wie Spark Streaming, Maschinelles Lernen mit Spark MLlib oder Big Data Best Practices angesprochen werden.

Die Übungen sollen mit Scala oder Python am eigenen Rechner bearbeitet werden. Die Kursmaterialien sind auf Englisch, Kurssprache kann Deutsch oder Englisch sein.

Credit Point: –

Voraussetzungen: Kenntnisse in Python oder Scala sind notwendig (in den Unterlagen wird hauptsächlich Scala verwendet, die Übungen lassen sich aber 1-zu-1 in Python übersetzen und mit PySpark ausführen). Kenntnisse in SQL oder funktionaler Programmierung sind hilfreich, aber nicht notwendig. Spark/PySpark soll auf dem eigenen Laptop vor Kursbeginn eingerichtet werden, eine Anleitung wird zur Verfügung gestellt.

Wiltrud Kessler

Dr. Wiltrud Kessler

Wiltrud Kessler hat in Stuttgart und Madrid Informatik und Computerlinguistik studiert. Sie promovierte am Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart im Bereich Sentimentanalyse. Nach der Promotion unterrichtete sie Informatik am MINT-Kolleg Stuttgart und arbeitete als Entwicklerin einer Data Science Plattform beim Startup 5Analytics. Seit einigen Jahren arbeitet sie als Softwareentwicklerin bei jambit und entwickelt Anwendungen im Bereich Big Data.
Profil ansehen

Buchungen

Bitte wähle ein Ticket

Ticket-Typ Preis Plätze
Studentin Early Bird
für Studentinnen und Nichterwerbstätige | Early Bird bis 31.05.
40,00 €
Berufstätige Early Bird
Early Bird bis 31.05.
270,00 €
Berufstätige ermäßigt Early Bird
Ermäßigung von 50% für TZ-Beschäftigte (bis 50% Umfang) | Early Bird bis 31.05.
135,00 €

Du musst dich anmelden oder registrieren, um eine Buchung vornehmen zu können.

1. August 2024 – 3. August 2024
Technische Fakultät – Albert-Ludwigs-Universität Freiburg
Georges-Köhler-Allee 101, Freiburg, 79110

Genaue Kurszeiten

Do 01.08. nachm.
14:00 – 15:30 Uhr
16:00 – 17:30 Uhr

Fr 02.08.
8:30 – 10:00 Uhr
10:30 – 12:00 Uhr
14:00 – 15:30 Uhr

Sa 03.08.
8:30 – 10:00 Uhr
10:30 – 12:00 Uhr
13:30 – 15:00 Uhr