Portal for Women in Science and Technology
in Baden-Wurttemberg

IF24-H23 Big Data Pipelines mit Apache Spark – ABGESAGT

In vielen Firmen sammeln sich Datenmengen an, die mit herkömmlichen Methoden nur schwer bearbeitet werden können. Für die effiziente und parallelisierte Verarbeitung von solchen großen Datenmengen ist Apache Spark ein beliebtes Werkzeug. Einerseits ermöglicht Spark die Implementierung von effizienten Pipelines, die große Mengen hereinkommender Daten transformieren und ablegen. Andererseits kann Spark auch für die eher explorative Analyse von Daten eingesetzt werden.

In diesem Kurs starten wir mit einem kleinen Einblick in die Architektur und die Besonderheiten, die die verteilte Datenverarbeitung mit sich bringt. Den Großteil des Kurses verbringen wir mit praktischen Übungen, die die verschiedenen Möglichkeiten von Spark ausloten. Der Fokus liegt hierbei auf Pipelines, die Daten filtern, transformieren, aggregieren und joinen. Neben den grundlegenden Funktionen von Spark wird es auch um Window-Functions, User Defined Functions und Pivotierung gehen. In einem (kleinen) Ausblick am Schluss können je nach Interesse der Teilnehmerinnen Themen wie Spark Streaming, Maschinelles Lernen mit Spark MLlib oder Big Data Best Practices angesprochen werden.

Die Übungen sollen mit Scala oder Python am eigenen Rechner bearbeitet werden. Die Kursmaterialien sind auf Englisch, Kurssprache kann Deutsch oder Englisch sein.

Credit Point: –

Requirements for participation: Kenntnisse in Python oder Scala sind notwendig (in den Unterlagen wird hauptsächlich Scala verwendet, die Übungen lassen sich aber 1-zu-1 in Python übersetzen und mit PySpark ausführen). Kenntnisse in SQL oder funktionaler Programmierung sind hilfreich, aber nicht notwendig. Spark/PySpark soll auf dem eigenen Laptop vor Kursbeginn eingerichtet werden, eine Anleitung wird zur Verfügung gestellt.

Wiltrud Kessler

Dr. Wiltrud Kessler

Wiltrud Kessler hat in Stuttgart und Madrid Informatik und Computerlinguistik studiert. Sie promovierte am Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart im Bereich Sentimentanalyse. Nach der Promotion unterrichtete sie Informatik am MINT-Kolleg Stuttgart und arbeitete als Entwicklerin einer Data Science Plattform beim Startup 5Analytics. Seit einigen Jahren arbeitet sie als Softwareentwicklerin bei jambit und entwickelt Anwendungen im Bereich Big Data.
View profile

1. August 2024 – 3. August 2024
Technical Faculty – Albert-Ludwigs-Universität Freiburg
Georges-Köhler-Allee 101, Freiburg, 79110

Exact course times

Thu 01/08 afternoon
2 - 3.30 pm
4 - 5.30 pm

Fri 02/08
8.30 - 10 am
10.30 - 12 am
2 - 3.30 pm

Sat 03/08
8.30 - 10 am
10.30 - 12 am
1.30 - 3 pm