Data2Day 2018

pma

Die Print Media Academy in Heidelberg

Dieser Blogartikel ist ein Gastbeitrag unseres Praktikanten Julian Henning, der sich auf der data2day 2018 in einem Workshop mit dem Thema Machine Learning beschäftigte.

Themen wie Big Data und Machine Learning spielen für ATR eine immer größere Rolle. Kombiniert wurden diese beiden Themenbereiche bei dem Workshop „Machine Learning mit PySpark“, welcher im Rahmen der data2day Konferenz in Heidelberg stattfand.

In der ersten Hälfte des Workshops wurden zunächst die grundlegenden Konzepte von Apache Spark vorgestellt, anschließend wurden die ersten Aufgabestellungen praktisch gelöst. Alle Aufgaben im Rahmen des Workshops waren in Jupyter Notebooks integriert, welche auf Amazon Webserver liefen. Dadurch konnte ein gängiger Webbrowser als Entwicklungsumgebung eingesetzt werden, ohne Python oder Ähnliches installieren zu müssen.

Der Workshop drehte sich in der zweiten Hälfte hauptsächlich um Machine Learning. Nachdem die grundlegenden Begriffe sowie die lineare Regression erklärt wurden, konnte mit Hilfe von PySpark ein erstes Model trainiert werden. Im Laufe des Workshops wurde hieraus eine Spark ML Pipeline entwickelt.

Als zweites Beispiel wurde eine Sentiment-Analyse umgesetzt. Hierbei konnten die Teilnehmer eine eigene Pipeline implementieren, die Kundenbewertungen verarbeitet und aus den verwendeten Wörtern auf eine positive oder negative Rezession schließt.

Die im Workshop verwendeten Beispiele finden sich im folgendem GitHub Repository: https://github.com/dimajix/pyspark-ml-crashcourse