Beschreibung
MapReduce ist eine Programmiertechnologie, die im Hadoop-Ökosystem
verwendet wird. Mit MapReduce können Entwickler:innen ein verteiltes
Hadoop-Cluster nutzen, um komplexe Aufgaben ohne viel Code zu erledigen.
MapReduce ist ein Zwei-Schritte-Prozess, der aus Map und Reduce besteht.
Beim Map-Schritt wird ein Eingabedatensatz in kleinere Teile unterteilt und
ein Mapping-Algorithmus wird auf jeden Teil angewendet. Der Reduce-Schritt
ist der zweite Schritt in der Sequenz, in dem die Ergebnisse des
Map-Schritts aggregiert und zusammengeführt werden.
In dieser Schulung werden wir uns die Grundlagen von MapReduce anschauen
und wie man sie effektiv einsetzt. Dazu gehört das Verstehen der
grundlegenden Komponenten von MapReduce, das Erstellen einer
MapReduce-Anwendung und die Implementierung von Workflows mit MapReduce.
Zuerst werden wir uns anschauen, wie man MapReduce verwendet, indem wir ein
Beispiel ansehen. Danach werden wir die grundlegenden Komponenten des
MapReduce-Frameworks erklären, wie Map und Reduce, Input- und Outputformate
und Job-Konfiguration.
Anschließend werden wir uns anschauen, wie man eine MapReduce-Anwendung in
Hadoop erstellt. Dies beinhaltet das Verständnis der grundlegenden Schritte
zur Erstellung einer MapReduce-Anwendung, wie das Erstellen von Eingabe-
und Ausgabeformaten, das Schreiben von Map und Reduce-Funktionen und das
Erstellen eines MapReduce-Job-Objekts.
Abschließend werden wir uns anschauen, wie man einen MapReduce-Workflow
erstellt. Dies beinhaltet das Verständnis der grundlegenden Elemente eines
Workflows, wie das Erstellen von Jobs und die Verknüpfung von Jobs, um
einen komplexen Workflow zu erstellen.