OnlineNicht BerufsbegleitendFörderfähigPreis: 4.754,05 €*
Multivariate Datenanalyse mit R (Onlinekurs)
DHL Data Science Seminare GmbH
Beschreibung
Der R-Kurs Multivariate Datenanalyse mit R besteht aus einem dreitägigen Basistraining und einem zweitägigen Aufbautraining, die voneinander unabhängig besucht werden können. Im Basistraining werden die grundlegenden regressionsanalytischen Verfahren vorgestellt. Im Aufbautraining werden an jeweils verschiedenen Terminen die im weitesten Sinne auf der Regressionsanalyse aufbauenden Verfahren vermittelt: die Varianzanalyse, die Zeitreihenanalyse und die strukturentdeckenden Verfahren (Clusteranalyse, Faktorenanalyse und Hauptkomponentenanalyse).
Im dreitägigen Basistraining des R-Seminars Multivariate Datenanalyse mit R werden die regressionsanalytischen Verfahren behandelt. Dazu gehören die multiple Regressionsanalyse, die die linearen und nichtlinearen Zusammenhänge zwischen mehreren Variablen quantitativ beschreibt und erklärt und Prognosen erlaubt, und die logistische Regression, die zur Klassifizierung und Risikoabschätzung von Einzelfällen geeignet ist. Es wird mit vielen Beispielen und Aufgaben gezeigt, wie lineare, nicht-lineare und kategoriale Einflussgrößen und deren Wechselwirkungen modelliert werden. Des Weiteren werden Methoden behandelt, mit denen die für die Zielgröße bedeutsamen Prädiktoren bestimmt (Beta-Gewichte und Toleranzen) und das beste Prognosemodell gefunden und bewertet werden kann (stepwise regression und best subset regression). Mit diesen fortgeschrittenen Kenntnissen können komplexe und realitätsnahe Regressionsmodelle mit hohem Erklärungswert und sehr guten Prognosen entwickelt werden.
Im zweitägigen Aufbautraining des R-Seminars Multivariate Datenanalyse mit R werden weiterführende Verfahren behandelt. Dazu gehören die Varianzanalyse, die die Mittelwerte einer Vielzahl von Gruppen vergleichend analysieren kann, die Zeitreihenanalyse, die Zeitreihen mittels verschiedener Verfahren untersucht und Prognosen für zukünftige Entwicklungen erlaubt und die strukturentdeckenden Verfahren: die Clusteranalyse, die eine Vielzahl von Fällen zu wenigen Gruppen (Cluster) bündelt, und die dimensionsreduzierenden Verfahren. Dazu gehören die Faktorenanalyse und die Hauptkomponentenanalyse, die eine Vielzahl von Variablen zu wenigen Dimensionen (Faktoren oder Hauptkomponenten) reduzieren. An jedem Seminartermin wird eines der drei folgenden Themen im Aufbaukurs behandelt:
Die Varianzanalyse erlaubt die simultane Analyse einer Vielzahl von Mittelwerten verschiedener (Teil-) Stichproben. Sie kann überall dort eingesetzt werden, wo Gruppen miteinander verglichen werden sollen, dabei auch die Veränderungen von Gruppen über mehrere Zeitpunkte. Damit ist die Varianzanalyse das Verfahren der ersten Wahl zur Auswertung von Daten aus Experimenten, Quasi-Experimenten, Befragungen, Beobachtungsstudien und randomisierten kontrollierten Studien im Rahmen von Pretest-Posttest-Designs. Die Varianzanalyse ist das grundlegende statistische Verfahren zur Evaluation der Wirksamkeit von Maßnahmen und Interventionen.
Die Clusteranalyse, die Faktorenanalyse (EFA, Explorative Factor Analysis) und die Hauptkomponentenanalyse (PCA, Principal Component Analysis) gehören zu den strukturentdeckenden Verfahren. Mit einer Clusteranalyse werden ähnliche Fälle zu Gruppen (Cluster) zusammengefasst. Wir werden die hierarchische Clusteranalyse, die k-Means-Clusteranalyse und die k-Medoids-Clusteranalyse besprechen. Als Ergänzung zur Clusteranalyse wird im Basis-Training die logistische Regression vermittelt, mit der analysiert werden kann, mit welchen Variablen die in der Clusteranalyse gefundenen Gruppen am besten beschrieben werden können. Die Faktorenanalyse und die Hauptkomponentenanalyse dienen dazu, ähnliche Variablen zu Faktoren bzw. Hauptkomponenten zu bündeln. Die beiden Verfahren unterscheiden sich in einem wesentlichen Detail, so dass sich unterschiedliche Einsatzzwecke ergeben. Wir werden beide Varianten und ihre unterschiedlichen Einsatzmöglichkeiten kennenlernen.
Die Zeitreihenanalyse gehört zu den anspruchsvolleren Aufgaben in der Statistik. Zeitreihen unterliegen sowohl ihrer Eigendynamik als auch der Saisonalität des jahreszeitlichen Wandels unseres Planeten und darüber hinaus den Einflüssen anderer Zeitreihen. In diesem Kurs erhalten Sie einen zuverlässigen Leitfaden, mit dem Sie das richtige Modell für Ihre Zeitreihen aufstellen, trainieren und testen können. Schon im Basistraining werden wir anstelle der logistischen Regression die Zeitreihenregression kennenlernen. Im Aufbautraining werden für kurzfristige Voraussagen exponentielle Prognosemodelle (State-Space-Modelle) und für langfristige Prognosen die ARIMA-Modelle vermittelt. Dabei werden wir für Zeitreihen mit Saisonalität die SARIMA-Modelle, für Zeitreihen mit Einflussgrößen die ARIMAX-Modelle und für saisonale Zeitreihen mit Einflussgrößen die SARIMAX-Modelle kennenlernen. Eine besondere Herausforderung stellen die VARMAX-Modelle dar, bei denen mehrere unterschiedliche Zeitreihenmodelle und ihre gegenseitige Beeinflussung untersucht werden.
\n\nDer R Kurs Multivariate Datenanalyse mit R führt in die multivariate Statistik ein. Die Anwendung der multivariaten Verfahren mit der statistischen Programmiersprache R unter der Entwicklungsoberfläche RStudio wird mit vielen Beispielen und Übungsaufgaben trainiert und vertieft. Das Ziel der R Schulung ist es, multivariate Verfahren mit R unter RStudio anwenden zu können.