OnlineBerufsbegleitend
Reise ins Innere der KI: LLM von Grund auf verstehen
infofeld GmbH infofeld GmbH Wiesenstraße 1, 91757 Treuchtlingen
Beschreibung
Modul 01: Evolution der Sprachmodelle
- Von n-Grammen über Word2Vec zu GPT
- Sprachverständnis als Wahrscheinlichkeitsproblem
- Anwendungsfelder und Auswirkungen von LLMs
- Beispiel: GPT-2 Output rekonstruiert
Modul 02: Repräsentationen & Embeddings - One-Hot-Encoding vs. Dense Embedding - Tokenisierung, Vektorräume, Bedeutung durch Nähe - Mathematische Grundlagen: Kosinusabstand, Matrixmultiplikation - Übung: Vektorraumvisualisierung in 2D/3D
Modul 03: Architektur eines LLM – Überblick - Encoder, Decoder, Self-Attention - Multi-Head-Attention & Positionale Kodierung - Residuals, Layer Norms, Feedforward-Netze - Visualisierung: GPT-Block zerlegt
Modul 04: Der Attention-Mechanismus im Detail - Warum Attention > RNN? - Skalierte Dot-Product Attention erklärt - Maskierung, Causal Attention - Rechenübung: Attention Score berechnen
Modul 05: Training eines LLM – Vom Token zur Vorhersage - Trainingsdaten, Zielgröße, Loss-Funktion (Cross-Entropy) - Optimierung mit Backpropagation & Gradient Descent - GPU-Einsatz, Batch-Größe, Lernrate - Demo: Kleines LLM trainieren mit tinygrad oder transformers
Modul 06: Textgenerierung und Promptsteuerung - Sampling-Strategien: Greedy, Top-k, Nucleus - Temperature, Logits, Prompt Engineering - Prompt-Muster: Chain-of-Thought, Few-Shot, Zero-Shot - Übung: Output lenken durch Promptvarianten
Modul 07: Grenzen und Fehler von LLMs - Halluzinationen, Bias, Rechenlogik - Erklärbarkeit und Unsicherheit - Prompt-Injektion, Jailbreaking - Diskussion: Kann man GPT „verstehen“?
Modul 08: Weiterentwicklung & aktuelle Trends - Fine-Tuning, Adapter, Retrieval-Augmented Generation - Multimodale Modelle, Mixture of Experts - Quantisierung, Distillation, effiziente Modelle - Beispiel: LLaMA vs. GPT vs. Mistral
Modul 09: Transfer & Anwendungsfälle - Modellarchitektur erklären können - Grenzen im Unternehmen erkennen - Reflektierter Umgang mit GenAI-Tools - Abschlussübung: Architektur in 3 Minuten erklären
Modul 02: Repräsentationen & Embeddings - One-Hot-Encoding vs. Dense Embedding - Tokenisierung, Vektorräume, Bedeutung durch Nähe - Mathematische Grundlagen: Kosinusabstand, Matrixmultiplikation - Übung: Vektorraumvisualisierung in 2D/3D
Modul 03: Architektur eines LLM – Überblick - Encoder, Decoder, Self-Attention - Multi-Head-Attention & Positionale Kodierung - Residuals, Layer Norms, Feedforward-Netze - Visualisierung: GPT-Block zerlegt
Modul 04: Der Attention-Mechanismus im Detail - Warum Attention > RNN? - Skalierte Dot-Product Attention erklärt - Maskierung, Causal Attention - Rechenübung: Attention Score berechnen
Modul 05: Training eines LLM – Vom Token zur Vorhersage - Trainingsdaten, Zielgröße, Loss-Funktion (Cross-Entropy) - Optimierung mit Backpropagation & Gradient Descent - GPU-Einsatz, Batch-Größe, Lernrate - Demo: Kleines LLM trainieren mit tinygrad oder transformers
Modul 06: Textgenerierung und Promptsteuerung - Sampling-Strategien: Greedy, Top-k, Nucleus - Temperature, Logits, Prompt Engineering - Prompt-Muster: Chain-of-Thought, Few-Shot, Zero-Shot - Übung: Output lenken durch Promptvarianten
Modul 07: Grenzen und Fehler von LLMs - Halluzinationen, Bias, Rechenlogik - Erklärbarkeit und Unsicherheit - Prompt-Injektion, Jailbreaking - Diskussion: Kann man GPT „verstehen“?
Modul 08: Weiterentwicklung & aktuelle Trends - Fine-Tuning, Adapter, Retrieval-Augmented Generation - Multimodale Modelle, Mixture of Experts - Quantisierung, Distillation, effiziente Modelle - Beispiel: LLaMA vs. GPT vs. Mistral
Modul 09: Transfer & Anwendungsfälle - Modellarchitektur erklären können - Grenzen im Unternehmen erkennen - Reflektierter Umgang mit GenAI-Tools - Abschlussübung: Architektur in 3 Minuten erklären