Wenn Ihr Modell die Trainingsdaten perfekt kennt -- aber neue Projekte nicht erkennt. Die klassische Lernfalle.
Overfitting (Ueberanpassung) beschreibt einen Zustand, in dem ein Machine-Learning-Modell die Trainingsdaten zu genau gelernt hat. Es erkennt nicht nur die relevanten Muster, sondern auch Rauschen, Ausreisser und zufällige Eigenheiten des Trainingsdatensatzes. Das Ergebnis: exzellente Performance auf den Trainingsdaten, aber schlechte Generalisierung auf neue, ungesehene Daten.
Die Ursachen sind vielfaeltig: zu wenige Trainingsdaten, zu viele Modellparameter, zu langes Training ohne Regularisierung, oder die Wahl eines zu komplexen Modells für die vorliegende Datenmenge. Ein Entscheidungsbaum mit 1000 Blaettern auf 200 Datensaetzen wird jeden einzelnen Datensatz auswendig lernen -- und bei neuen Daten versagen.
Ben Kraiem et al. (2023) begegneten diesem Problem durch Cross-Validation: Die 99 Projekte wurden in Trainings- und Testsets aufgeteilt, sodass das Modell nicht auf denselben Daten trainiert und evaluiert wurde. Die 94,4% Accuracy auf dem Testset zeigen, dass das Gradient-Boosting-Modell generalisierbar war -- nicht auswendig gelernt hat.
Overfitting ist im Risikomanagement besonders gefaerlich, weil:
Die wichtigsten Gegenmaßnahmen sind: Kreuzvalidierung (Cross-Validation), Regularisierung (L1/L2), Fruehstopping, Dropout bei neuronalen Netzen, und die Wahl einfacherer Modelle, wenn die Daten es erlauben.
Aversight bekämpft Overfitting auf mehreren Ebenen. Technisch durch Cross-Validation und Regularisierung in allen Modellen. Praktisch durch das Konzept der "lebenden Modelle": Jede Woche fliessen neue Projektdaten ein, das Modell wird neu trainiert, und Performance-Drifts werden automatisch erkannt. Wenn die Test-Accuracy sinkt, wird das Modell zurückgesetzt oder retrainiert. Ausserdem nutzen wir Ensemble-Methoden -- keine einzelnen Entscheidungsbaeume, sondern Kombinationen vieler schwacher Lerner, die zusammen robuster sind als jeder Einzelne.
30 Sekunden -- und wir melden uns innerhalb von 24 Stunden.
Kostenlosen Maturity Check starten →