Synthetische Daten, die echt wirken -- die Standardmethode, um Klassenungleichgewichte im Machine Learning zu beheben.
SMOTE steht für Synthetic Minority Over-sampling Technique und wurde 2002 von Chawla et al. vorgestellt. Es ist die wohl am weitesten verbreitete Methode, um Klassenungleichgewichte in Machine-Learning-Datensaetzen zu beheben. Anstatt einfach vorhandene Minderheitsbeispiele zu duplizieren (was zu Overfitting führen wuerde), erzeugt SMOTE synthetische, aber plausiblen neue Beispiele.
Die Funktionsweise ist elegant: Für jedes Beispiel der Minderheitsklasse findet SMOTE die k naechsten Nachbarn desselben Typs. Dann wird ein zufälliger Punkt auf der Verbindungslinie zwischen dem Original und einem Nachbarn generiert. Das Ergebnis ist ein synthetisches Beispiel, das im Merkmalsraum zwischen existierenden Beispielen liegt -- plausibel, aber neu.
Ben Kraiem et al. (2023) nutzten SMOTE in ihrer Studie, um das Klassenungleichgewicht zwischen Traditional- und Agile-Projekten auszugleichen. Durch synthetische Erzeugung zusatetzlicher Agile-Beispiele konnte das Gradient-Boosting-Modell die Unterschiede zwischen den beiden Methoden robuster lernen.
SMOTE hat drei entscheidende Vorteile gegenüber simpler Überabtastung:
Grenzen gibt es dennoch: SMOTE kann in hochdimensionalen Raumen unplausible Beispiele erzeugen, wenn die Nachbarschaft nicht sinnvoll definiert ist. Auch bei extrem seltenen Ereignissen (z. B. 0,01% Fraud) reicht SMOTE allein nicht aus -- hier helfen spezialisierte Varianten wie Borderline-SMOTE oder ADASYN.
Aversight nutzt SMOTE-Techniken als Teil seiner Data-Pipeline, aber mit einer wichtigen Ergaenzung: Statt reiner Feature-basierter Interpolation arbeiten wir mit zeitlichen und strukturellen Constraints. Ein synthetisches Budget-Eskalations-Beispiel muss plausibel im zeitlichen Verlauf sein -- Budgetverlaeufe folgen keiner linearen Interpolation. Daher kombinieren wir SMOTE mit domain-spezifischen Regeln, die sicherstellen, dass generierte Beispiele auch im Projekt-Kontext Sinn ergeben.
30 Sekunden -- und wir melden uns innerhalb von 24 Stunden.
Kostenlosen Maturity Check starten →