Zwei Zahlen, die entscheiden, ob Ihr Risikomodell nützlich ist -- oder nur nervt.
Precision (Praezision) und Recall (Trefferquote) sind die zwei wichtigsten Evaluationsmetriken für Klassifikationsmodelle -- besonders wenn Klassenungleichgewichte vorliegen. Beide beantworten unterschiedliche Fragen und haben unterschiedliche Kosten bei Fehlern.
Precision = Von allen als positiv vorhergesagten Fällen, wie viele waren tatsaechlich positiv?
Formel: TP / (TP + FP)
Frage: Wenn das Modell Alarm schlaegt, wie wahrscheinlich ist es, dass wirklich etwas passiert?
Recall = Von allen tatsaechlich positiven Fällen, wie viele wurden vom Modell erkannt?
Formel: TP / (TP + FN)
Frage: Wie viele der tatsaechlichen Eskalationen hat das Modell übersehen?
Precision und Recall stehen in einem Zielkonflikt: Wenn man Recall maximiert (alle Eskalationen finden), sinkt Precision (mehr falsche Alarme). Wenn man Precision maximiert (nur sichere Alarme), sinkt Recall (mehr verpasste Eskalationen).
Ben Kraiem et al. (2023) nutzten Accuracy als Hauptmetrik (94,4%), aber in der Praxis des Risikomanagements sind Precision und Recall weit aussagekräftiger. Ein Modell mit 94% Accuracy kann bei 5% Eskalationsrate trotzdem 50% der kritischen Fälle verpassen -- wenn die Minderheitsklasse systematisch schlechter klassifiziert wird.
Im Risikomanagement ist die Wahl zwischen Precision und Recall eine strategische Entscheidung:
Die richtige Balance haengt vom Kontext ab. Ein Feueralarm sollte hohen Recall haben (lieber einmal zu viel als zu wenig). Ein Medikamententest sollte hohe Precision haben (keine falsch-positiven Nebenwirkungen).
Aversight optimiert nicht für eine einzelne Metrik, sondern für den geschaeftlichen Nutzen. Unsere Modelle werden so kalibriert, dass der Recall für kritische Eskalationen >90% liegt -- wir wollen keine verpassten Budget-UEberschreitungen. Gleichzeitig halten wir die Precision auf einem Niveau, das das operative Team nicht überfordert. Der Benutzer kann über einen Schieberegler die Balance anpassen: Mehr Sicherheit (hoher Recall) oder mehr Effizienz (hohe Precision). Das Modell passt den Entscheidungsthreshold dynamisch an.
30 Sekunden -- und wir melden uns innerhalb von 24 Stunden.
Kostenlosen Maturity Check starten →