Journal Club

ESR Essentials: Empfehlungen für Auswahl von KI-Kennzahlen

Datum:

24.11.2025

Journal:

European Radiology 2025

Titel:

ESR Essentials: Common Performance Metrics in AI – Practice Recommendations

Autor:

Klontzas ME et al.
Zur Originalstudie

Vor der Implementierung von KI-Tools in die klinische Praxis braucht es ausreichende Tests mit lokalen Daten. Dabei sind Prävalenzen und Aufgabenstellungen zu berücksichtigen.



Im neuen Beitrag ihrer Reihe “ESR Essentials” gibt die European Society of Radiology praxisorientierte Empfehlungen, um KI‑Systeme kritisch zu bewerten und sie sicher in die radiologische Routine zu integrieren.

Expertinnen und Experten der European Society of Medical Imaging Informatics haben diese Empfehlungen im Konsensus-Verfahren erarbeitet. Der Fokus liegt auf der Auswahl geeigneter Leistungskennzahlen (Performance Metrics).
 

Fazit

  • Vor Implementierung von KI‑Anwendungen sollten lokale Tests mit Daten der eigenen Institution durchgeführt werden.
  • Erhobene Leistungskennzahlen müssen den klinischen Zweck berücksichtigen – zum Beispiel Befundung, Screening oder Verlaufskontrolle.
  • Bei der Integration in die radiologische Routine ist die kontinuierliche Leistungsüberwachung ein Muss.
  • Die Kombination statistischer und klinischer Kriterien steigert die diagnostische Aussagekraft.
     

Zentrale Empfehlungen

Lokale Validierung der KI

Radiologische KI‑Systeme müssen mit unabhängigen, lokalen Datensätzen geprüft werden, die die eigenen Geräte, Protokolle und Patientenkollektive abbilden. Nur so lässt sich sicherstellen, dass der tatsächliche Nutzen mit den Herstellerangaben übereinstimmt.
 

Aufgabenorientierte Auswahl der Kennzahlen

Wichtige Aufgabenbereiche für KI in der Radiologie sind die Segmentierung, Detektion und Klassifikation. Sie erfordern jeweils spezifische Leistungskennzahlen. So eignen sich zum Beispiel für Segmentierungen der Dice Similarity Coefficient (DSC) und Normalized Surface Distance (NSD). Für Klassifikationen sollten verschiedene Kennzahlen kombiniert werden, wie etwa Sensitivität, Spezifität oder negativer Vorhersagewert (NPV).
 

Berücksichtigung des klinischen Kontextes

Die klinische Fragestellung bestimmt die Gewichtung der Kennzahlen. Screening‑Anwendungen erfordern eher eine hohe Sensitivität, während eine hohe Spezifität unerlässlich ist, wenn eine schwere Erkrankung bestätigt oder nicht nötige Therapien bzw. Follow-Ups vermieden werden sollen. Radiolog:innen sollten aktiv an der Definition der Bewertungsmetriken mitwirken und dabei die jeweilige Krankheitsprävalenz vor Ort berücksichtigen.


Mehrdimensionale Bewertung statt Einzelmetrik

“One metric is no metric” – Die Überinterpretation einzelner Werte (etwa der Accuracy) ist zu vermeiden. Stattdessen sind verschiedene Kennzahlen miteinander zu betrachten, um ein realistisches Bild davon zu gewinnen, was die KI tatsächlich leistet. Bei niedriger Prävalenz (etwa im Screening) sind beispielsweise F1‑Score, MCC und AUPRC aussagekräftiger als AUROC oder Accuracy.
 

Umgang mit Entscheidungsschwellen (Thresholds)

Schwellenwerte müssen an klinische Fragstellungen angepasst werden. Ein standardisierter Schwellenwert kann unpassend sein. So kann für den Tumornachweis eine höhere Schwelle sinnvoll sein, um die Anzahl falsch-positiver Befunde zu reduzieren.


Bewertung synthetischer (KI‑generierter) Bilder

Bei der Nutzung generativer Algorithmen – beispielsweise bei Rekonstruktionen oder Datensatz‑Augmentation – sollen objektive Qualitätsmetriken wie SSIM, PSNR oder RMSE genutzt werden. Aber Achtung: Diese Parameter spiegeln nicht unbedingt die diagnostische Qualität der Bilder wider. Daher sind sie stets durch die klinische Bildbefundung durch einen Menschen zu ergänzen.


Umfassende und transparente Evaluierung

Für die Evaluationsberichte werden standardisierte Checklisten empfohlen, zum Beispiel „CLAIM‑2024“ für KI‑Studien und „CLEAR“ für Radiomics‑Forschung. Diese verlangen eine genaue Beschreibung der Datengrundlage, Subgruppen‑Analysen und statistische Vergleiche.