Die Kirkpatrick-Falle: Warum die meisten Unternehmen bei E1 aufhören und es Erfolg nennen | SimuPro 2026
Strategischer Analysebericht | Q1 2026

Die Kirkpatrick-Falle.
Warum die meisten Unternehmen
bei E1 aufhören.

Ihre Nachschulungsumfrage ist keine Datenbasis. Sie ist ein Komfortritual. Und die gesamte Branche hat sich stillschweigend darauf geeinigt, so zu tun, als wäre das anders.

Kurze Antwort / Featured Snippet

Was ist die Kirkpatrick-Falle?

Die Kirkpatrick-Falle ist das organisationale Muster, bei dem Trainingsprogramme ausschließlich anhand von E1-Daten (Teilnehmerreaktionsumfragen) bewertet werden, während die Ebenen E2 bis E4 (Lernen, Verhaltenstransfer und Geschäftsergebnisse) nie gemessen werden. Die Falle ist selbstverstärkend: E1-Daten sind billig zu produzieren, leicht als Erfolgsbeweis zu präsentieren, und zeigen nie, ob das Training irgendetwas verändert hat, das relevant ist.

Donald Kirkpatrick veröffentlichte sein Vier-Ebenen-Modell zur Trainingsevaluation im Jahr 1959. Siebenundsechzig Jahre später gilt es noch immer als Branchenstandard. Jede ernsthafte L&D-Fachkraft kennt es. Es wird in Beschaffungsdokumenten referenziert, in Trainingsangeboten zitiert und als Best-Practice-Framework in mehr Kompetenzentwicklungsstrategien aufgeführt, als ich zählen kann.

Und dennoch erheben die meisten Unternehmen in der Praxis ausschließlich E1-Daten. Sie führen eine Nachschulungsumfrage durch. Sie berichten einen Zufriedenheitsscore. Sie nennen es Evaluation. Dann nutzen sie diese Zahl, um die nächste Runde desselben Trainings zu rechtfertigen.

Das ist die Kirkpatrick-Falle. Nicht Unkenntnis des Modells. Sondern systematische, organisationale Vermeidung der Teile des Modells, die aufzeigen würden, ob das Training tatsächlich gewirkt hat.

Was gemessen wird
Hat es gefallen? Nur E1.
⚡ Evidenzlücke ⚡
Was tatsächlich zahlt
Hat sich Verhalten geändert? E3 und E4.

Die Architektur des bequemen Lernens

Der Grund, warum Unternehmen bei E1 aufhören, ist keine Nachlässigkeit. Es ist ein strukturelles Problem mit der Gestaltung der meisten Trainingsprogramme. E1-Daten sind leicht zu erheben, weil die Messung unmittelbar nach dem Training stattfindet, während die Teilnehmenden noch im Raum sind, noch im positiven emotionalen Zustand, den ein gut moderierter Tag tendenziell erzeugt.

E3-Daten erfordern etwas grundlegend anderes. Man muss beobachten, wie der Teilnehmende Wochen nach dem Training, unter echten Druckbedingungen und ohne Moderator, sein Verhalten tatsächlich verändert. Das erfordert eine Nachfolgemethodologie, eine Vergleichsgruppe und ein Verhaltensmessinstrument, das die meisten Trainingsprogramme nie entwickelt haben.

Also hat die Branche eine Lösung gefunden: messen, was messbar ist, es Evaluation nennen und zum nächsten Programm übergehen. Und weil niemand E3 und E4 misst, baut niemand die Evidenz auf, die die Frage erzwingen würde: Hat das irgendetwas verändert?

Das Kernproblem

Ein Zufriedenheitsscore sagt, dass Teilnehmende die Erfahrung genossen haben. Er sagt nichts darüber aus, ob sie an einem Donnerstagnachmittag in Woche drei anders führen.

Die vier Ebenen. Was die Branche tut. Was SimuPro tut.

Das ist keine Kritik am Kirkpatrick-Modell. Es ist eine präzise Beschreibung, wo die Branche aufhört und wo SimuPro anfängt.

Ebene E1

Reaktion

Hat das Training den Teilnehmenden gefallen? Per Nachschulungsumfrage gemessen. Die Branche erhebt dies universell. Es ist billig, schnell, und sagt nichts über Verhaltensveränderung aus.

Branche: Immer

Ebene E2

Lernen

Haben Teilnehmende das beabsichtigte Wissen oder die Fähigkeiten erworben? Per Vor-/Nachtest gemessen. Die Branche erhebt dies manchmal. SimuPro erfasst es in Echtzeit durch Verhaltensperformance.

SimuPro: Immer

Ebene E3

Verhalten

Haben Teilnehmende das Gelernte am Arbeitsplatz angewendet? Das ist die entscheidende Ebene. Die Branche erreicht sie fast nie. SimuPros Verhaltenstelemetrie generiert diese Daten innerhalb der Simulation selbst.

SimuPro: Immer

Ebene E4

Ergebnisse

Hat das Training messbare Geschäftsergebnisse produziert? Die Branche liefert diese Daten fast nie. SimuPro korreliert Entscheidungslatenz-, Team-Reibungsindex- und Belastungskapazitätsveränderungen mit dokumentierten Performance-Verschiebungen.

SimuPro: Immer

Was die Forschungskohorte zeigte

Die IMC-Krems-Studie 2021 (n=40) war von Anfang an darauf ausgelegt, alle vier Kirkpatrick-Ebenen zu produzieren. Das ist ungewöhnlich. Die meisten akademischen Studien zur Trainingseffektivität enden bei E2. Wir nicht.

100%

der Kontrollgruppen-Teilnehmenden hatten keine E3-Verhaltensdaten aus ihren früheren Trainingsprogrammen verfügbar. Ihre Unternehmen hatten nie gemessen, ob sich Verhalten nach dem Training verändert hatte.

4,7x

Verbesserung der Entscheidungslatenz in der Behandlungsgruppe gegenüber der Kontrollgruppe, gemessen während komplexer Krisenszenarien. Das sind E3- und E4-Daten aus einem einzigen Simulationstag.

0x

der früheren Trainingsprogramme der Kontrollgruppe hatten E3- oder E4-Daten produziert. Jedes Programm war ausschließlich auf E1-Basis evaluiert und als erfolgreich klassifiziert worden.

Die 0x-Zahl ist diejenige, die mich nicht loslässt. Kein einziges der Programme, die die Teilnehmenden der Kontrollgruppe trainiert hatten, hatte je nachgeprüft, ob sich das Verhalten danach verändert hatte. Alle waren auf E1-Basis positiv bewertet worden. Alle wurden erneuert. Und die Verhaltensdaten zeigten, sobald wir sie endlich erhoben hatten, keine messbare Verbesserung der Entscheidungsqualität unter Druck im Vergleich zu Personen ohne jegliches vorheriges Führungstraining.

Das ist keine Kritik an den Moderatoren, die diese Programme durchgeführt haben. Es ist eine strukturelle Kritik an einem System, das E1-Scores belohnt und nie mehr verlangt.

E1 versus E3. Die Evidenz im direkten Vergleich.

Das ändert sich, wenn man aufhört, E1 als Evidenz zu akzeptieren, und anfängt, E3 einzufordern. Die Unterschiede sind nicht subtil. Sie sind der Unterschied zwischen einer Budgetzeile und einem Business Case.

Evaluationsdimension
Nur E1 (Branchenstandard)
E3 + E4 (SimuPro-Standard)
Was gemessen wird
Teilnehmerzufriedenheit mit der Trainingserfahrung. Unmittelbar nach der Sitzung erhoben.
Verhaltensveränderung unter dokumentierten Druckbedingungen. Während und nach der Simulation erhoben.
Wann Daten erhoben werden
Am selben Tag. Während Teilnehmende noch positiv gestimmt sind und der Moderator noch im Raum ist.
Während des Szenarios in Echtzeit und durch Folge-Verhaltensmarker, die von der Verhaltenstelemetrie erfasst werden.
Was die Daten beweisen
Dass Teilnehmende eine positive Erfahrung hatten. Das ist wertvoll. Es ist kein Beweis, dass sich Führungsverhalten verändert hat.
Dass sich spezifische Verhaltensmetriken verschoben haben. Entscheidungslatenz. Emotionale Belastungskapazität. Team-Reibungsindex. Das sind geschäftsrelevante Zahlen.
Budgetrechtfertigung
Qualitativ. "Das Feedback war ausgezeichnet." Erneuerung hängt von Beziehung und Trägheit ab, nicht von Evidenz.
Quantitativ. Spezifische Vorher-Nachher-Verhaltensdaten, die einem CFO präsentiert werden können. Die Investition hat einen messbaren Output.

Der einzige Ausweg aus der Falle ist eine andere Messarchitektur.

Die Kirkpatrick-Falle wird nicht dadurch gelöst, dass man innerhalb des bestehenden Trainingsformats härter versucht, E3 und E4 zu messen. Traditionelle Präsenz- und Workshopformate können strukturell keine E3-Daten produzieren. Das Messfenster schließt sich in dem Moment, in dem die Teilnehmenden den Raum verlassen, und was in den Wochen danach passiert, ist fur den Programmdesigner unsichtbar.

Simulationstraining mit Verhaltenstelemetrie löst das auf der Architekturebene. Die Simulation ist das Messinstrument. Die Verhaltensdaten werden während der Erfahrung produziert, nicht danach. E3-Daten werden nicht retrospektiv durch Manager-Umfragen oder Leistungsbeurteilungen erhoben. Sie werden Sekunde fur Sekunde erfasst, in dem Moment, in dem Verhalten unter Druck tatsächlich beobachtbar ist.

Die Unternehmen, die der Kirkpatrick-Falle entkommen, tun dies nicht, indem sie ihrer bestehenden Maßnahme eine Folgeumfrage hinzufügen. Sie tun es, indem sie die Trainingsarchitektur vollständig ändern. Die Messfähigkeit und die Lernerfahrung werden zu ein und derselben Sache. Das ist das, was eine Simulation kann und sonst nichts.

Die SimuPro-Methode

SimuPro fügt dem Training keine Messung hinzu. SimuPro macht das Training selbst zur Messung.

In einem eintägigen Diagnose-Workshop stehen Ihre Führungskräfte vor kombinierten Druckszenarien, die darauf ausgelegt sind, beobachtbare Verhaltensdaten über alle vier Kirkpatrick-Ebenen gleichzeitig zu produzieren. E1 wird erfasst. E2 wird dokumentiert. E3 wird in Echtzeit gemessen. Und E4 wird aus spezifischen Verhaltensmetriken berechnet, die direkt mit Team-Performance-Ergebnissen korrelieren. Sie erhalten ein Datenpaket, keinen Zufriedenheitsscore.

Nächster Schritt

Hören Sie auf, E1 als Evidenz zu akzeptieren. Fangen Sie an zu messen, was sich tatsächlich geändert hat.

In einem eintägigen Diagnose-Workshop stehen Ihre Führungskräfte vor realen kombinierten Druckszenarien. Ihre Verhaltensdaten werden über alle vier Kirkpatrick-Ebenen erfasst. Sie erhalten spezifische, messbare Evidenz darüber, was sich verändert hat und was nicht.

Alexander Edelmann, CEO SimuPro GmbH

Der Architekt

Alexander Edelmann

CEO der SimuPro GmbH. Veröffentlichter Behavioral Engineer und Forscher (IMC Krems, 2021). Seine quantitative Peer-Review-Studie zum simulatorbasierten Führungstraining, durchgeführt mit zwei Gruppen von je 20 echten Mitarbeitenden, bildet das wissenschaftliche Fundament der SimuPro-Methodik.

Auf LinkedIn vernetzen