Sind randomisierte Feldexperimente der Goldstandard für evidenzbasierte Politik und Managementberatung?

Randomisierte Feldexperimente sind die wichtigsten und mächtigsten Instrumente der Verhaltensökonomie. Ihre Aussagekraft wird allerdings gelegentlich angezweifelt, zuletzt auch vom Nobelpreisträger Angus Deaton. Was bedeutet diese Diskussion für den Beratungsalltag?

Sind randomisierte Feldexperimente der Goldstandard für evidenzbasierte Politik und Managementberatung?

Randomisierte Feldexperimente (oder auch kurz RCT für randomized controlled trial) sind in der ökonomischen Forschung noch vergleichsweise frisch und nach wie vor der Kritik ausgesetzt – zuletzt sogor durch Nobelpreisträger Angus Deaton. Für Feldexperimente genügten oft wenige Hypothesen und minimales Vorwissen, so Deaton, und das sei ein Nachteil für den ineinander verzahnten wissenschaftlichen Prozess. Randomisierung gefährde in der Folge präzises Arbeiten. Aber:

[…], once they are seen as part of a cumulative program, they can play a role in building general knowledge and useful predictions, provided they are combined with other methods, including conceptual and theoretical development, to discover not “what works,” but why things work.

Ein Sample allein ist nicht genug

Aber solange man noch keine ordentlichen Hypothesen formulieren könne und daher eine solide Basis für wissenschaftliches Arbeiten fehle, sie die Glaubwürdigkeit von man RCTs oft zweifelhaft, so Deaton. Und von einem Sample, noch dazu einem kleinen, könne man nie auf die Gesamtheit schliessen.

David Halpern vom britischen Behavioural Insights Team argumentiert daher in einer Antwort an Detaon, dass RCTs sorgfältig gestaltet werden müssen:

We should keep a close eye on one of his [Angus Deaton, Anm.] concerns in particular: how RCTs behave when treatment effects vary across trial participants. For example, consider a medical treatment that would greatly help, say, 1 in 100, but leave most unaffected or even mildly worse off. The result of an RCT in such a situation is highly unstable – essentially it depends on whether the one or two people happen to end up in the control or treatment groups. In such circumstances, the sample size and standard errors are really in trouble – suddenly the group that really matters is not the 1,000 people in your sample, but the 10 who are highly responsive.

Meistens kann Kritik an RCTs durch eine genaue Arbeitsweise entschärft werden, so Halpern. Falls aber zum Beispiel Ergebnisse sehr heterogen ausfallen sollten, sollte die Methodik noch einmal gut überdacht oder sogar gewechselt werden. Deatons Kritik richtet sich seiner Meinung nach nicht gegen RCT generell, sondern torpediert die Annahme, dass diese besser als alle anderen Untersuchungsmethoden sei.

Für unsere Arbeit bei FehrAdvice ergibt sich aus dieser Diskussion ein klares Fazit: Eine Kombination der verschiedenen evidenzbasierten Methoden (Feldexperimente, Onlinexperiment, Fragebogen, Interview, etc.) ist unerlässlich, um im Beratungsalltag jene Lösungen für Kunden zu finden, die dessen Erfolgschancen erheblich steigern. Von der Methodenfrage unabhängig ist der Goldstandard in der Beratung: Den Menschen mit seinem Verhalten in den Mittelpunkt der Analyse zu stellen, um das zukünftige Verhalten der Menschen, also von Bürgern, Kunden, Mitarbeitenden und Lieferanten, verlässlich prognostizieren zu können.

Quellen: