Sie sind hier:

Metaanalytischer Quark

Koch-Shows im Fernsehen sind groß in Mode. Angesichts der Fülle dort eingesetzter Zutaten lässt sich fragen, wieweit diese wirklich alle notwendig sind.

Doch so sinnvoll diese Frage auch sein mag: Was soll man von einem Forschungsdesign halten, das den Einfluss unterschiedlicher Zutaten wie Salz, Pfeffer, Quark etc. auf das Ergebnis – eine schmackhafte Mahlzeit – wie folgt untersuchen wollte: Man stellt einige hundert Speisen mit gemessenen (aber variablen) Mengen an Zutaten her und lässt diese dann von größeren Gruppen (randomisierter) Esser auf einer Skala beurteilen.

„Schwachsinn!“ wird der Leser (hoffentlich) sagen. Wobei der Einwand nicht darauf abzielt, dass man keine Daten mit einem solchem Design erheben könnte. Sondern es geht darum, dass sich die Frage so nicht beantwortet lässt. Denn jeder weiß, dass die Zutaten je nach Speise unterschiedlich variabel gehandhabt werden können: Beim Schokopudding darf es mal mehr mal weniger Milch sein, beim Pfeffersteak hingegen sollte sich die Milchmenge (wenn überhaupt) sehr in Grenzen halten – das gleiche gilt, umgekehrt, für den Einsatz von Pfeffer. Auch das Zusammenwirken der Zutaten ist keineswegs verallgemeinerbar: Pfeffersteak mit anschließendem Schokopudding kann ggf. sehr schmackhaft sein, während beides, auf einem Teller verrührt, wohl nur wenige gut finden. Und bei denselben Zutatenmengen würde die Menü-Folge – Milch mit Pfeffer, dann Steak mit Schokopulver und als Nachtisch Salz – kaum besser bewertet werden.

Kurz: der Einfluss der Zutaten, ihre Wechselwirkung, Reihenfolge etc. sind bei unterschiedlichen Gerichten bereits so komplex, dass die Frage „Zu wieviel Prozent (oder mit welcher Effektstärke) trägt Quark zu einer guten Mahlzeit bei?“ viel zu allgemein gestellt wäre. Sie müsste zumindest für unterschiedliche Speisen, aber auch für spezifische Umsetzungen der Zutaten (z. B. Reihenfolge) differenziert werden.

Nun sagen aber Computerprogramme per se nichts über Sinn oder Unsinn ihrer Verwendung aus. Gäbe es daher Daten nach dem oben genannten Design, so könnte man diese in eines der üblichen Programme für Metanalysen füttern – und daraus ließe sich die „Effektstärke von Quark“ errechnen.

Billige Polemik über fiktiven Missbrauch von Metanalysen? Dazu sehe man sich die von John C. Norcross herausgegebene Publikation „Evidence-Based Therapy Relationships“ an. In 13 Beiträgen werden jeweils Metanalysen zu „Elementen“ bzw. „Faktoren“ der therapeutischen Beziehung durchgeführt. Solche „Elemente“ sind u. a. therapeutische Allianz, Zielübereinstimmung, positive Wertschätzung, Kongruenz, Empathie usw. Wohlgemerkt: Jedem einzelnen „Element“ ist eine Metaanalyse gewidmet. Dies führt dann u. a. zu Aussagen, dass Empathie (57 Studien, 3.599 Klienten) „nachweislich“, aber positive Wertschätzung (18 Studien) nur „wahrscheinlich“ effektiv wirkt. Bei Kongruenz (16 Studien 863 Klienten) gäbe es aber noch keine hinreichende Evidenz für Wirksamkeit. Beachtliche Bewertungsunterschiede, angesichts recht ähnlicher, artefaktanfälliger Effektstärken: für Empathie .31, für positive Wertschätzung .27, und für Kongruenz .24. (mittlere Korrelation zwischen „Element“ und „Behandlungserfolg“).

Fragt sich, ob zum Beispiel in allen 57 Studien mit Daten zur „Empathie“ überhaupt hinreichend das gleiche darunter verstanden wurde. Oder wieweit dies für „Behandlungserfolg“ gilt. Und hatte nicht Rogers, auf den diese Konzepte zurückgehen, einst betont, dass es sich um drei untrennbare, wechselwirkende Aspekte einer Haltung handelt?

Freilich ist die exzessive Zerlegung therapeutischer Prozesse in metanalytisch isolierbare „Elemente“ keineswegs neu: In zahlreichen Publikationen geistert eine Abbildung mit Tortenstücken herum, wonach 30 Prozent der Verbesserung in Therapien auf die therapeutische Beziehung zurückgehen sollen (40 % auf externe Einflüsse, 15 % auf Erwartungseffekte und nur 15 % auf die Technik). Diese Zahlen sind für Rogerianer natürlich erfreulich. Sie sind dennoch numerischer Quark. Was würden wir z. B. mit einer Aussage anfangen: „Im Mittel sind die Gewässer in Deutschland 162,7 cm tief“? Zu Recht würden wir doch fragen: Welche Gewässer? Sind es die großen Flüsse wie Rhein, Elbe etc. oder auch die kleinen wie Hase, Düte usw.? Und wo wird gemessen: näher an der Quelle oder an der Mündung? Wie steht es mit Seen und Teichen etc.? Genauso klar ist, dass die Wirk-Anteile im Therapieprozess nicht konstant und unabhängig sind und zum Beispiel von der Art der Störung oder dem jeweiligen Ansatz abhängen: Sie sind (hoffentlich) im humanistischen Ansatz eher höher als in der VT (wo, andersherum, die dort zentralen Techniken wohl über 15 % des Erfolgs ausmachen). Jede quantitative Aussage hängt somit von der spezifischen Mischung an Studien mit unterschiedlichen Gegebenheiten ab. Für eine spezifische Mischung mag die „30%“-Aussage richtig sein – doch für einen Mix ist auch die „mittlere Gewässertiefe“ 162,7 cm. Doch was sagt ein bestimmter Mix über „die Gewässer“ oder eben „die Therapiewirksamkeit“ aus?

Dieser alte Unsinn ist in Norcross Sammlung nun nochmals potenziert. Dass dabei renommierte Forscher wie Wampold, Elliott, Greenberg oder Lambert mitgewirkt haben, macht die Sache keineswegs besser – eher noch bedenklicher. Schon vor 40 Jahren habe ich in einem Methodenbuch glossiert, dass manche Wissenschaftler an der Tür zum Rechenraum mit dem Mantel scheinbar auch ihren inhaltlichen Sachverstand ablegen. Seitdem ist wohl nur die Computerhard- und -software wesentlich intelligenter geworden.

Literatur
Norcross, J. C. (Hg.) (2010). Evidence-Based Therapy Relations. Zugriff am 29.07.2014. www.nrepp.samhsa.gov/pdfs/norcross_evidence-based_therapy_relationships.pdf