Dies ist eine alte Version des Dokuments!

Studienkritik

Bedeutung der Studienkritik

Wissenschaftliche Studien bilden eine zentrale Grundlage für den medizinischen Fortschritt. Die Verwertbarkeit ihrer Ergebnisse hängt jedoch entscheidend vom jeweiligen Studiendesign, der untersuchten Population und der angewandten Methoden ab.

Dieser Artikel soll zum einen die häufigsten Probleme von Studien erläutern. Zum anderen soll er auf konkrete Probleme eingehen, die im Zusammenhang mit Studien zum Thema ME/CFS auftreten.

Für eine kritische Auseinandersetzung mit Studien zum Thema ME/CFS empfehle ich das englische Forum Science for ME.

Populationsgröße und Zusammensetzung

Ein grundlegender Aspekt der Studienbewertung betrifft die Größe und Zusammensetzung der Studienteilnehmer, also der untersuchten Population. Studien mit kleinen Populationen verfügen häufig über eine eingeschränkte statistische Aussagekraft, wodurch Zufallsbefunde wahrscheinlicher werden. Studien mit einer großen Population sind jedoch in der Praxis oftmals aufgrund des Aufwands schwierig durchführbar.

Sind die Einschluss- und Ausschlusskriterien unklar, zu breit gefasst oder unvollständig dokumentiert, muss von einer sehr heterogenen Studienpopulation ausgegangen werden. Patientengruppen, die eigentlich getrennt betrachtet werden müssten, werden in diesem Fall zusammen betrachtet. Es bleibt unklar, ob die Ergebnisse tatsächlich auf alle Patientengruppen übertragbar sind.

Studiendesign und Verblindung

Das Studiendesign hat erheblichen Einfluss auf die Validität der Ergebnisse.

Der Goldstandard sind doppelblinde Studien (Randomized Controlled Trials – RCT). Hierbei wird die Studienpopulation in zwei Gruppen geteilt. Die eine Gruppe enthält das eigentliche Medikament oder die eigentliche Behandlung und die zweite Gruppe erhält ein Placebo. Weder die Teilnehmenden noch die Forschenden wissen, wer in welche Gruppe gelost wurde. Erst bei der Auswertung der Studie wird die Zuordnung aufgedeckt.

Fehlende Randomisierung oder das Fehlen geeigneter Kontrollgruppen erhöhen das Risiko systematischer Verzerrungen. In einem solchen Fall können nur sehr eingeschränkt Erkenntnisse aus der Studie gewonnen werden.

Endpunkte und Messmethoden

„Endpunkte und Messinstrumente“ bezeichnen, welche Ergebnisse eine Studie messen will und mit welchen Methoden dies geschieht; sie bestimmen maßgeblich, was eine Studie überhaupt als Erfolg oder Wirkung bewertet. Sind Endpunkte ungeeignet, nachträglich verändert oder Messinstrumente nicht valide, kann dies die Aussagekraft der Studienergebnisse erheblich verzerren. In ME/CFS-Studien werden als Endpunkte häufig Veränderungen von Symptomen, Funktionsniveau oder Lebensqualität untersucht, etwa Fatigue-Schwere, körperliche Belastbarkeit oder kognitive Leistungsfähigkeit. Messinstrumente sind dafür zum Beispiel Selbstfragebögen wie der Chalder Fatigue Questionnaire oder der SF-36, aber auch objektivere Verfahren wie Aktigraphie zur Aktivitätsmessung, kardiopulmonale Belastungstests (CPET) oder neurokognitive Tests, die Konzentration und Gedächtnis erfassen.

Die Wahl der Endpunkte und Messinstrumente bestimmt maßgeblich die Aussagekraft einer Studie. Gerade bei den Messinstrumenten ist die Frage, welche Änderung eine relevante Veränderung anzeigt. Genutzt wird häufig die minimale klinisch relevante Differenz (Minimal Clinically Important Difference, MCID). Diese Grenze legt fest, ab wann eine statistisch auffällige Veränderung auch für den Betroffenen im Alltag spürbar ist. Beim für diesen Zweck umstrittenen Bell-Score ist von einem MCID-Wert zwischen 10 und 20 auszugehen. Ein starker Fokus auf subjektive Selbstauskünfte kann problematisch sein, insbesondere wenn objektive Messungen fehlen oder nicht gleichwertig berücksichtigt werden. Werden primäre Endpunkte nachträglich verändert oder selektiv berichtet, kann dies zu verzerrten Schlussfolgerungen führen. Je mehr Endpunkte und Messinstrumente genutzt werden, desto höher ist die Wahrscheinlichkeit, dass allein durch den Zufall einige Endpunkte und Messinstrumente statistisch auffällige Veränderungen zeigen.

Peer Review

Peer Review bezeichnet das Verfahren, bei dem wissenschaftliche Arbeiten vor der Veröffentlichung von unabhängigen Fachleuten desselben Fachgebiets begutachtet werden. Ziel ist es, methodische Schwächen, inhaltliche Fehler oder unzureichend belegte oder gar falsche Schlussfolgerungen zu erkennen. Insgesamt dient der Prozess, die Qualität von Veröffentlichungen und der Forschung insgesamt zu erhöhen.

Spezifische Problembereiche bei ME/CFS-Studien

Uneinheitliche Diagnosekriterien

Ein zentrales Problem in der Forschung zu Myalgischer Enzephalomyelitis / Chronic Fatigue Syndrome (ME/CFS) ist die uneinheitliche Verwendung von Diagnosekriterien. Unterschiedliche Studien nutzen verschiedene Definitionen, die sich teils erheblich in ihrer Strenge unterscheiden. Breite oder veraltete Kriterien können dazu führen, dass Personen eingeschlossen werden, die nicht die charakteristischen Kernmerkmale von ME/CFS aufweisen. Dadurch entstehen heterogene Studienpopulationen, deren Ergebnisse nur eingeschränkt miteinander vergleichbar und nur bedingt auf ME/CFS im engeren Sinne übertragbar sind. Erschwerend kommt hinzu, dass von mehr und mehr Forschern die Meinung vertreten wird, dass sich ME/CFS in mehrere Subtypen gliedert. Eine gute Studie zum Thema ME/CFS hat somit klare und enge Kriterien und konzentriert sich auf einen der vermuteten Subtypen.

Berücksichtigung von Post-Exertional Malaise (PEM)

Post-Exertional Malaise (PEM) gilt als zentrales Leitsymptom von ME/CFS. In vielen Studien bleibt jedoch unklar, ob PEM als verpflichtendes Einschlusskriterium gefordert wurde oder wie dieses Symptom erfasst und bewertet wurde. Häufig fehlt eine systematische Erhebung belastungsbedingter Verschlechterungen, sodass potenziell schädliche Effekte von Interventionen nicht erkannt oder nicht angemessen dokumentiert werden. Studien, die PEM nicht explizit berücksichtigen, erfassen nicht die zentrale Pathophysiologie der Erkrankung.

Abgrenzung zu anderen Fatigue-Erkrankungen

Ein weiteres Problem besteht in der unzureichenden Abgrenzung von ME/CFS gegenüber anderen Erkrankungen mit Fatigue-Symptomatik. Teilweise werden Personen mit unspezifischer chronischer Müdigkeit oder mit psychischen Erkrankungen eingeschlossen, ohne dass diese Gruppen klar differenziert oder getrennt ausgewertet werden. Dies kann die Ergebnisse erheblich verzerren und zu Fehlinterpretationen führen, insbesondere wenn die untersuchten Interventionen auf ME/CFS übertragen werden.

Abgrenzung zu Post-Covid- und Long-Covid-Erkrankungen

Seit der COVID-19-Pandemie kommt es zunehmend zu Überschneidungen zwischen ME/CFS- und Post-Covid-Studienpopulationen. Häufig bleibt unklar, ob Post-Covid-Patientinnen und -Patienten eingeschlossen wurden, ob sie separat analysiert wurden oder ob die ME/CFS-Diagnosekriterien nach einer SARS-CoV-2-Infektion konsequent angewendet wurden. Ohne eine klare Abgrenzung lassen sich aus solchen Studien nur eingeschränkt Rückschlüsse auf ME/CFS ziehen.

Subjektive Endpunkte und fehlende Objektivierung

Viele ME/CFS-Studien stützen sich überwiegend auf subjektive Selbstauskünfte der Teilnehmenden. Objektive Messungen für ME/CFS und insbesondere PEM wurden bislang nicht ermittelt. Dies schränkt die Aussagekraft von Studien massiv ein.

Umgang mit Verschlechterungen und Studienabbrüchen

Verschlechterungen des Gesundheitszustands werden in ME/CFS-Studien nicht immer systematisch erfasst oder berichtet. Hohe Abbruchraten können die Ergebnisse erheblich verzerren, insbesondere wenn sie interventionsbedingt sind. Eine unzureichende Analyse von Studienabbrüchen kann potenzielle Risiken für Patientinnen und Patienten verschleiern und zu einer Überschätzung positiver Effekte führen.

⤴