Praxisberichte 2 – Studien und Typen: Die Hackordnung der Glaubwürdigkeit (Teil B)

Veröffentlicht am 23. Mai 2012

von Marcus Anhäuser

Im zweiten Teil ihres Artikels über die verschiedenen Typen medizinischer Studien erklärt Martina Lenzen-Schulte, wo auch die ansonsten so aussagekräftigen “Randomisierten Kontrollierten Studien” ihre Schwachpunkte haben. Und sie gibt Tipps, wie Journalisten möglichst schnell gute von schlechten Studien unterscheiden.

Von Martina Lenzen-Schulte

Die im ersten Teil genannten Beispiele zeigen, dass historisch wie aktuell viele spannende Fragen mit verschiedenen Studienarten angegangen werden können. Leider vermuten die meisten (und das sind nicht nur Journalisten) die Perlen allen Studiendesigns allein in einer einzigen Muschelart: den RCT; alle denken wie bei einem gelernten Reflex nur an diese eine – die randomisierte, aktiv kontrollierte Doppelblindstudie (oder eben „randomised controlled clinical trial“).

Randomisierte kontrollierte Studien (RCT) – Der heilige Gral der Evidenz?

Die RCT sind das liebste Kind der Evidenzbasierten Medizin (EBM) und der Pharmaindustrie gleichermaßen. Denn die EBM-Experten können an diesem Studientyp ihre methodischen Ansprüche in Reinkultur zelebrieren, für die Pharmaindustrie sind sie inzwischen das tägliche Brot, um die Zulassung eines Medikamentes durchzudrücken („Phase III-Studien“, siehe auch unser Wegweiser Studientypen). Deshalb flattern von den Nachrichtenagenturen bis zu den Journalisten aus der Wirtschaft oder dem Ressort „Vermischtes“ täglich viele Hinweise auf „neue“ Ergebnisse herein, die über irgendeinen Antikörper oder ein Antidepressivum etc. den Stand der Studien-Dinge melden. Aber Vorsicht: Wirklich spannende Geschichten kann man daraus nur stricken, wenn etwa auf großen Kongressen die ersten Ergebnisse vorgestellt werden – und wenn diese möglichst überraschend oder lang ersehnt waren, wenn es die Ergebnisse großer und wichtiger Vergleichsstudien sind, die viele Kranke betreffen, deren Konkurrenz im Gespräch ist, und die vielleicht über eine neue Therapiepolitik entscheiden.

Ein gutes Beispiel ist der Vergleich zwischen den beiden Augenmedikamenten Bevacizumab (Avastin®) und Ramibizumab (Lucentis®), die gegen die altersbedingte Makuladegenaration in ein Kopf-an-Kopf-Rennen geschickt wurden. Vor diesem Vergleich spritzten die Augenärzte das für diese Behandlung nicht zugelassene Avastin® ohne wissenschaftlich abgesicherten Wirknachweis. Es blieb ihnen aber oft keine Wahl, weil viele der älteren Patienten bei Weigerung der Krankenkasse, die Kosten zu übernehmen (die Kassen ließen sich vorab um Genehmigung der Therapie auch dann bitten, wenn die Behandlung eindeutig notwendig war), die mehr als 5000 Euro für Lucentis® oft nicht hatten, die wenigen Hundert Euro für die Avastin®-Therapie aber schon eher aufbringen konnten. Das Studienergebnis war also spannend, weil es viele ältere Menschen betraf, die Ärzte in einer extrem unsicheren Situation waren und zudem die Hersteller den Vergleich lange verweigert hatten (sie wollten das teure, bereits zugelassene und wirksame Lucentis® weiterverkaufen, statt sich mit Bevacizumab eine deutlich günstigere Konkurrenz auf den Markt zu holen). Dieser Studie gingen also viele Querelen voraus und von der Entscheidung hing viel ab.

Wenn schon Ergebnisse von Studien aus Phase-III, wie sie in der Regel für Zulassungen nötig sind, nur ausnahmsweise wirklich spannend sind, wie steht es dann mit Phase-I-Erkenntnissen? Hauptziel dieser Studien an wenigen Patienten ist noch gar nicht der Nachweis, dass ein Mittel wirkt, sondern vor allem die Frage, wie gut es vertragen wird (siehe auch unseren Wegweiser zu Studientypen als pdf). Auch die Ergebnisse aus diesen frühen Studien verbreiten die PR-Abteilungen fleißig, Honig lässt sich auch aus anderen Gründen in der Regel nicht daraus saugen. Warum behaupte ich das? Zunächst entsteht die Phase-I-Testung aus unzähligen vorgeprüften Substanzen in der Pipeline der Hersteller.

Wenn es etwas Spektakuläres zu berichten gäbe, wäre das entweder schon öffentlich gemacht, um die Aktien-Kurse hochzutreiben, oder es wird bewusst unter Verschluss gehalten, um die Konkurrenten nicht hellhörig zu machen. Geht es nicht um normale Prüfsubstanzen der pharmazeutischen Industrie, sondern um wirklich neue Wirk-Prinzipien, so kommen die aus der Grundlagenforschung. Und dann wurde meist schon viel früher darüber berichtet. Allenfalls Negativmeldungen heben Phase-I-Studien auf Schlagzeilenniveau, etwa wenn eine Studie spektakulär abgebrochen werden muss. Bekannt wurde zum Beispiel das Phase-I-Desaster einer Antikörpertherapie in London, an denen gesunde Probanden verstarben (7,8).

Verblindung oder Blendwerk? – Die Schwächen der Besten

Mit den Stärken aber auch den Schwächen der RCT sollte sich ein Journalist nicht zuletzt deshalb auskennen, weil diese Studien oft im Fokus der Kritik stehen, wie sie von EBM-Experten oder von Pharmakritikern kommt. Diese werfen den Herstellern (und den medizinischen Experten als deren Handlanger) vor, sie würden solche Studien oft so konzipieren („designen“), dass die gewünschten Ergebnisse herauskämen. Oder sie würden unerwünschte Ergebnisse unter Verschluss halten (vgl. spätere Folge in dieser Serie zum „publication bias“).

Aus allen Debatten in der biomedizinischen Statistik zu RCT möchte ich ein Stichwort herausgreifen, um zu zeigen, welche Schwierigkeiten die Praxis bereithält: die Verblindung. Der Patient soll dabei u.a. nicht erfahren, in welcher Gruppe (oder welchem „Therapiearm“) er steckt, um den folgenden, unbewussten Effekt zu vermeiden: „Ah, ich bekomme das neue Medikament, ich fühle mich gleich schon viel besser“. Wohingegen der Patient in der Kontrollgruppe, der nur ein Scheinmedikament erhält, vielleicht denkt: „Die Zuckerpille ohne Wirkstoff, die man mir gibt, wirkt sowieso nicht.“

Wie aber macht man so eine Verblindung bei Akupunktur, wenn Akupunkteure über 1000 wirksame Punkte benennen? Wohin, an welchen anderen Punkt kann man die Nadel in der Kontrollgruppe stechen, ohne vielleicht andere Wirkungen zu provozieren? Das war seinerzeit, als die weltweit größten, einfach verblindeten Akupunkturstudien (GERAC) in Deutschland ausgewertet wurden, kein vernachlässigbares Problem (9). Und was tun bei richtig großen Operationen? Es gibt so genannte „sham“ Operationen: Die Bauchdecke wird eingeschnitten, dann wieder zugenäht, aber sonst geschieht nichts. Die Naht gaukelt dem Patient dann eine echte Operation vor. Wie ist das jedoch mit der ethischen Vertretbarkeit, denn auch die Scheinoperation ist doch immerhin ein massiver Eingriff – und das nur zur Verblindung einer Studie?

Schließlich noch eine Erfahrung zur Verblindung aus der Psychiatrie: Trizyklische Antidepressiva machen üblicherweise Mundtrockenheit. Erfahrene Patienten (und das sind viele in der Psychiatrie) wissen das. Wenn sie in RCT verblindet neue Medikamente erhielten, merkten sie an den ausbleibenden Nebenwirkungen – wie keine Mundtrockenheit – rasch, dass sie eine Zuckerpille oder Placebo statt des Wirkstoffs bekamen. Mit der Verblindung war es also nicht weit her. Das kam mitunter erst nach der Studie heraus, man hätte die Daten streng genommen also gleich in die Mülltonne werfen müssen.

Solche Schwierigkeiten und Fehlerquellen werden in einschlägigen EBM-Arbeiten gern methodisch hin und her gewälzt. Sie belegen meiner Ansicht nach zweierlei: Erstens können wir als Journalisten das im Zweifelsfall überhaupt nicht beurteilen (siehe auch die Tipps für die Praxis in meinem Fazit). Und zweitens ist nicht alles Gold, was RCT heißt und mitunter mit Pomp veröffentlicht wird. In der Rangordnung der Evidenzgrade nehmen die RCTs gleichwohl – mit den genannten Einschränkungen zu Recht – den ersten Platz ein, entweder in Form der Metaanalyse mehrerer RCTs oder als
Einzelstudie. Danach kommt für die Puristen erst mal lange nichts. Allerdings lassen sich auch nicht alle Fragestellungen mit dem Design eines RCT beantworten, dies sollte man hin und wieder auch bedenken.

Wichtig zu wissen ist, dass auf dieser Werteordnung auch „Leitlinien“ aufbauen: Medizinische Leitlinien (10) sind für Journalisten eine gute Quelle. Sie enthalten die verbindlichen Empfehlungen anhand der verfügbaren Evidenz (und oft eine Menge Hintergrundwissen über eine Erkrankung). Leider gibt es längst nicht zu allen Erkrankungen Leitlinien und leider sind viele veraltet. Gleichwohl gehört die Kenntnis, aufgrund welcher Evidenzgrade sie zustande kommen, zum Handwerkszeug.

Schlechte Studien – was tun?

Wer sich schnell entscheiden kann, ob ein Studienergebnis es wert ist, darüber zu berichten, besitzt meiner Ansicht nach ein großes Potential zur Arbeitszeitersparnis: Dabei muss man es sich gar nicht so schwer machen. Denn es geht weniger darum, methodenkritisch im Detail zu erkennen, wo die Schwächen einer Studie liegen, sondern darum, rasch zu erkennen, dass es sich womöglich nicht lohnt, sich damit zu beschäftigen.

Wenn man merkt, aus einem Studienergebnis lässt sich nur ganz verklausuliert eine Behauptung formulieren, ist schon der Wurm drin. Das behebt man meist auch nicht durch mehr Recherche, besser gleich die Finger davon lassen und keine Mühe mehr investieren – jedenfalls nicht für eine einfache Nachricht. Allerdings: Wenn man über eine schwache Studie berichtet (oder berichten muss), sollte man die Kritik natürlich anbringen. In aller Regel macht es schon viel Arbeit, die Fehler einer Studie griffig darzustellen – wenn einem nicht gleich auf Anhieb etwas ins Auge springt: Als persönliches Beispiel kann ich eine Studie zur angeblich günstigen Wirkung der Meditation auf den Blutdruck nennen: Hier fiel sofort auf, dass die Kontrollgruppe deutlich älter war als die Meditationsgruppe; klar also, dass die nicht meditierenden Probanden eher verstarben (11). Ein weiteres Beispiel stammt von Harro Albrecht aus der Zeit, wir hatten den Text im Medien-Doktor als „ausgezeichnet“ bewertet (12). Er zeigte vorbildlich auch die Grenzen der systematischen Übersichtsarbeiten (Was ist das? Siehe unser Wegweiser zu Studientypen) zu mehreren Studien (hier: „Cochrane-Reviews“) auf und sollte jedem, der guten Namen blind vertraut, eine Warnung sein.

Mein Fazit: Journalisten sollten sich schon aus Pragmatismus mit dem Studiendesign und unterschiedlichen Studientypen befassen. Denn hieran entscheidet sich oft schon, ob ein Bericht lohnen könnte oder nicht. Sie können sich in den meisten Fällen jedoch nicht ernsthaft auf eine autarke Bewertung von Studien einlassen. Die methodischen Fallstricke sind so versteckt, das ist uferlos! Was aber gibt es für Hilfen, um gute Studien zu erkennen:

Studien in Fachzeitschriften, die ihre Artikel einer Begutachtung („peer review“) unterziehen, sind in der Regel besser als solche, die das nicht tun. Ob eine Zeitschrift das tut, lässt sich meist schon auf ihrer Homepage leicht erkennen („xy is a peer reviewed journal…“ o.ä.).
Am Ende einer Studie sollten die „shortcomings“ genannt sein. Gute Studienautoren widmen diesem Teil der Diskussion durchaus viel Raum und üben Selbstkritik an der eigenen Methodik. Das ist immer ein gutes Zeichen.
Das Editorial zu einer Studie (in der Zeitschrift gleichzeitig veröffentlicht) ordnet sie in einen größeren Zusammenhang ein und kann helfen, Ergebnisse zu relativieren (Umgekehrt aber Vorsicht: Hier hauen manche Autoren auch Fachkollegen, deren Ergebnisse ihrem eigenen Weltbild widersprechen, in die Pfanne.).
Manchmal sehr hilfreich: Die Online-Kommentare von Fachkollegen und Lesern auf der Homepage einer Fachzeitschrift lesen; die kommen oft so schnell nach Veröffentlichung, dass sie sofort wertvolle Hinweise geben, etwa wenn die Studie eine Schlagseite im Argumentieren hat und daher
sofort die Gegner auf den Plan ruft.
Ganz Anspruchsvolle können Studien anhand der CONSORT-Checklisten (LINK) überprüfen, die zwar für das Schreiben von Studien gemacht wurden, die aber auch als Blaupause zur Kontrolle taugen (13).
Das Deutsche Ärzteblatt hat eine hervorragende Reihe zum Thema „Studien kritisch lesen“ geschrieben (14-16). Einige der Texte sind auch für Journalisten eine gute Schulung und im Netz frei zugänglich.
Mein persönlicher Favorit: Einen Experten, dem man vertraut, und der das Gebiet beurteilen kann, nicht nur zum Zitieren fragen, sondern auch „off the record“, was die Ergebnisse wirklich wert sind. Oft geht das ganz schnell, weil Leute, die im gleichen Feld arbeiten, viel besser rasch erkennen, wo es hakt.

Und zum Schluss nochmal zurück zur Schokolade vom Anfang des ersten Teils: Wer klären will, wann welcher Typ von Schokolade bei welchem Typ Mensch das Schlaganfallrisiko senken soll, findet den einschlägigen Artikel im Journal of the American College of Cardiology 2011 Oct 18;58(17):1828-9 (pdf). Kleiner Tipp – Die Publikation erschien dort nicht unter „Research“, sondern als „Research Correspondence“, schon eine Abwertung vom Herausgeber selbst, bevor die Kritik dazu anderswo entbrannte.

Teil A dieses zweiteiligen Artikels findet sich hier:
Praxisberichte 1 – Studien und Typen: Die Hackordnung der Glaubwürdigkeit (Teil A)

Eine Übersicht der verschiedenen Studientypen kann man sich als pdf hier herunterladen:
Studientypen Wegweiser (139.28 kB)

QUELLEN (für Teil A und B):

1. Analytische Studien in http://www.henet.ch/ebph/11_studientypen/studientypen_114.php

2. Hasford J: Studientypen und ihre wissenschaftliche Relevanz. Journalistenworkshop im Presseclub München, 25.07.2007

3. www.medizinalrat.de/Eb_Medicine/EbM-Theorie_und_Handwerkszeug (Tutorial 5: Prinzip von Studien) (Link nicht mehr verfügbar)

4. Hoffman K, Hedemann Ch: Vergleich von Kohortenstudien im Fall-Kontroll- und Fall-Kohorten- Design. Berliner Zentrum Public Health. Blaue Reihe ISSN 0949 0752

5. Kohortenstudie, Fall-Kontroll-Studie: https://www.medizin.uni-muenster.de/fileadmin/einrichtung/epi/download/vorlesungen/Skript_Epi_MedSoz_MedInf.pdf

6. Hansen AK: Risk of Respiratory morbidity in terms infants delivered by elective caesarean section: cohort study. British Medical Journal 2008, Bd. 336, S. 85

7. Viciano A: Schock in Phase 1. Die Zeit – online hier abrufbar

8. Als Hintergrund zu 2) s.a.: Rethinking clinical trials (Phase 1 studies insufficient. Science 2011 (Dec 9); 334(6061):1346 und die Debatte, auf die der Brief Bezug nimmt

9. GERAC-Akupunktur-Studien: Deutsches Ärzteblatt 2002; Jg 99/Heft 26/A 1819-1824

10. Die verfügbaren deutschen Leitlinien findet man unter: www.awmf.org, der Homepage der Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF)

11. Wundersames Meditieren: www.faz.net/aktuell/wissen/medizin/meditation-wundersamesmeditieren-1233709.html

12. Verschnupfte Wissenschaft: www.zeit.de/2011/09/M-Cochrane

13. www.consort-statement.org

14. Röhrig B, et al: Studientypen in der medizinischen Forschung. Teil 3 der Serie zur Bewertung wissenschaftlicher Publikationen. Deutsches Ärzteblatt 2009;106(15):262-8 (DOI:10.3238/artebl.2009.0262)

15. Du Prel J-B, et al: Kritisches Lesen wissenschaftlicher Artikel. Teil 1 der Serie zur Bewertung wissenschaftlicher Publikationen. Deutsches Ärzteblatt 2009;106(7):100-5 (DOI:10.3238/artebl.2009.0100)

16. Hammer GP, et al: Vermeidung verzerrter Ergebnisse in Beobachtungsstudien. Teil 8 der Serie zur Bewertung wissenschaftlicher Publikationen. Deutsches Ärzteblatt 2009;106(41):664-8 (DOI:10.3238/artebl.2009.0664)

17. Schwitzer G: How the media left the evidence out in the cold. British Medical Journal 2003; Bd.326, S.1403-1404

Alle Folgen unserer Medizinjournalismus-Serie finden sich auf unserer Specials-Seite.

Schreiben Sie uns

Praxisberichte 2 – Studien und Typen: Die Hackordnung der Glaubwürdigkeit (Teil B)

Randomisierte kontrollierte Studien (RCT) – Der heilige Gral der Evidenz?

Verblindung oder Blendwerk? – Die Schwächen der Besten

Schlechte Studien – was tun?

Förderer

Auszeichnungen