Praxisberichte 1 – Studien und Typen: Die Hackordnung der Glaubwürdigkeit (Teil A)

Medizinische Studien sind eine der wichtigsten Quellen für ernsthaften Medizinjournalismus. In der ersten Folge unserer Medien-Doktor-Serie „Praxisberichte“ stellt Martina Lenzen-Schulte daher verschiedene Studientypen vor und erklärt wie ihre Aussagekraft einzuschätzen ist. 

Von Martina Lenzen-Schulte

Die tägliche Arbeit einer Medizinjournalistin ist geradezu bestimmt von Studienergebnissen irgendwelcher Art: Heute Morgen prangte mir von T-Online die Schlagzeile entgegen: Mit Schokolade das Schlaganfall-Risiko senken! (Link nicht mehr verfügbar) Wie aber beurteilt man, ob es sich lohnt, aus solch einer Studie eine Schlagzeile zu machen? (Ich lasse hier natürlich erstens außer Acht, dass es auch redaktionelle Zwänge gibt, dass manchmal etwas ins Blatt oder die Sendung muss, weil das alle haben. Und ich setze zweitens den Konsens voraus, dass man „Kroppzeug“ (z.B. Ergebnisse, die auf schlecht gemachten Studien basieren) nicht durch Schlagzeilen Aufmerksamkeit verschaffen will).

Selbst bei den wenigen Studien, die wirklich Berühmtheit erlangt haben, wird es schnell unübersichtlich: Wie etwa sieht genau die Framingham-Studie (s.u.) aus? Warum brachte die Studie der Women’s Health Initiative die Hormonersatztherapie zu Fall, die Nurses Health-Studie aber nicht? Wer weiß (trotz Fukushima-Berichterstattung) schon, dass die deutsche Wismut-Studie die weltweit größte Bergarbeiterkohortenstudie ist, die die Auswirkungen von geringer radioaktiver Strahlung prüft? Und wer im Ticker den „Kinder und Jugend-Gesundheitssurvey“ (KIGGS) als interessantes Thema identifiziert, wird bei der Recherche schnell mit Begriffen wie „Kohortenstudie“ oder „Querschnittsstudie“ konfrontiert. Aber was sagt uns das?

Warum müssen Journalisten auf Studientypen achten?

Journalisten (und nicht nur Medizinjournalisten) berichten über Publikationen aus Topjournalen, von Kongressen, über Therapien in der Pipeline und führen Interviews mit Spitzenforschern. Mein persönlicher Rat, um dabei nicht ins Schlingern zu geraten: Man sollte sich ein eigenes Schema erstellen, in dem man für sich selbst die wichtigsten Studientypen einordnet. Das bietet Orientierung, um wichtige Qualitätskriterien abklopfen zu können. Daher liefern die Tabellen zu diesem Beitrag (m)eine beispielhafte Übersicht über die verschiedenen Studientypen (pdf). Nur beispielhaft deshalb, weil man sich schließlich für ein Raster entscheiden muss. Dieses Schema (oder eben ein anderes) führt man sich am besten immer wieder vor Augen, wenn man Studien in der journalistischen Praxis vor sich hat – bis man weiß, wo welche Fallen lauern.

Von Cholera bis Kernkraft: die Anfänge der Beobachtungsstudien

Wenn heute von einer „mehrarmigen, randomisiert kontrollierten Doppelblind-Studie im cross-over Design“ die Rede ist, die aber „zu gering gepowert war“, dann können wir uns nicht mehr vorstellen, dass klinische Studien eigentlich aus Alltagserfahrungen entstanden sind. Wissenschaftlich ging es in der Regel um die Frage, wie Krankheiten zustande kommen. Es beginnt mit (zufälligen) Beobachtungen von Ereignissen, die etwas miteinander zu tun haben könnten: mehr Leukämieerkrankungen bei Kindern in der Nähe von Kernkraftwerken, mehr Brustkrebs bei Frauen, die in der Menopause Östrogene einnehmen, mehr Leberkrebs in Ländern, in denen es besonders viele Hepatitis B Infektionen gibt.

Eines der bekanntesten historischen Beispiele geht bis ins Jahr 1854 zurück, als man in London besonders viele Cholerafälle in Stadtteilen beobachtete, die von einem ganz bestimmten Wasserwerk (nämlich Southwark) versorgt wurden. Deshalb heißt der Oberbegriff für diesen Typ Studie auch Beobachtungsstudie: Je nach Untergruppe unterscheiden sie sich darin, wie ausgefeilt die Beobachtungsmethodik ist. Eines aber haben alle Beobachtungsstudien gemeinsam: Man greift nicht (jedenfalls nicht bewusst) ein und betrachtet dann das Ergebnis dieser Intervention, wie dies die Interventionsstudien tun. Es wird eben nur beobachtet.

Am Anfang stehen innerhalb der Gruppe der Beobachtungsstudien daher oft Querschnittsstudien (auch „Prävalenzstudie“, „cross sectional study“ oder „Survey“ genannt; die „Korrelationsstudien“ oder „ökologischen Studien“ werden meist ebenfalls hierunter gelistet): Zu einem bestimmten Zeitpunkt werden Daten erhoben – entweder, weil etwas auffällig ist, z. B. Aids-Fälle, die zunächst vermehrt bei homosexuellen Männern registriert wurden, oder weil man einen Verdacht hat (Rate der Unfallopfer und Alkoholkonsum in der Bevölkerung / Gesundheitliche Schäden durch Mobilfunkbasisstationen) oder weil man einfach mal Daten erfassen will (Größe und Gewicht von Kleinkindern in einem Gesundheitssurvey, Impfstatus bei Schuleintritt,
Inanspruchnahme von Vorsorgeuntersuchungen).

Der eingangs erwähnte Kinder- und Jugend-Gesundheitssurvey (KIGGS) ist also auch eine Querschnittsstudie: Man erhebt zu einem Zeitpunkt anhand großer Fallzahlen den Ist-Zustand einer möglichst repräsentativen Stichprobe der Bevölkerung. In diesem speziellen Survey, um (erstmals für Deutschland) den Gesundheitszustand der jungen Generation zu erfassen. Kann sein, dass dabei dann etwas auffällt (vor allem, wenn man lange genug rechnet) – etwa, dass übergewichtige Kinder öfter aus sozial schlechter gestellten Familien stammen. Ob eine zufällig beobachtete oder zufällig aus einer Querschnitterhebung berechnete Auffälligkeit auch eine Ursache-Wirkungs-Beziehung darstellt (hier: Sozialstatus der Familie beeinflusst das Gewicht der Kinder), muss erst geprüft werden.

Vom Aufmerken zum stichhaltigen Verdacht

Etwas ausgebuffter ist dann schon die Fall-Kontrollstudie (case control study): Auch hier prüft man einen verdächtigen Zusammenhang. Aber man unterscheidet schon innerhalb von zwei Gruppen – nämlich der Kranken (Betroffenen) und Gesunden (nicht Betroffenen) – danach, ob sie „exponiert“ waren oder nicht. „Exponiert sein“ wiederum kann vieles heißen: Man kann einer bestimmten Ernährung oder dem Hunger der Nachkriegszeit, erhöhter Strahlung, dem Rauchen, der Sonne oder Mobbing ausgesetzt sein.

Die Fall-Kontrollstudie geht dabei vom Ergebnis (hier: Krebs) aus und man schaut, welcher Einfluss („Exposition“) die Ursache sein könnte: Umgebungs-Strahlung von Kernkraftwerken, Sonnenbrand, Rauchen oder (epi-)genetische Vorgänge im Mutterleib. Die wissenschaftliche Anerkennung des Fall-
Kontroll-Designs gelang im ersten Drittel des vorigen Jahrhunderts, als damit ein – mehr als zufälliger – Zusammenhang zwischen Pfeife-Rauchen und Lippen- und Mundkrebs aufgezeigt werden konnte. Auch auf den inzwischen längst bewiesenen Zusammenhang zwischen Rauchen und Lungenkrebs wurde man früh durch Fall-Kontrollstudien aufmerksam.

Die Fall-Kontrollstudie leistet also mehr als die zuvor erläuterte Querschnittserhebung. Die Querschnittsstudie zeigt zwar vielleicht, dass es mehr Lungenkrebs bei Rauchern gibt. Die Fall-Kontrollstudie macht nämlich zusätzlich die Gegenprobe: Mit ihr erkennt man gleichzeitig, dass es weniger Lungenkrebs bei Nichtrauchern gibt und setzt beide Vorkommnisse in eine rechnerische Beziehung. Besonders bei seltenen Erkrankungen ist die Fall-Kontrollstudie aber noch immer hilfreich: Manche kennen vielleicht die so erhärtete Entdeckung, dass das Hormon Diethylstilböstrol Vaginalkrebs bei Töchtern von Frauen auslöst, die dieses Hormon in der Schwangerschaft erhielten. Noch berühmter ist das Beispiel Thalidomid (Contergan®), dessen Fehlbildungsrisiko 1961 durch eine Fall-Kontrollstudie aufgedeckt wurde. Die berühmteste Fall-Kontrollstudie zur Verkehrssicherheit fand vor rund 50 Jahren statt, als man den Zusammenhang von Blutalkoholgehalt und Unfallrisiko dingfest machte. Auch heute werden immer wieder auch große Fall-Kontroll-Studien veröffentlicht, z.B. die INTERSTROKE-Studie von 2010, die zehn Risikofaktoren identifizierte, die für 90 Prozent aller Schlaganfälle in 22 Ländern bedeutsam sind (4,5).

Obwohl solche klassischen Studiendesigns also nicht gänzlich abgelöst wurden, entstanden doch im Zuge der kritischen Diskussion um die Defizite Mitte des vorigen Jahrhunderts schließlich die Konzepte der großen Kohortenstudien (cohort study): longitudinale (Längsschnitt-)Beobachtungen einer ausgewählten Gruppe (Kohorte), die für ein bestimmtes Kollektiv repräsentativ ist (für die Bevölkerung, für ältere Menschen, für eine bestimmte Arbeit). Die Verallgemeinerbarkeit („Repräsentativität“) der Ergebnisse ist also ein Fortschritt der Kohortenstudien gegenüber den Beobachtungsstudien. Und „longitudinal“ heißen sie deshalb, weil man – anders als bei den Fall-Kontroll- und Beobachtungsstudien – nicht nur einmal, sondern immer wieder zu verschiedenen Zeitpunkten (z.B. mittels Fragebögen, Blutuntersuchungen) Messungen macht und Daten erhebt. Manche Experten wollen die erste Kohortenstudie sogar schon im Alten Testament erkennen (Buch Daniel über Daniel und seine Freunde am Babylonischen Hof, 1,1-21). Daniel wollte sich als Gefangener am Hof Nebukadnezzars nicht an der Landeskost verunreinigen und regte beim Aufseher einen Ernährungsvergleich über zehn Tage an: Nur pflanzliche Kost und Wasser gegen das Essen am königlichen Hof. Schon damals schnitt das asketische Essen besser ab.

Ohne jeden Zweifel zählt hingegen die Framingham-Studie zu diesem Studientyp. Als „Framingham Heart Study“ wurde sie 1949 in einer kleinen, exakt definierten Region in den USA begonnen und konzentrierte sich hauptsächlich auf Herz-Kreislauferkrankungen). Die weltweit größte Kohortenstudie ist die EPIC, die 1992 begonnene „European Prospective Investigation into Cancer and Nutrition Study“, mit mehr als 500.000 Probanden aus zehn europäischen Ländern. Zu den weiteren Beispielen gehören auch die Nurses Health Study, die 1976 mit 121.700 weiblichen Probanden begann, und deren Ergebnisse die Hormonersatztherapie zunächst zu entlasten schienen, bis Untersuchungen eines aussagekräftigeren Typ (die randomisiert-kontrollierte (siehe unten) „Women’s Health Initiative“-Studie) den Verdacht auf verschiedene Nachteile wie die Krebsentstehung bestätigten. Nochmals erhärtet wurde dies durch die „1-Million-Frauen-Studie“ (3,4,5).

Eigentlich altbekannt: Vergleiche Äpfel nicht mit Birnen!

Ein wichtiges Problem, das immer wieder im Zusammenhang mit Kohortenstudien genannt wird, ist das der Vergleichbarkeit von „Betroffenen“ und „Kontrollen“: Sind die Probanden der Studie, bei denen etwas (z.B. ein Herzinfarkt auftritt) also vergleichbar mit den Probanden, bei denen das Ereignis nicht auftritt? Beide Gruppen sollen daher möglichst perfekt „gematcht“ sein; so gut passen, dass man den Einfluss anderer Faktoren auf das Ergebnis ausschließen darf (4). Befinden sich in der Kontrollgruppe für die Hormonersatztherapie (die also keine Hormone bekamen) beispielsweise mehr Mütter, die gestillt haben, als in der Gruppe, die die Hormonbehandlung erhielt, dann verfälscht das das Ergebnis: Denn Stillen schützt in gewissem Ausmaß vor Brustkrebs. Deshalb wäre das Risiko, Brustkrebs zu bekommen, in beiden Gruppen von Anfang an ungleich verteilt – man würde fälschlicherweise Äpfel mit Birnen vergleichen.

Das „Äpfel-Birnen-Problem“ ist nicht trivial, wie folgendes Beispiel zeigt: Es kursieren Tausende von Studien zur Frage, welche Risiken eine Kaiserschnittentbindung für das Kind birgt. Aber welche Gruppen darf man hier vergleichen? Einfach alle Kaiserschnittentbindungen mit allen normalen, natürlichen Geburten? Nein, denn wenn ein Kaiserschnitt von vorneherein notwendig ist, weil es um Drillinge geht oder weil die Lage des Kindes das erfordert, haben wir es schon mit einer zusätzlichen Komplikation zu tun. Diese Komplikation droht einer Mutter, bei der alles normal verläuft, bei einem
Kaiserschnitt nicht. Wer wirklich wissen will, ob eine normale Geburt oder ein Wunschkaiserschnitt für das Kind risikoreicher sind, muss zu den natürlichen Geburten auch die Kaiserschnitte hinzuzählen, die erst unter einer – im Vorfeld als komplikationslos geltenden – natürlichen Geburt nötig wurden. Die richtige Kontrollgruppe zu den Wunschkaiserschnitt-Kandidatinnen ist also nicht einfach eine Gruppe von Frauen mit natürlichen Geburten. Die Kontrollgruppe setzt sich vielmehr so zusammen: Frauen mit wie gewünscht verlaufender natürlicher Geburt plus jene, bei denen unter der natürlich begonnenen Geburt dann doch noch ein Kaiserschnitt notwendig wird (6). Denn die entsprechende Entscheidung müssen die Frauen vorher treffen: Sie wählen nicht einen Geburtsmodus, sondern die Wahrscheinlichkeit eines Verlaufs, der auch bei der ursprünglichen Entscheidung für eine natürliche Geburt eben so oder immer noch anders sein kann.

Studiendesign, das zeigen solche Beispiele auch, ist nicht l’art pour l’art, sondern hat mit dem richtigen Leben zu tun, und strebt eine wertvolle Aussage für den Patienten und Angehörige an. Wer den Typ und den Impact einer gut gemachten Studie erkennt, hat daher dem Leser wirklich etwas zu bieten!

Teil B dieses zweiteiligen Artikels findet sich hier:
Praxisberichte 2 – Studien und Typen: Die Hackordnung der Glaubwürdigkeit (Teil B)


Eine Übersicht der verschiedenen Studientypen kann man sich als pdf hier herunterladen:
Studientypen Wegweiser (139.28 kB)


QUELLEN:

1. “Analytische Studien” in http://www.henet.ch/ebph/11_studientypen/studientypen_114.php

2. Hasford J: Studientypen und ihre wissenschaftliche Relevanz. Journalistenworkshop im Presseclub
München, 25.07.2007

3. www.medizinalrat.de/Eb_Medicine/EbM-Theorie_und_Handwerkszeug (Tutorial 5: Prinzip von
Studien) (Link nicht mehr abrufbar)

4. Hoffman K, Hedemann Ch: Vergleich von Kohortenstudien im Fall-Kontroll- und Fall-Kohorten-
Design. Berliner Zentrum Public Health. Blaue Reihe ISSN 0949 0752

5. Kohortenstudie, Fall-Kontroll-Studie: https://www.medizin.uni-muenster.de/fileadmin/einrichtung/epi/download/vorlesungen/Skript_Epi_MedSoz_MedInf.pdf

6. Hansen AK: Risk of Respiratory morbidity in terms infants delivered by elective caesarean section:
cohort study. British Medical Journal 2008, Bd. 336, S. 85


Alle Folgen unserer Medizinjournalismus-Serie finden sich auf unserer Specials-Seite.