Die Kriterien

Der folgende Katalog von Kriterien ermöglicht die Bewertung der Qualität journalistischer Beiträge in allen Medienarten über Produkte, Dienstleistungen und Verfahren, die durch Künstliche Intelligenz oder Maschinelles Lernen unterstützt werden. Im Folgenden sprechen wir allgemein von „KI-Anwendungen“.

Ausgangspunkt für den neuen Kriterienkatalog waren Erfahrungen vergangener Medien-Doktor-Projekte zu den Themen Medizin, Ernährung und Umwelt. Auf Basis einer Befragung unter erfahrenen Fachjournalist:innen sowie von Forschenden aus den Bereichen KI und ML haben wir nun analog einen Katalog mit fünfzehn Kriterien für die Berichterstattung über diese Themen entwickelt. Dabei werden allgemeinjournalistische, wissenschaftsjournalistische und spezielle fachliche Aspekte berücksichtigt, deren Anwendbarkeit wir in ersten Testbewertungen von Beiträgen über KI-Themen erprobt haben.

Auf dieser Seite finden Sie die Bewertungskriterien, die im Projekt Medien-Doktor Künstliche Intelligenz entwickelt wurden. Eine aktuelle Übersicht der Kriterien des Medien-Doktor Gesundheit, Medien-Doktor Ernährung und Medien-Doktor Umwelt können Sie hier als pdf herunterladen.

1. Positive Effekte (Nutzen)

Was sind die positiven Effekte einer Anwendung?

Wenn ein journalistischer Beitrag über eine KI-Anwendung wie zum Beispiel eine Handy-App, einen Tumor-Scanner oder eine Software für ein Auswahlverfahren von Personal berichtet, ist es für Rezipienten enorm wichtig, etwas über den konkreten Nutzen dieser Anwendung zu erfahren. Um eine echte Hilfestellung zu bieten, sollten diese positiven Effekte quantitativ dargestellt werden.

Allerdings genügt es nicht, in den Beiträgen nur relative Zahlen anzugeben, („Sterblichkeit durch diesen Krebs um 50 Prozent gesenkt“). Was bei dieser Darstellung wie ein großer Erfolg klingt, kann in absoluten Zahlen nämlich bedeuten, dass ein Effekt lediglich von zwei auf ein Prozent gesunken ist. Um den Mediennutzer*innen keinen verzerrten Eindruck von den positiven Effekten einer KI-Anwendung zu vermitteln, sollten journalistische Beiträge daher stets absolute Zahlen verwenden.

Ist es nicht möglich, konkrete Zahlen zu erwähnen, sollte dies den Rezipient:innen erklärt werden. Fehlende konkrete Zahlen deuten darauf hin, dass eine Anwendung noch nicht hinreichend getestet wurde oder mögliche positive Effekte übertrieben dargestellt werden. Ein Hinweis darauf, dass eine Anwendung noch in einer frühen Entwicklungsphase ist, kann eine Begründung dafür sein, dass es noch keine konkreten Zahlen zu den positiven Effekten gibt.

Wichtig ist auch, dass positive Effekte aus einzelnen Erfahrungsberichten nicht verallgemeinert werden, und als durchschnittliche Werte für positive Effekte dargestellt werden.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

der mögliche Nutzen nicht quantifiziert wird.
nur relative, aber keine absoluten Nutzenangaben gemacht werden.
einzelne, positive Erlebnisberichte von Anwenderinnen und Anwendern als durchschnittlicher Nutzen einer Anwendung dargestellt wird.
der Nutzen als „bis zu“-Angabe erfolgt, ohne deutlich zu machen, dass es sich dabei um einen Extremwert und nicht um den Durchschnitt handelt.
Daten zum Nutzen zwar angemessen zitiert werden, der gesamte Beitrag jedoch durch eine unwidersprochene, übertriebene Aussage völlig unausgewogen wird.

Wichtige Frage, die für RezipientInnen zu klären wäre:
Ist der Nutzen einer KI-Anwendung wirklich so groß oder klein, wie er dargestellt wird?

2. Risiken und negative Aspekte

Werden bzw. wie werden Risiken und negative Aspekte dargestellt?

Ein Beitrag sollte immer auf mögliche Risiken und negative Effekte einer KI-Anwendung eingehen. Dabei geht es sowohl um Probleme durch die Anwendung selbst (z.B. falsche Vorhersagen einer Tumorsoftware) als auch spezifisch negative Effekte durch die Verwendung einer Künstlichen Intelligenz oder einer Methode des maschinellen Lernens (Datenschutz, rechtliche Probleme, Energieverbrauch, mangelnde Fairness, Diskriminierung, Halluzinieren, fehlende Robustheit etc.).

Werden mögliche negative Effekte einer Anwendung in einem Beitrag heruntergespielt, ist dieses Kriterium mit „nicht erfüllt“ zu bewerten. Ebenso würde man werten, wenn mögliche Schäden einer Anwendung nicht quantifiziert werden, obwohl die Zahlen verfügbar sind. Stehen mögliche Risiken und negativen Effekte im Zentrum der Berichterstattung, sollten sie analog zu Nutzen und positiven Effekte quantifiziert werden, sofern dies möglich und sinnvoll ist.

Anekdoten von Nutzenden reichen zur Darstellung der Nebenwirkungen dagegen nicht aus, es sei denn, es wird deutlich gemacht, dass noch keine anderen Ergebnisse vorliegen. Insgesamt sollte ein Beitrag Risiken und negative Aspekte nicht leichter oder schwerwiegender darstellen als in vorhandenen Quellen dargelegt.

Wertung kann „nicht erfüllt“ lauten, wenn z.B. …

Risiken und negative Effekte gar nicht angesprochen werden.
mögliche Risiken und negative Effekte nicht quantifiziert werden, obwohl dies möglich und sinnvoll wäre.
mögliche Risiken und negative Effekte nicht quantifiziert werden, obwohl sie das Hauptthema für die Berichterstattung sind.
der Schweregrad möglicher Schäden nicht beschrieben wird.
vermeintlich unbedeutende Nebenwirkungen nicht berücksichtigt werden, die aber einen beträchtlichen Einfluss auf das Leben einer Verbraucherin/eines Verbrauchers haben könnten.
sich zu sehr auf Anekdoten von Anwendenden verlassen wird
nur eine an der Entwicklung beteiligte Person im Beitrag erklärt, dass eine Anwendung sicher ist – ohne diese Aussage durch objektive Daten zu untermauern oder darauf hinzuweisen, dass diese (noch) nicht vorliegen.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Welche Risiken und negativen Aspekte hat eine KI-Anwendung?

3. Trainingsdaten

Macht der Beitrag deutlich, mit welchen Trainingsdaten die KI gelernt hat?

Trainingsdaten sind die Daten, mit denen eine Künstliche Intelligenz trainiert wird, damit sie ihre Aufgabe erfüllen kann. Die Qualität einer KI hängt stark von den Daten ab, mit denen sie trainiert wird. Sind diese verzerrt, was häufig der Fall ist, wird sich diese Verzerrung wahrscheinlich auch in den Ergebnissen der Anwendung finden und somit keine zufriedenstellenden, fairen Ergebnisse liefern. Auch kann die Menge der Trainingsdaten nicht ausreichend sein.

Es ist nicht hinreichend, zu erklären, welche Trainingsdaten und in welcher Größenordnung verwendet wurden, ohne diese genauer einzuordnen und dann darauf einzugehen, ob bzw. was z.B. gegen Verzerrungen unternommen wurde.

Trainingsdaten können auch veraltet sein, daher kann es sinnvoll sein zu berichten, dass die KI einer Anwendung regelmäßig weiter trainiert wird.

Ein Beitrag sollte, wann immer es sinnvoll ist, Informationen zu den Trainingsdaten der verwendeten KI berichten.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

gar nicht auf den Aspekt Trainingsdaten eingegangen wird.
der Aspekt zwar erwähnt, aber nicht eingeordnet wird.
lediglich die Art und die Menge der Trainingsdaten angegeben wird, aber nichts über mögliche Verzerrungen bzw. Maßnahmen dagegen berichtet wird.
Aspekte wie Fairness, Aktualität der Daten etc. nicht thematisiert werden, obwohl solche Aspekte relevant sind.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Ist die Qualität der Trainingsdaten ausreichend?

4. Verfügbarkeit/Zugänglichkeit

Ist eine Anwendung bereits verfügbar und für wen?

Dieses Kriterium ist insbesondere relevant, wenn es im journalistischen Beitrag um eine neue KI-Anwendung geht. Rezipient:innen sollten erfahren, in welcher Phase der Entwicklung sich die Anwendung befindet (z.B. ob sie sich in einer Frühphase oder Testphase der Entwicklung befindet, oder ob sie bereits käuflich zu erwerben ist).

Auch ist es wichtig, zu verdeutlichen, in welcher Form und für wen (Zielgruppe) eine KI-Anwendung zugänglich ist. Ist die Anwendung nur etwas für Spezialisten oder für die Allgemeinheit oder gibt es sie nur in einem bestimmten Land? Ist sie frei zugänglich (Open source) oder nur gegen eine Gebühr (einmalig oder im Abonnement) als kommerzielle Anwendung verwendbar.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

nicht klar wird, dass eine Anwendung nicht verfügbar ist.
zu spekulative Vorhersagen darüber gemacht werden, wann die Anwendung im Handel ist.
nicht deutlich wird, dass wichtige Funktionen nur gegen eine Gebühr verfügbar sind.
eine Anwendung nur mit sehr leistungsfähigen Geräten (z.B. stärker als einfache Office-PCs sind) nutzbar ist.
nicht ausreichend deutlich wird, für wen eine Anwendung verfügbar ist (Spezialisten oder Allgemeinheit).

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Kann ich die KI-Anwendung jetzt bekommen und nutzen?

5. Alternativen

Werden Alternativen zur vorgestellten KI-Anwendung vorgestellt und verglichen?

Ein Artikel sollte eine neue Anwendung stets im Kontext bereits bestehender Alternativen darstellen, insbesondere Alternativen, die ohne Künstliche Intelligenz auskommen. In diesem Zusammenhang kann dann auch der Mehrwert der Anwendung beschrieben werden, der durch den Einsatz von KI erzielt wird (sofern dies möglich ist, quantitativ). Gibt es noch keine weitere vergleichbare Anwendung, oder ist dies die erste Anwendung dieser Art mit Künstlicher Intelligenz, sollte dies deutlich werden.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

nicht erklärt wird, dass es auch Alternativen ohne Unterstützung durch Künstliche Intelligenz gibt.
der Eindruck entsteht, die Anwendung sei die einzige Anwendung ihrer Art (unabhängig davon, ob mit oder ohne KI).
suggeriert wird, durch die KI wäre die Anwendung auf jeden Fall besser als Anwendungen ohne KI.
nicht dargestellt wird, wie die neue Anwendung in das Spektrum bestehender Alternativen passt.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Welche Alternativen zu der KI-Anwendung gibt es?

6. Kosten

Werden Kosten in der Geschichte angesprochen?

Ein journalistischer Beitrag sollte die Kosten einer Anwendung für die Nutzer:innen thematisieren, sofern dies möglich ist. Es sollte deutlich werden, ob eine Anwendung frei verfügbar ist, weil es sich z.B. um eine Open Source Anwendung handelt, oder welches Bezahlmodell verwendet wird. Soweit bekannt, sollten konkrete Preise berichtet werden.

In seltenen Fällen müssen Kosten nicht erwähnt werden, etwa, wenn ein Beitrag eine Anwendung in einer frühen Entwicklungsstufe beschreibt, sodass die konkreten Marktpreise noch nicht verfügbar sind. Dies sollte indes auch erklärt werden. Dann gilt das Kriterium trotz Nichterwähnung als „erfüllt“.

Wertung kann „nicht erfüllt“ lauten, wenn z.B. …

die Kosten einer Anwendung nicht angesprochen werden, obwohl das Produkt bereits im Handel ist.
Kosten ohne befriedigende Erklärung heruntergespielt werden.
zwar keine monetären Kosten entstehen, Anwender:innen dies aber mit der ausgiebigen Angabe persönlicher Daten „bezahlen“.
die Kosten einer neuen Anwendung nicht mit existierenden Alternativen verglichen werden (teurer/billiger).

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Was muss ich für die Nutzung der KI-Anwendung bezahlen?

7. Belege/Testdaten

Ordnet der journalistische Beitrag, die Qualität der Belege ein?

Dieses Kriterium hat zwei Ebenen: zum einen die Belege für den Nutzen und die Risiken der Anwendung selbst, zum anderen die Testergebnisse, mit der die Fähigkeiten der Künstlichen Intelligenz überprüft wurden.

Ein journalistischer Beitrag sollte vermitteln, ob das, was zu Nutzen und Risiken bzw. den positiven und negativen Effekten einer Anwendung behauptet wird, auf soliden Tests und Prüfungen fußt oder auf Annahmen und Spekulationen. Es sollte auch deutlich werden, ob die Anwendung zahlreichen Praxistests unterzogen wurde oder lediglich unter Laborbedingungen überprüft wurde. Das gleiche gilt für die KI: Gibt es Testreihen, in der die KI überprüft wurde und was waren ggf. die Ergebnisse? Ist die KI robust genug, um auch Fälle zu bewältigen, die nicht den zuvor postulierten Bedingungen entsprechen? Wurden Testläufe in ausreichender Zahl durchgeführt? Gab es Testläufe unter repräsentativen Bedingungen oder nur für wenige Spezialfälle. Gibt es Studien dazu, die wissenschaftlichen Standards (welchen?) genügen?

Ein Beitrag sollte versuchen, Rezipient:innen zu vermitteln, wie aussagekräftig Testläufe und Studien sind, in denen Nutzen und Risiken der KI-Anwendung ermittelt wurden. Damit deutlich wird, wie fundiert die Behauptungen zu Nutzen und Risiken einer KI-Anwendung sind.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

keine Informationen zu Testläufen der Anwendung oder der Künstlichen Intelligenz berichtet werden.
nicht berichtet wird, dass die Anwendung bisher noch gar nicht getestet wurde und damit keine Testdaten zu einer KI vorliegen.
einzelne Testläufe als aussagekräftige und hinreichende Belege dargestellt werden.
Persönliche Erfahrungen als hinreichende Belege dargestellt werden.

Liegen wissenschaftliche Studien vor, kann die Wertung nicht erfüllt lauten, wenn z.B. …

es nicht gelingt, die Grenzen des jeweiligen Studiendesigns herauszustellen.
ein Hinweis fehlt, dass man bei der Interpretation von unkontrollierten Daten (fehlende Kontrollgruppe) Vorsicht walten lassen muss.
kausale Zusammenhänge dargestellt werden, die durch das Studiendesign gar nicht belegt werden können.
nicht klargestellt wird, wo die Grenzen einer Studie liegen.
nicht herausgestellt wird, dass auf Kongressen Studienergebnisse präsentiert werden, die noch kein strenges Begutachtungsverfahren durchlaufen haben ( (fehlendes Peer review).
Studien bisher noch nicht in einem wissenschaftlichen Journal veröffentlicht wurden.
der Beitrag über Ergebnisse aus Laborexperimenten berichtet, ohne darauf hinzuweisen, dass die Resultate nur eingeschränkt auf den Menschen übertragbar sind.
nur Anekdoten als Belege für den Nutzen einer Behandlung präsentiert werden.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Gibt es ausreichende Belege für die getätigten Aussagen zu Nutzen und Risiken einer KI-Anwendung?

8. Expert:innen/Quellentransparenz

Gibt es mindestens eine weitere, unabhängige Quelle?

Der Beitrag macht klar, woher die verwendeten Informationen und Bewertungen stammen und stützt sich dabei auf mindestens zwei geeignete, voneinander unabhängige Quellen. Zitierte wissenschaftliche Studien und andere Untersuchungen sollten eindeutig zu identifizieren sein. Es muss klar werden, wo diese publiziert wurden (Fachzeitschrift, Preprint-Server, Publikation eines Industrieverbandes oder einer Organisation).

Meist werden in einem Beitrag über eine neue Anwendung die Entwickler:innen oder Firmenvertreter:innen der Untersuchung zitiert. Um den Beitrag ausgewogen zu gestalten, sollte jedoch mindestens eine weitere, unabhängige Quelle darin vorkommen, z.B. ein weiterer Experte/eine weitere Expertin, ein Zitat aus einer weiteren Studie, die offiziellen Empfehlungen einer Behörde oder einer Forschungsinstitution. Dabei darf weder der Experte/die Expertin, noch die Institution in einer direkten Abhängigkeit zu den im Artikel vorkommenden Hauptexperten stehen (Interessenkonflikt durch große Nähe, vgl. Kriterium 9). Die Person sollte also nicht in derselben Firma, Arbeitsgruppe, derselben Universität oder Institution o.ä. arbeiten oder Co-AutorIn einer Studie sein.

Es sollte deutlich werden, warum ein zitierter Wissenschaftler/zitierte Wissenschaftlerin in der jeweiligen Thematik als ExpertIn gilt (oder zumindest eine Nachrecherche in Publikationsdatenbanken, Institutswebseiten oder Internetseiten des Experten sollte das ergeben). Zur Erklärung von Lehrbuchwissen (zum Beispiel zu allgemeinen Fragen einer Technologie) ist der Anspruch an die Expertenauswahl geringer als bei der Darstellung neuer Technologien aus der aktuellen Spitzenforschung.

In einem Interview sollte sich die zweite Stimme/zweite Meinung in den Interviewfragen wiederfinden, da es hier naturgemäß nicht möglich ist, eine zweite Quelle in die Antworten einzufügen.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

eine zweite unabhängige Quelle fehlt.
nicht deutlich wird, warum ein Experte/eine Expertin für eine Zweitmeinung geeignet ist, welche Expertise er oder sie hat oder die Recherchen der Gutachter:innen keine ausreichende Expertise ergeben.
eine ausgewählte weitere Expertin sich als abhängig vom ersten Experten erweist, weil sie zum Beispiel in dessen Arbeitsgruppe arbeitet oder Co-Autor in der vorgestellten Studie ist oder sonst in einer für das Thema relevanten Arbeitsbeziehung steht. Die Wertung ist unabhängig davon, ob diese Abhängigkeit im Artikel deutlich gemacht wird oder nicht. (siehe dazu auch Kriterium 9 Interessenkonflikte)
in einem Interview in den Fragen oder erklärendem Begleittext nicht auf andere Experten oder andere Quellen verwiesen wird.

Wichtige Frage, die für Rezipienten zu klaren wäre:
Wie schätzen unabhängige Expert:innen/Institutionen/Studien die Informationen zu Nutzen und Risiken einer KI-Anwendung ein?

9. Interessenkonflikte/Finanzierung

Liegen bei den im Beitrag angeführten Personen (insbesondere finanzielle) Interessenkonflikte vor?

Wir erwarten, dass in einem Beitrag vorhandene oder nahe liegende Interessenkonflikte angesprochen und gegebenenfalls eingeordnet werden. Denn vor allem Abhängigkeiten finanzieller Art können zu verzerrten Forschungsergebnissen, Interpretationen der Daten und Darstellungen von Nutzen und Risiken von KI-Anwendungen führen. Ebenso ist es wichtig, darzustellen, wer bestimmte KIs entwickelt und finanziert hat und somit möglicherweise Zugang zu Daten der Nutzer:innen bekommen könnte.

Ein Beitrag sollte klarstellen, ob bei einem Experten/einer Expertin Interessenkonflikte vorliegen könnten, weil zum Beispiel eine Firma oder eine Organisation die Forschung finanziert, ein Patent oder ein Werbevertrag vorliegt oder der Experte/die Expertin an einem empfohlenen Produkt mitverdient. Auch wenn Forscher:innen Produkte empfehlen, die sie selbst einsetzen, sollte dieser Zusammenhang deutlich werden.

Liegen keine Interessenkonflikte vor (bzw. die Gutachterinnen und Gutachter haben im Rahmen ihrer Möglichkeiten keine finden können), muss darauf im Beitrag auch nicht explizit hingewiesen werden. Das Kriterium wird demnach als „erfüllt“ gewertet, auch ohne, dass der Beitrag den fehlenden Interessenkonflikt erwähnt.

Das gleiche gilt für offensichtliche Interessenkonflikte, wenn etwa ein Entwickler seine eigene Anwendung oder ein Firmenvertreter sein eigenes Produkt vorstellt und bewertet.

Wie relevant ein Interessenkonflikt ist, müssen die Gutachter:innen von Fall zu Fall abwägen. Nicht jede Finanzierung, z.B. durch die Industrie, führt automatisch zu einer Beeinflussung von Forschungsresultaten. Dennoch sollte ein journalistischer Beitrag sie aufzeigen.

Die Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

nicht auf tatsächliche oder potenzielle Interessenkonflikte des Hauptexperten oder anderer Expertinnen hingewiesen wird.
der Beitrag nicht erwähnt, dass bei weiteren Expert:innen oder Personen ein relevantes Abhängigkeitsverhältnis vom Hauptexperten besteht, dass sie in derselben Arbeitsgruppe arbeiten oder Co-Autoren der vorgestellten Studie sind (siehe dazu auch Kriterium 8 zu Experten/Quellentransparenz). Werden diese Zusammenhänge deutlich, wird das Kriterium als „erfüllt“ gewertet.
Die Finanzierung und/oder Entwicklung der KI nicht transparent gemacht wird, obwohl die Nutzung der KI zum Nachteil der Nutzer:innen/der Gesellschaft sein könnte, weil etwa private/persönliche Daten abgeführt werden (insbesondere, wenn die KI bei Firmen im EU-Ausland liegen und damit nicht im Einflussbereich der Datenschutzgrundverordnung).

Wichtige Frage, die für den Leser zu klären wäre:
Gibt es Abhängigkeiten, die das Urteil eines Experten/einer Person beeinflussen könnten?

10. Einordnung in einen Kontext

Werden Aspekte wie etwa Neuheit, Datenschutz oder Ethik im Beitrag angesprochen und eingeordnet?

In diesem Kriterium gibt es die Möglichkeit Aspekte zu bewerten, die nicht in jedem Beitrag von Relevanz sein müssen, in manchen Zusammenhängen aber eben doch.

Neuheit: Viele angeblich neuen KI-Anwendungen oder Verfahren sind nicht wirklich neu, werden aber als solche angepriesen. Ein Beitrag sollte daher deutlich machen, ob ein als „neu“ beworbenes Produkt wirklich neu ist und nicht etwa „alter Wein in neuen Schläuchen“. Dann sollte auch erklärt werden, was das Neue daran ist, anstatt es einfach nur zu behaupten.

Datenschutz/-nutzung: Gerade im Zusammenhang mit KI-Produkten, die für eine breite Bevölkerung angeboten werden, sollte immer auch deutlich werden, ob datenschutzrechtliche Aspekte eine Rolle spielen – wenn Nutzer:innen etwa viele persönliche Daten angeben müssen, um ein KI-App zu nutzen oder im Zusammenhang mit medizinischen Anwendungen, persönliche Gesundheitsdaten abgefragt und genutzt werden. In den Bereich von Datenschutz und Datennutzung zählt auch die Verwendung von Daten für das Training von KI-Modellen. Hier stellt sich etwa die Frage nach urheberrechtlichen Aspekten, wenn es um Texte oder Bilder geht. Kritische Berichterstattung sollte diese Problematiken darstellen. Dies gilt auch für sicherheitsrelevante Aspekte.

Ethik/Gesellschaft: Gerade in der Berichterstattung über neue Technologien, mit denen Dinge möglich sind, die zuvor nicht möglich waren, gerät eine Gesellschaft immer auch an die Grenzen von Ethik und Moral, zum Beispiel mit der Frage, ob alles das, was möglich ist, auch gemacht werden sollte. Spielen solche Aspekte bei einer KI-Anwendung eine Rolle, sollte dies auch im Beitrag thematisiert und/oder eingeordnet werden.

Die Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

ungenaue, unvollständige oder in die Irre führende Angaben zur Neuheit eines Verfahrens oder Produktes gemacht werden.
nicht erklärt wird, was das eigentlich Neue an dem neuen Verfahren ist (am besten im Vergleich zu existierenden Alternativen auf dem Markt).
die Nutzung von persönlichen Daten nicht berichtet wird, obwohl dies in relevantem Maße geschieht.
die Anwendung gegen die Datenschutzgrundverordnung (DSGVO) verstößt.
die Nutzung einer KI-Anwendung ethisch-moralische bzw. gesellschaftliche Fragen aufwirft, die im Beitrag ignoriert werden.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Gibt es Informationen zur Neuheit, Datennutzung oder auch gesellschaftlich relevante Aspekte, die dargestellt werden sollten?

11. Faktentreue

Gibt der Beitrag die wesentlichen Fakten richtig wieder?

Dieses Kriterium soll prüfen, ob sich im Beitrag wesentliche Faktenfehler finden. Wird also die Hauptaussage einer Untersuchung richtig wiedergegeben bzw. die Eigenschaften eines Produkts, auf das sich der Beitrag bezieht? Ist in einem Beitrag von KI die Rede, obwohl es sich gar nicht um eine Künstliche Intelligenz handelt? Nicht alle Aspekte einer Anwendung oder Studie müssen im Beitrag beschrieben werden, die genannten Fakten müssen jedoch stimmen.

Es geht bei der Bewertung vor allem um offensichtliche Fehler, die z.B. schon beim Lesen einer zugrunde liegenden Untersuchung, der Zusammenfassung, Pressematerial oder einer Firmen- bzw. Produktwebseite auffallen können. Nicht jeder Fakt und jede Tatsachenbehauptung kann von den Gutachter:innen gegenrecherchiert werden.

Ein falsch geschriebener Name ist im Gutachten anzumerken, reicht aber allein noch nicht aus, um das Kriterium als „nicht erfüllt“ zu werten. Treten aber zusätzlich andere „kleine“ Fehler auf, die auf eine insgesamt mangelnde Sorgfalt bei der Recherche schließen lassen, kann durchaus „nicht erfüllt“ gewertet werden.

Faktenfehler können in besonders schwerwiegenden Fällen auch als Grund für eine Abwertung des Gesamtergebnisses um einen Stern betrachtet werden.

Liefert ein Beitrag keinerlei Quellen oder Belege, auf deren Grundlage die Fakten überprüft werden können, kann auch das zur Abwertung des Gesamtergebnisses um einen Stern führen. Das Kriterium selbst wird in einem solchen Fall mit „nicht anwendbar“ gewertet.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

im Beitrag von KI berichtet wird, obwohl KI gar nicht zum Einsatz kommt.
Überschriften und Teaser sich zu stark von der tatsächlichen Aussage des Beitrags entfernen.
der Beitrag Kausalzusammenhänge herstellt, obwohl die Daten nur Korrelationen belegen.
Daten offensichtlich falsch wiedergegeben werden.
grobe, irreführende Übersetzungsfehler etwa bei Zitaten aus dem Englischen auftreten.
Häufigkeiten erheblich von den in der entsprechenden Fachpublikation oder offiziellen Dokumenten genannten Werten abweichen.
der Text viele kleinere Fehler beinhaltet, die für sich genommen noch kein „nicht erfüllt“ rechtfertigen, in der Summe aber den Eindruck erwecken, dass nicht mit hinreichender Sorgfalt berichtet wird.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Stimmen die Fakten, die berichtet werden?

12. Journalistische Eigenleistung (mehr als Pressematerial)

Geht der Beitrag über das Pressematerial hinaus?

Basiert der Beitrag überwiegend auf eigenen Recherchen oder ist er weitgehend die bloße Übernahme von Pressematerial bzw. fremden journalistischen Beiträgen, wie etwa von Medienbeiträgen aus anderen Ländern? Dies bezieht sich indes nicht auf Beiträge von Nachrichtenagenturen. Auch die Verwendung von Material des Science Media Centers wird als unabhängige, journalistische Leistung gewertet – ganz gleich, ob das SMC als Quelle genannt wird oder nicht.

Ein Beitrag sollte deutlich über eine ggf. zum Thema vorhandene Pressemitteilung oder anderes Pressematerial hinausgehen, damit von einer eigenen journalistischen Rechercheleistung ausgegangen werden kann.

Eine Pressemitteilung/eine Pressekonferenz oder Pressematerial kann ein Anlass, sollte aber keine komplette Vorlage für den Beitrag sein – auch wenn es im zunehmend schwieriger werdenden Redaktionsalltag vorkommen kann, dass z.B. eine gut gemachte Pressemitteilung einen Großteil der nötigen Informationen liefert.

Bei der Übernahme von Videomaterial, das z.B. von Unternehmen oder Forschungseinrichtungen zur Verfügung gestellt wird, ist auf die Quelle hinzuweisen. Wird ausschließlich dieses Material verwendet, ist das Kriterium bei Fernsehbeiträgen „nicht erfüllt“. Auch wenn eigene Bilder oder Filmsequenzen ohne erkennbare weitere Recherche lediglich die Inhalte einer Pressemitteilung illustrieren, kann das Kriterium „nicht erfüllt“ sein.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

klare Belege dafür vorhanden sind, dass das „Wording“ in großen Teilen aus einer Pressemitteilung oder dem Pressematerial übernommen wurde.
erkennbar ist, dass lediglich ein Beitrag aus einem anderen (z.B. fremdsprachigen) Medium zusammengefasst oder einfach übersetzt wird und es keine darüber hinaus gehende substanzielle journalistische Eigenleistung gibt.

Bei einem Beitrag, der mehrere unabhängige Quellen hat, kann in der Regel davon ausgegangen werden, dass er NICHT allein auf einer Pressemitteilung/ Pressematerial beruht. In diesem Fall liegt also eine journalistische Eigenleistung vor und daher sollte in diesem Falle mit „erfüllt“ gewertet werden, auch wenn wir keine Pressemitteilung finden.

Auch ohne auffindbare Pressemitteilung kann eine journalistische Eigenleistung fehlen, davon kann man ausgehen, wenn der Beitrag sehr unkritisch ist, einen werbenden Charakter hat oder nur einzelne, abhängige Quellen erwähnt werden. Wenn es also sein könnte, dass die Informationen überwiegend aus einer Pressemitteilung oder PR-Material stammen, das indes nicht auffindbar ist, wird das Kriterium mit „nicht anwendbar“ gewertet (weil eine Überprüfung des Verdachts nicht möglich ist).

Wichtige Frage, die für Rezipienten zu klären wäre:
Handelt es sich um eine ausreichende journalistische Eigenleistung oder stammen die Informationen ausschließlich bzw. ganz überwiegend aus einer Pressemitteilung oder entsprechendem PR-Material bzw. fremden journalistischen Beiträgen?

Aus diesem Satz würde ich zwei machen.

13. Attraktivität der Darstellung

Wird das Thema des Beitrags attraktiv und angemessen vermittelt?

Damit Mediennutzer einen Beitrag gerne lesen, hören oder sehen, muss er nicht nur verständlich sein. Auch wie ein Thema vermittelt wird, spielt dabei eine wesentliche Rolle. So ist ein Beitrag mit vielen kurzen Hauptsätzen zwar maximal verständlich, aber eben nicht sehr attraktiv.
Positiv ist zu bewerten, wenn ein Beitrag dramaturgischen Prinzipien folgt (Personalisierung, narrative Elemente, Bezug zur Alltagswelt etc.). Ideal ist es, wenn Form und Inhalt harmonieren, abstrakte Zusammenhänge z. B. durch Illustrationen, Fotos/geeignete Bilder (TV) oder anschauliche Textbeispiele verdeutlicht werden. Bei einem Radiobeitrag gehört der Einsatz von Atmo und guten O-Tönen dazu, bei Texten sollen Überschriften, Bilder und Illustrationen die Aussagen unterstützen oder ergänzen.

Generell steht bei diesem Kriterium mehr die Form als der Inhalt im Mittelpunkt.

Wichtig für die Berichterstattung speziell über Künstliche Intelligenz ist, dass diese nicht vermenschlicht/personalisiert dargestellt wird. Stattdessen soll es Rezipient:innen als das beschrieben werden, was es ist: ein von Menschen entwickeltes Computerprogramm, das bestimmte Aufgaben erfüllen soll. So sollte immer deutlich werden, dass nicht die KI im Zentrum einer Tätigkeit steht, sondern Personen, die ein Tool nutzen, um etwas zu erreichen. Eine klischeehafte Bebilderung mit Robotern ist ungeeignet, wenn die KI-Anwendung gar kein Roboter ist.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

Überschrift und Teaser die Aussage des Beitrags dramatisieren oder viel mehr versprechen, als Ergebnisse von Testreihen oder Untersuchungen tatsächlich hergeben.
es in einem sehr subjektiven Beitrag („Erlebnisbericht“) nicht gelingt, diesen durch Abschnitte mit neutralen/objektiven Beschreibungen der Fakten einzuordnen. Idealerweise werden Fallbeispiele gewählt, die typisch sind.
KI als handelndes Subjekt („vermenschlicht“) dargestellt wird.

Wichtige Frage, die für Rezipienten zu klären wäre:
Ist das Thema interessant und angemessen dargestellt?

14. Verständlichkeit

Ist der Beitrag für Laienpublikum verständlich?

Dieses Kriterium gilt als „erfüllt“, wenn ein Beitrag verständlich ist, weil er klar strukturiert ist, angemessene Satzlängen verwendet, Fachbegriffe nur in Ausnahmefällen verwendet (und diese dann erläutert) und Zusammenhänge gut erklärt – und ggf. erklärendes Bild- und Tonmaterial einsetzt.

Handelt es sich um einen nachrichtlichen Beitrag, sollten die W-Fragen (wer, was, wo, wie, wann und warum) vollständig beantwortet werden.

In Bezug auf Künstliche Intelligenz sollte im Beitrag deutlich werden, welche Rolle die KI innerhalb einer Anwendung übernimmt, was das Programm also macht und was nicht. Dazu gehört auch zu erklären, um was für eine Art von KI es sich handelt (also z.B. eine KI zur Mustererkennung oder eine generative KI etc.) und, ob es sich überhaupt um Künstliche Intelligenz handelt.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

ein Thema zu abstrakt dargestellt wird.
die Struktur wirr erscheint, logische Fehler auftreten.
Bandwurmsätze über mehrere Zeilen und Schachtelsätze das Verständnis und den Lesefluss erschweren.
in einem nachrichtlichen Beitrag ein Teil der W-Fragen nicht beantwortet wird.
keine Informationen zur Art der KI und ihrem Einsatz im Beitrag erscheinen.
von KI berichtet wird, obwohl es sich nicht um KI handelt.
ein Beitrag von unverständlichen oder irreführenden Bildern begleitet wird: Ergänzen sie den Inhalt des Beitrags oder überdecken/verfälschen sie ihn? Bei Grafiken ist z.B. auf die verwendeten Skalen, etwaige Verzerrungen, unangemessene Maßstäbe, täuschende Perspektiven, Lücken in den dargestellten Daten etc. zu achten.

Wichtige Frage, die für Rezipienten zu klären wäre:
Ist der Beitrag verständlich?

15. Themenauswahl

Ist das Thema aktuell, relevant oder originell?

Bei diesem Kriterium spielt eine Rolle, ob das im Beitrag besprochene Thema aktuell, relevant oder besonders originell ist.

Als relevant gilt zum Beispiel ein Thema, das einen großen Teil der Bevölkerung direkt oder indirekt, lokal oder regional betrifft. Wenn eine große Anzahl Menschen davon betroffen ist oder eine neue Entwicklung wichtige ethische Fragen aufwirft, wenn politische Entscheidungen dazu anstehen oder ein kleines Thema beispielhaft für eine größere Entwicklung steht („Modellcharakter“). Denn Relevanz entsteht nicht nur durch eine große Anzahl Betroffener. Auch ein großer Erfolg oder ein großes Risiko für einen kleinen Teil der Bevölkerung kann bedeutsam sein.

Ein Beitrag kann durch ein ungewöhnliches Thema oder einen überraschenden Blickwinkel überzeugen – und somit den Mediennutzern besonders kurios, humorvoll oder überraschend erscheinen.

Außerdem wird hier bewertet, ob der Beitrag eine seinem Medium (Online-Nachrichtenplattform, Wochen bzw. Monatsmagazin) oder einem zeitlichen Rahmen (z. B. Jahreszeit) angemessene Aktualität besitzt und diese für Rezipient:innen deutlich macht (z.B. durch Formulierungen wie „Produkt, das heute/gestern/diese Woche auf den Markt kam.“ oder „(…) wie in dem diese Woche veröffentlichten Buch beschrieben (…) “).

Sollte das Thema eines Beitrags nicht aktuell sein, muss es relevant sein. Ist es nicht relevant, muss es zumindest ungewöhnlich sein.

Wertung kann „nicht erfüllt“ lauten, wenn z. B. …

eine Anwendung nur für kleine Fachkreise von Bedeutung ist.
eine Anwendung nicht aktuell, nicht relevant und auch nicht ungewöhnlich ist – und nicht klar wird, warum darüber berichtet wird.
der aktuelle Bezug konstruiert erscheint („Tag des XY“, die in der Regel von Interessenverbänden/Unternehmen festgesetzte Termine als Teil einer PR-Strategie sind, oder ein „aktueller Promitipp“). Eine Ausnahme bilden Tage, die eine echte Relevanz für die politische Agenda haben und von anerkannten Institutionen festgelegt wurden (vergleichbar mit dem Welt-Aids-Tag der Organisation UNAIDS).
versucht wird, Aktualität zu suggerieren, obwohl ein Thema veraltet ist (z. B. Tageszeitungsbeitrag: „wie die Forscher jetzt herausgefunden haben“, das Ergebnis/der Anlass aber schon seit einem Monat bekannt/veröffentlicht ist). Auch dieses Kriterium orientiert sich am Veröffentlichungsrhythmus des Mediums.
Relevanz und/oder Aktualität nur simuliert erscheint, etwa durch aktuelle firmengesponserte Umfragen im Zusammenhang mit „Awareness- Kampagnen“.
eine Pressekonferenz als Anlass für eine zeitnahe Berichterstattung genommen wird, die über die Ergebnisse eines in Entwicklung befindlichen Produkts/einer Anwendung berichtet, und es für Journalist:innen keine Möglichkeit gibt, die Anwendung zu überprüfen oder Testdaten einzusehen. Da dann weder Ergebnisse noch Methodik überprüft werden können, raten wir generell von einer solchen Berichterstattung ab.

Wichtige Frage, die für Rezipient:innen zu klären wäre:
Ist das Thema aktuell, relevant und/oder ungewöhnlich?