[ad_1]
OpenAIs GPT-4 diagnostizierte 52,7 % der Fälle komplexer Herausforderungen korrekt, verglichen mit 36 % der Leser medizinischer Fachzeitschriften und übertraf damit 99,98 % der simulierten menschlichen Leser, so eine Studie Studie veröffentlicht im New England Journal of Medicine AI.
Die von Forschern in Dänemark durchgeführte Auswertung nutzte GPT-4, um Diagnosen zu 38 komplexen klinischen Fallherausforderungen mit Textinformationen zu finden, die zwischen Januar 2017 und Januar 2023 online veröffentlicht wurden. Die Antworten von GPT-4 wurden mit 248.614 Antworten von Online-Lesern medizinischer Fachzeitschriften verglichen .
Zu jedem komplexen klinischen Fall gehörte eine Anamnese sowie eine Umfrage mit sechs Optionen für die wahrscheinlichste Diagnose. Die für GPT-4 verwendete Eingabeaufforderung forderte das Programm auf, die Diagnose zu lösen, indem es eine Multiple-Choice-Frage beantwortete und den vollständigen, unbearbeiteten Text aus dem klinischen Fallbericht analysierte. Jeder Fall wurde GPT-4 fünfmal vorgelegt, um die Reproduzierbarkeit zu bewerten.
Alternativ sammelten die Forscher für jeden Fall Stimmen von Lesern medizinischer Fachzeitschriften, die 10.000 Antwortsätze simulierten, was zu einer Pseudopopulation von 10.000 menschlichen Teilnehmern führte.
Zu den häufigsten Diagnosen zählten 15 Fälle im Bereich Infektionskrankheiten (39,5 %), fünf Fälle in der Endokrinologie (13,1 %) und vier Fälle in der Rheumatologie (10,5 %).
Die Patienten in den klinischen Fällen waren zwischen Neugeborenen und 89 Jahren alt und 37 % waren weiblich.
In der jüngsten GPT-4-Ausgabe vom März 2023 wurden 21,8 Fälle oder 57 % mit guter Reproduzierbarkeit richtig diagnostiziert, während die Leser medizinischer Fachzeitschriften durchschnittlich 13,7 Fälle oder 36 % richtig diagnostizierten.
Die letzte Veröffentlichung von GPT-4 im März umfasst Online-Material bis September 2021; Daher bewerteten die Forscher auch die Fälle vor und nach den verfügbaren Trainingsdaten.
In diesem Fall diagnostizierte GPT-4 52,7 % der bis September 2021 veröffentlichten Fälle und 75 % der nach September 2021 veröffentlichten Fälle korrekt.
„GPT-4 hatte eine hohe Reproduzierbarkeit, und unsere zeitliche Analyse legt nahe, dass die von uns beobachtete Genauigkeit nicht darauf zurückzuführen ist, dass diese Fälle in den Trainingsdaten des Modells auftauchen. Allerdings schien sich die Leistung zwischen verschiedenen Versionen von GPT-4 zu ändern „Die neueste Version schneidet etwas schlechter ab. Obwohl sie in unserer Studie vielversprechende Ergebnisse zeigte, hat GPT-4 fast jede zweite Diagnose übersehen“, schreiben die Forscher.
„… unsere Ergebnisse deuten zusammen mit den jüngsten Erkenntnissen anderer Forscher darauf hin, dass das aktuelle GPT-4-Modell heute klinisch vielversprechend sein könnte. Es sind jedoch ordnungsgemäße klinische Studien erforderlich, um sicherzustellen, dass diese Technologie für den klinischen Einsatz sicher und wirksam ist.“
WARUM ES WICHTIG IST
Die Forscher wiesen auf die Einschränkungen der Studie hin, einschließlich Unbekannter hinsichtlich der medizinischen Fähigkeiten der Leser medizinischer Fachzeitschriften, und darauf, dass die Ergebnisse des Forschers ein Best-Case-Szenario zugunsten von GPT-4 darstellen könnten.
Dennoch kamen die Forscher zu dem Schluss, dass GPT-4 auch bei „maximal korrelierten richtigen Antworten“ unter den Lesern medizinischer Fachzeitschriften immer noch besser abschneiden würde als 72 % der menschlichen Leser.
Die Forscher betonten, wie wichtig es ist, dass zukünftige Modelle Trainingsdaten aus Entwicklungsländern einbeziehen, um den globalen Nutzen der Technologie sicherzustellen, und dass ethische Überlegungen erforderlich sind.
„Auf dem Weg in diese Zukunft müssen auch die ethischen Implikationen im Zusammenhang mit der mangelnden Transparenz kommerzieller Modelle wie GPT-4 sowie regulatorische Fragen zum Datenschutz und zur Privatsphäre angegangen werden“, schreiben die Autoren der Studie.
„Schließlich sollten der künftigen Umsetzung klinische Studien zur Bewertung von Genauigkeit, Sicherheit und Validität vorausgehen. Sobald diese Probleme angegangen sind und sich die KI verbessert, wird die Gesellschaft voraussichtlich zunehmend auf KI als Werkzeug zur Unterstützung des Entscheidungsprozesses unter menschlicher Aufsicht und nicht mehr auf KI setzen als Ersatz für Ärzte.
[ad_2]