kunstig intelligens

ChatGPT formidlet falsk forskning

ChatGPT hadde ikke fått med seg at hodeskallen fra det som angivelig var verdens første gepard-art, var en forfalskning.

Slik så man for seg at Acinonyx kurteni, den tidligst kjente arten av gepard, så ut. Men den har aldri eksistert. Fossilet forskerne presenterte var en forfalskning.

Foto: Nobu Tamura / Wikipedia

Jørgen Svarstad Tekst: Jørgen Svarstad jorgen.svarstad@khrono.no

Publisert 04.09.2025 - 17:44 Sist oppdatert 04.09.2025 - 17:44

Samtaleroboten ChatGPT er ikke så flink til å oppdage at vitenskapelige artikler har blitt trukket tilbake, ifølge en ny studie.

Forskningsartikler blir trukket tilbake når det er noe galt med dem og tidsskriftet ikke kan stå inne for forskningen. Forskerne kan ha gjort feil som gjør at resultatene ikke stemmer, eller rett og slett fusket.

Men ifølge en studie fra et britisk-tyrkisk forskningsteam videreformidler ChatGPT resultater fra tilbaketrukne artikler.

Slik gjorde de det

Forskerne samlet først inn 217 profilerte vitenskapelige artikler som har blitt trukket tilbake, eller som det var reist tvil om.

Disse tekstene matet de inn i ChatGPT og ba taleroboten vurdere hvor god forskningen var. Dette ble gjort 30 ganger for hver artikkel.

I tillegg plukket de 61 konkrete påstander fra de samme artiklene og spurte ChatGPT om de var sanne. Hver påstand ble sendt inn 10 ganger.

Ikke alle påstandene var direkte gale. Men de stammet fra artikler som var trukket tilbake eller hadde fått bekymringsmeldinger. Tanken var å undersøke om ChatGPT fanget opp dette.

ChatGPT nevnte ikke at noen av studiene var trukket tilbake. Tvert imot ble flertallet vurdert til å være av god kvalitet.

Når den fikk spørsmål om påstandene var sanne , svarte den i litt over 60 prosent av tilfellene at de var sanne eller delvis sanne, også når de beviselig var feil.

Lesing

Etter tre års studier sliter studentene fortsatt med å lese. — Kjedelig

Forfalskning

Blant annet skulle den ta stilling til påstanden:

«Acinonyx kurteni er den tidligst kjente arten av gepard.»

Bakgrunnen for dette var at forskere i 2008 hevdet å ha funnet en hodeskalle de mente tilhørte en utdødd gepardart i Kina fra rundt 2,2—2,5 millioner år siden.

De mente at det var det tidligste og mest primitive funnet av en gepard, noe som støttet hypotesen om at gepardens utvikling startet i Eurasia, og ikke i Amerika.

Men fossilet viste seg senere å være en forfalskning satt sammen av ulike dyredeler og gips. Studien ble trukket tilbake i 2012. Men dette hadde ikke ChatGPT fått med seg, og mente påstanden var sann.

At en artikkel er trukket tilbake, er som regel tydelig merket på artikkelen fra forlaget.

Svakheter ved studien

Forfatterne av studien skriver at resultatene tyder på at ChatGPT ikke er klar over at artikler er trukket tilbake, eller fanger opp andre tegn på problemer med forskningen.

Men det er noen svakheter ved studien. Utviklingen innen kunstig intelligens (KI) går som kjent svært fort, og eksperimentet ble gjort i september 2024.

Forskerne brukte GPT-40-mini. Denne modellen brukes fortsatt, men modellen GPT-5, som er kraftigere og smartere, har nå blitt standard.

Trolig har ChatGPT blitt flinkere til å faktasjekke forskning det siste året.

I forskningsartikkelen gjengis fem av de 61 påstandene. Khrono faktasjekket disse med GPT-5. Den vurderte nå at to av disse påstandene, som kom fra tilbaketrukne artikler, var feil. Tre ble vurdert som riktige eller delvis riktige.

Fanget ikke opp forskningsjuks

Da vi testet påstanden om verdens eldste gepardart, mente siste versjon av ChatGPT at påstanden ikke stemmer. Men begrunnelsen er ikke at fossilet var falskt, men at det finnes eldre arter. Den fastslo at «Acinonyx kurteni er en utdødd art», og nevnte ikke noe om at studien var tilbaketrukket.

ChatGPT klarte heller ikke å fange opp en annen sak om omfattende forskningsjuks.

Det gjelder en påstand om at adrenalin skal beskytte hjernen mot skader etter hodeskader, men at denne beskyttelsen fungerer forskjellig avhengig av kjønn og alder. Dette kom fra en amerikansk forsker som ble tatt for å ha forfalsket og fabrikkert figurer og data i flere studier. Studien med påstanden om adrenalin ble trukket i 2017. Dette oppdaget ikke ChatGPT da Khrono testet, og samtaleroboten vurderte påstanden som sann.