Debatt ● Magnus Ingebrigtsen og Marko Lukic
Nei, denne metaanalysen viser ikke bedre læring med ChatGPT
En mye omtalt metaanalyse, også i Khrono, hevder at ChatGPT gir stor læringsgevinst. Men resultatene blir misforstått, og flere sentrale opplysninger i analysen stemmer ikke overens med originalstudiene.


Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
Metaanalysen om ChatGPT fra Weng & Fang (2025) har spredt seg som ild i tørt gress, og har de siste ukene vært omtalt i både Khrono, NRK og Aftenposten. Disse omtalene antyder at ChatGPT gir bedre læringsutbytte og har «stor positiv effekt» på studenters læring og høyere ordens tenking.
Professor Morten Goodwin hevder at studien viser at «studenter som bruker ChatGPT lærer mer enn de som ikke gjør det», mens professor Atle Guttormsen slo fast i NRK at studien viser «en tydelig læringseffekt».
Problemet? Studien måler ikke først og fremst læring, men såkalte «læringsresultater».
I flere tilfeller betyr dette hvor god kode eller akademiske tekster studentene produserer i samarbeid med ChatGPT. Å kalle dette «bedre læring» blir som å si at folk blir gode i hoderegning når de får bruke kalkulator mens de regner.
Ser man nærmere på metaanalysen, oppdager man også flere vesentlige feil. Forfatterne har oppgitt feil antall deltakere, feilberegnet effektstørrelser og tilsynelatende brukt variabler som ikke ble målt eller oppgitt i originalstudiene.
Feilene er betydelige nok til at den aldri burde passert fagfellene, og rettferdiggjør en grundig revisjon, eller til og med tilbaketrekking.
La oss ta noen eksempler.
Metaanalysen hevder at den bygger på 51 kvasieksperimenter, hvorav flere ikke kontrollerer for selv de mest grunnleggende faktorer, som tid eller bruk av hjelpemidler.
I én originalstudie (Hsu, 2024) øvde ChatGPT-gruppen 80 timer på medisinsk terminologi, mens kontrollgruppen øvde i bare 20 timer. Læringsresultatet ble målt uten tilsyn, via nett, med fri tilgang til alle hjelpemidler — inkludert ChatGPT.
Andre originalstudier ser heller ikke ut til å ha vært vurdert kritisk. Ji et al. (2023) delte 36 studenter i grupper på fem til seks personer, hvor gruppen ble vurdert med én felles karakter. Metaanalysen har derimot behandlet studien som om hver student fikk en individuell vurdering. Konsekvensen blir et unaturlig lavt standardavvik, som igjen kanskje forklarer den spektakulære effektstørrelsen (g = 4.009).
Feilene er betydelige nok til at den aldri burde passert fagfellene, og rettferdiggjør en grundig revisjon, eller til og med tilbaketrekking.
Ingebrigtsen og Lukic
Dette burde både forfatterne og fagfellene ha oppdaget. Effektstørrelser over 1 forekommer nemlig nesten aldri i utdanningsforskning (Kraft, 2023), men i denne metaanalysen forekommer det i hele 25 prosent av originalstudiene.
Weng og Fang (2025) har også oppgitt tall og variabler som ikke er å finne i originalstudiene, som svekker tilliten ytterligere. Bašić et al. (2023) undersøkte effekten av ChatGPT på akademisk skriving. Kontrollgruppen skrev oppgaven selv, mens eksperimentgruppen fikk hjelp av ChatGPT. Her presterte kontrollgruppen best, og effektstørrelsen var negativ (g ≈ -0.52).
Studien er derimot oppført to ganger i metaanalysen, først korrekt, og deretter med feil deltakerantall og en sterk positiv effekt (g = 0.993).
Skal vi tro metaanalysens tabeller, har Weng og Fang også inkludert en annen metaanalyse som en enkeltstudie (Wang et al., 2024). Dette gir lite mening, og kan kanskje skyldes mindre alvorlige feil i kildehåndteringen.
Etter en kort e-postkorrespondanse med førsteforfatter Weng, mottok vi en «korrigert» oversikt over studiene som egentlig ble brukt. Denne oversikten inneholder derimot plutselig en rekke studier som verken er omtalt i tabellene eller referanselisten til den opprinnelige metaanalysen.
Feilene er altså gjennomgående, og de korrigerte opplysningene vi mottok fra Weng skaper bare mer forvirring.
Chen and Chang (2024) utførte for eksempel et eksperiment på 202 syvendeklassinger, men i metaanalysen er studien oppført som to separate eksperimenter på ulike utdanningsnivå, én på videregående og én på universitet. Originalstudiene til Hu i Educational Technology & Society (2024) og Almohesh (2024) er også kodet som studier på læringsprestasjon, men målte egentlig opplevd etisk mestringstro og følelse av autonomi.
Det er også tvilsomt grunnlag for påstanden om at ChatGPT fremmer høyere ordens tenking. Studiene med flest antall deltakere og størst effekt (Lu et al., 2024; Selem et al., 2025) baserer seg på selvrapportering, trolig av typen: «Jeg er flink til å komme på kreative løsninger».
Verken innholdet i testene eller validiteten til disse er dokumentert i originalstudiene, og her stemmer heller ikke effekt- og utvalgsstørrelsene med det som er oppgitt i metaanalysen.
Hva kan vi lære av dette da?
Det er bare å innrømme det. Kvalitetskontrollen har sviktet og bekreftelsestendensen har bidratt til den utstrakte delingen. I skrivende stund har artikkelen nådd lengre enn 99 prosent av lignende artikler (Altimetrics).
En sensasjonell overskrift i et anerkjent tidsskrift om et brennaktuelt tema kan få stor gjennomslagskraft.
Ingebrigtsen og Lukic
Kanskje leser læreren eller rektoren til noen av dine nærmeste denne artikkelen akkurat nå, og blir overbevist nok til å innføre ChatGPT i læringsprosesser hvor det egentlig kanskje får negativ effekt.
Nå må vi passe på. En sensasjonell overskrift i et anerkjent tidsskrift om et brennaktuelt tema kan få stor gjennomslagskraft.
Og selv om vi burde kunne stole på fagfellevurdering og akademisk etterrettelighet, ser vi at det ikke alltid holder. Videreformidlingen burde også ha blitt bremset av kritiske blikk, men det er ikke alltid så enkelt. Det krever både motivasjon, tid og spesialisert kunnskap.
Vi vet ikke om Weng og Fang har brukt kunstig intelligens ukritisk i utarbeidelsen av denne artikkelen, men vi vet at språkmodeller nå gjør det mulig å produsere forskningsartikler raskere og enklere enn noensinne, selv på mangelfullt eller uredelig grunnlag.
Og fordi språkmodellene produserer glitrende tekster, kan de blende selv de som lærer andre å tenke kritisk.
Ja, språkmodeller kan sannsynligvis hjelpe oss å lære bedre. De kan støtte målrettet øving, gi raskere tilbakemeldinger, nivåtilpassede forklaringer og senke terskelen for å stille spørsmål. Men de kan også ha negative effekter, som å forsterke misoppfatninger og bidra til kompetanseillusjoner.
Hovedpoenget vårt er likevel følgende: Denne metaanalysen gir ikke grunnlag for påstandene som har blitt formidlet i media om at ChatGPT forbedrer læring.
Til orientering: Førsteforfatteren er gjort oppmerksom på de påviste manglene. I tråd med tidsskriftets retningslinjer har vi forberedt en kommentar, som kan sendes inn tidligst 14 dager etter at forfatterne ble informert.
Nylige artikler
De første forskerne fra USA har signert kontrakt med Aix Marseille-universitetet
Fuskesaker: Det er forskjell på bevisvurdering og synsing
Når Amnesty blir kansellert: Hva skjer med akademisk frihet?
Skryter av kona: — Jeg hadde ikke klart dette alene
Vil at doktorgrader bedre skal dekke samfunnets behov
Mest leste artikler
Frykter at studenter må legge studiedrømmen på hyllen: — Det er kritisk
Tatt for fusk. Skyldte på glatt is
Er dette det mest overfylte kontoret i akademia?
Naboene uenige om hvor viktig det er at rektor reiser
Stryk ble halvert med studenter som lærere