Kunstig intelligens

Forskere fant nesten 300 artikler med falske referanser

Forskerne gransket artikler sendt til toppkonferanser for KI-forskning. Antall artikler med falske referanser eksploderte i fjor.

Fra KI-forskningskonferansen ACL i Wien i fjor, der deltakere leser postere, altså presentasjoner av forskning på plakater. Forskerne undersøkte konferanseartikler fra de store KI-konferansene ACL, NAACL og EMNLP.

Foto: ACL

Jørgen Svarstad Tekst: Jørgen Svarstad Jørgen Svarstad Jørgen Svarstad jorgen.svarstad@khrono.no

Publisert 17.02.2026 - 17:02

Etter at kunstig intelligens (KI) ble allemannseie, har falske referanser blitt et stort problem.

Som kjent har KI-verktøy en tendens til å hallusinere, altså finne opp ting, også referanser.

Det dukker opp i rapporter. For eksempel siterte en skolerapport, som Tromsøs politikere brukte som underlagsmateriale da de skulle legge ned skoler, forskning som ikke eksisterer.

Sensorer ser det stadig i studentoppgaver.

Og de falske referansene dukker opp i forskningsartikler.

I en ny studie har tre forskere ved Nara Institute of Science and Technology i Japan gått gjennom forskningsartikler lagt fram på tre store og prestisjetunge forskningskonferanser om kunstig intelligens, ACL, NAACL og EMNLP, i 2024 og 2025.

Artikkelen er ikke er fagfellevurdert ennå.

De fant 295 konferanseartikler med minst én falsk referanse. Slike falske referanser kaller de «hallusitering».

Ekstrem vekst i 2025

Forekomsten eksploderte i 2025. For 2024 fant de bare 20 slike artikler, mens tallet i 2025 steg til 275. Det har altså skjedd nesten en fjortendobling på ett år.

Det er riktignok en liten andel av artiklene som har slike referanser. I alt skannet forskerne mer enn 17.000 artikler, altså hadde i underkant av to prosent av artiklene falske referanser.

Forskerne fant dette ved å automatisk kontrollere alle referansene i artiklene opp mot de store forskningsdatabasene.

Referansene som ikke ble funnet, sjekket forskerne manuelt. De luket ut referansefeil som egentlig var rene skrivefeil og tegnsettingsfeil. Feilene de satt igjen med da var betydelige, og forskerne mener anslaget for falske referanser er konservativt.

Dette var de vanligste feilene

De vanligste feilene var:

Fullstendig oppdiktede artikler.
«Spøkelsesoppføringer» fra databaser der referansene så ekte ut ved første øyekast. Men i databasene ligger titler på artikler som ikke eksisterer. Forskere har trolig kopiert disse tomme referansene uten å sjekke nærmere.
Artikler med feilaktige ID-numre fra arkivet ArXiv: Tittelen på artikkelen var referert korrekt, men ID-nummeret ledet til en annen, irrelevant artikkel.
Artikler som aldri ble publisert: Noen referanser refererte til artikler som det var forventet at skulle publiseres, for eksempel i løpet av 2024, men som aldri ble publisert.

Det kom nye verktøy i 2025

De japanske forskerne gir flere forklaringer på de falske referansene. KI er ikke den eneste, men er en hovedårsak som også samspiller med andre faktorer.

Mot slutten av 2024 og begynnelsen av 2025 kom nye, avanserte KI-systemer som utvidet bruksområdet for KI i artikkelskriving.

Store språkmodeller og såkalte «AI scientist»-verktøy kunne nå søke etter relevant litteratur, foreslå konkrete referanser og skrive utkast til gjennomganger av tidligere forskning. Det gjorde forskningsskriving raskere og mer automatisert, men økte samtidig risikoen for at feil eller ikke-eksisterende kilder ble med helt fram til publisering.

Disse verktøyene ble raskt tatt i bruk av KI-forskere som skulle sende inn artikler til konferanser.

Feil sprer seg raskt

Dette henger igjen sammen at det faktisk også er falske referanser, såkalte «spøkelsesoppføringene», i de store forskningsdatabasene.

KI-verktøy henter ut referanser som tilsynelatende er greie, men som ved nærmere sjekk er tomme.

Når en database først inneholder en feil, sprer den seg raskt. Studien fant et tilfelle der en feilaktig referanse hadde blitt kopiert videre til hundrevis av andre artikler.

I tillegg peker de på et stort press på fagfellevurderingssystemet. Det har særlig gjort seg gjeldende innen forskning på KI, der antallet artikler har eksplodert.

Det er ikke nok eksperter til å vurdere flommen av artikler. Fagfellene må vurdere mange artikler, ofte utenfor sitt kjerneområde, på kort tid. De har ofte ikke tid til grundige faktasjekker, men kun overfladiske vurderinger.

Forsker ble misbrukt i KI-skandale. Nå skal han hjelpe kommunen å rydde opp

Mest i nye forskningsfelt

Problemet er størst i de nye, raskt voksende KI-underfeltene som oppsto i kjølvannet av KI-boomen.

På spørsmål om hvor alvorlige funnene er skriver en av forfatterne, Yusuke Sakai, til Khrono at innenfor flere KI-felt blir konferanseartikler til toppkonferanser høyere verdsatt enn vanlige artikler.

Det gjelder spesielt innen maskinlæring og naturlig språkbehandling (NLP), hvor mange forskere også prioriterer toppkonferansene over topptidsskriftene. Men for konferansepublikasjoner er man i større grad avhengig av at forfatterne selv retter feilene.

Sakai sier at fagfeller ofte må vurdere konferanseartikler innenfor temaer de ikke kan, med svært korte frister.

— Det er rett og slett urealistisk å forvente at hver eneste referanse kan kontrolleres grundig under slike tidsbegrensninger. Jeg har selv opplevd å måtte fullføre ti fagfellevurderinger på én uke, skriver Yusuke Sakai, og innrømmer at vurderingene da blir mer formalistiske enn substansielle.

Og selv da han påpekte en falsk referanse, ble den ikke rettet, sier han.

— For forfattere må det komme en fornyet erkjennelse av at publisering innebærer ansvar. Aksept er ikke et trofé; ansvaret fortsetter også etter publisering, skriver han.

— Mens KI-assistert skriving blir mer vanlig, kan ikke ansvaret delegeres til verktøy. Til syvende og sist er det forfatterne som er ansvarlige for referansene.

kunstig intelligens

Denne boka er full av oppdiktede referanser

Ikke fusk, men slurv

Man skulle kanskje tro at hvis man først fant én falsk referanse i en artikkel, ville det ramle ut mange flere skjeletter fra skapet. Men slik er det ikke nødvendigvis.

Det vanligste var at en artikkel kun hadde én eller to falske referanser, noe som indikerer slurv, ikke bevisst juks.

De falske referansene ligger altså godt gjemt, noe som gjør dem vanskeligere å oppdage.

Når forskerne i første grovsortering fant en artikkel med kun én referanse som ikke stemte, var det svært sannsynlig at det kun var en skrivefeil, og ikke en hallusinasjon, og denne ble luket ut.

Også hvis det var tre eller færre, er det ofte «støy», som ikke er reelle hallusinasjoner laget av KI.

Men hvis det var fire eller flere referanser som ikke stemte, var det som regel snakk om reelle hallusinasjoner.

Ut fra dette anbefaler forskerne at hvis man gjennom et automatisk system finner tre — fire eller flere mistenkelige referanser, bør referansene gjennomgås manuelt.

Anbefaling: Unngå «heksejakt»

De japanske forskerne kommer med flere anbefalinger:

Å innføre automatiske referansesjekker før og under fagfellevurdering for å sikre at falske kilder fanges opp tidligere. Slike verktøy bør integreres i innsendings- og publiseringssystemet, mener forfatterne.
Definer tydelig hva som regnes som alvorlige referansefeil, og skill mellom grove feil og mindre formelle unøyaktigheter.
Sikre bedre sporbarhet i revisjonsprosessen, slik at det går an å kontrollere om feil faktisk er rettet i endelig versjon.
Unngå en «heksejakt» eller umiddelbar straff mot forskere ved falske referanser, da det ofte handler om utilsiktede feil.

I tillegg mener de at formålet med konferanser og fagfellevurdering bør revurderes. Belastningen på fagfellene risikerer å undergrave konferansenes troverdighet og reiser bekymringer om hvor bærekraftig modellen er, skriver forfatterne.

Derfor foreslår de en modell som ligner mer på de såkalte megatidsskriftene, der selve vurderingen av forskningen skjer løpende og grundig gjennom året, uavhengig av tidsfrister.

I en slik modell vil konferansene slutte å fungere som travle «dommere» og heller bli en arena for å presentere arbeid som allerede er kvalitetssikret og godkjent på forhånd, der vurderingen skjer løpende og grundig uten ekstremt tidspress, mens konferansene heller fokuserer på å presentere arbeid som allerede er godkjent.