Debatt ● Karl Philip Lund

Vi trenger vurderingsformer der KI ikke kan gjøre jobben for deg

KI-detektorer er symptomet. Vurderingsformen er sykdommen.

Portrett av Karl Philip Lund
Hovedproblemet er at vi har bygd et vurderingssystem som gjør KI-detektorer nødvendige i utgangspunktet, skriver forfatteren.
Publisert

Denne teksten er et debatt­inn­legg. Inn­holdet i teksten uttrykker forfatterens egen mening.

Mathilde Rebnord og medstudentene hennes ved NLA ble anklaget for KI-fusk basert på en rapport fra GPTZero. De fikk ikke se rapporten. De fikk ikke legge fram ChatGPT-loggen sin. De fikk ikke vise notatene fra skriveprosessen. Valget de ble stilt overfor var å godta beskyldningen — eller få opprettet en formell fuskesak.

Saken har fått nesten 70 000 visninger på LinkedIn. Det er ikke tilfeldig. Den treffer noe studenter over hele landet kjenner på: frykten for å bli feildømt av et verktøy ingen av partene egentlig forstår.

La meg være tydelig på én ting først: KI-detektorer fungerer ikke. 

Det er ikke min påstand alene. MIT Sloan konkluderer med det samme i sin veileder til undervisere: KI-detektorer har høye feilrater og fører til at studenter feilaktig anklages for juks. OpenAI — selskapet bak ChatGPT — la ned sin egen KI-detektor fordi den ikke var treffsikker nok. Hvis de som bygger teknologien ikke klarer å lage en fungerende detektor, gjør ikke GPTZero det heller.

Å bruke et slikt verktøy som grunnlag for en fuskeanklage — og samtidig nekte å vise rapporten — er ikke teknologibruk. Det er maktmisbruk.

Men jeg tror ikke hovedproblemet er den enkelte foreleser. Hovedproblemet er at vi har bygd et vurderingssystem som gjør KI-detektorer nødvendige i utgangspunktet.

Tradisjonell vurdering hviler på en antagelse: at teksten studenten leverer, reflekterer studentens kompetanse. Den antagelsen var rimelig i 2019. 

I 2026 er den brutt. En hjemmeeksamen kan i dag skrives på 20 minutter med en språkmodell. Ikke fordi studentene er late, men fordi verktøyet eksisterer og alle vet det.

Responsen fra sektoren har stort sett vært to varianter: enten kjører vi KI-detektorer mot studentene (som ikke virker), eller vi returnerer til håndskrevne skoleeksamener. Det siste er heller ingen løsning. 

MIT Sloan peker på at håndskrevne eksamener, muntlige presentasjoner og in-class writing rammer skjevt — særlig studenter som skriver sakte for hånd, har prestasjonsangst, eller ikke har undervisningsspråket som morsmål. Begge responsene er forsvarsposisjoner. Ingen av dem løser grunnproblemet.

Grunnproblemet er at vi fortsatt bare ser på produktet. Én tekst. Én dag. Én vurdering.

MIT Sloan anbefaler noe de kaller en «process statement» — en kort redegjørelse der studenten forklarer hvordan oppgaven ble løst, inkludert hvilke KI-verktøy som ble brukt, hvordan informasjon ble verifisert, og hvilke beslutninger studenten selv tok. Det er et godt første skritt. Jeg mener vi kan gå lenger.

Det vi trenger er vurderingsformer der KI ikke kan gjøre jobben for deg — fordi det som vurderes, er noe annet enn sluttproduktet. 

Hvem starter tidlig. Hvem tar initiativ uten instruksjoner. Hvem intererer på arbeidet sitt. Hvem stiller gode spørsmål i intervjuer med reelle bedrifter. Hvem løfter teamet når det står på. Hvem bruker KI til analyse og refleksjon — ikke bare til å generere tekst.

Disse signalene er observerbare. De lar seg strukturere. Og samlet over et helt semester gir de et langt rikere bilde av studentens kapasitet enn én eksamen på fire timer kan gjøre.

Jeg har jobbet med dette i tolv år ved Høyskolen Kristiania, og holder nå på å ferdigstille en artikkel som beskriver rammeverket systematisk: fem dimensjoner, tretten signaler, med et retrospektivt valideringsstudie under planlegging. 

Poenget her er ikke å presentere detaljene, men å peke på at alternativene finnes. De er ikke ferdig utviklet. De trenger utprøving, kritikk og empirisk testing. Men de finnes.

Så, tilbake til Mathilde.

Det Rebnord beskriver, er en student som hadde prosessen dokumentert — notater, utkast, logger — men som ikke fikk bruke noe av det. Fordi systemet var designet til å vurdere bare produktet, og da ble KI-detektoren den eneste «objektive» dommeren.

Hadde prosessen vært en del av vurderingen fra starten, hadde det ikke vært nødvendig med en detektor i det hele tatt. Studentens arbeid ville vært synlig hele veien.

Det er dit vi må. Ikke flere detektorer. Ikke flere håndskrevne eksamener. Men vurderingsformer som faktisk ser studenten — og som tåler at KI eksisterer, fordi de aldri var avhengige av å ignorere den.

Karakterer er ikke døde fordi KI drepte dem. De er døde fordi de aldri målte det viktigste.

Åpenhet: Dette innlegget er i sin helhet skrevet i samarbeid med Claude (Anthropic), basert på mine egne notater, tidligere tekster og tolv års undervisningspraksis. Argumentene, erfaringene og konklusjonene er mine.

Powered by Labrador CMS