Debatt ● Magnus Nordmo

Når vi sparer penger på sensur, betaler studentene prisen

Å kutte fra to til én sensor per oppgave virker som et enkelt sparetiltak for universitetene, men det har en høy kostnad for kvaliteten på vurderingen.

Hvis økonomien tvinger frem enesensur, må vi kompensere ved å redusere støyen på andre måter, skriver forfatteren.

Foto: Privat

Magnus Nordmo Førsteamanuensis Magnus Nordmo Universitetet i Sørøst-Norge

Publisert 07.03.2026 - 19:49

Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.

Sensur er en av de vanskeligste, men mest sentrale oppgavene vi har i universitets- og høyskolesektoren. Spesielt krevende er vurderingen av frie essays og større tekster, hvor det er vanskelig å sette en objektiv og rettferdig karakter.

Dette er i stor grad et skjult problem. Spesielt usynlig blir det når man sensurerer alene. Som enkeltstående sensor ser man kun sin egen vurdering, og den fremstår som oftest logisk for en selv.

Hadde vi derimot hatt hundre uavhengige sensorer til å vurdere den samme besvarelsen, ville vi raskt sett den sanne — og ofte skremmende lave — konsistensen i vurderingene våre.

Debatt ● Espen Smith-Meyer

Automatisert sensur er galskap

Forskning på essayvurdering viser at konsistensen (reliabiliteten) spriker fra fag til fag og eksamen til eksamen. Tar man et gjennomsnitt av forskningen på vanlig essayvurdering hvor sensor ikke får spesiell instruksjon eller verktøy, får man anslagsvis reliabilitet på 0,5.

I praksis betyr dette at vurderingen består av like deler «sann kompetanse» og ren støy. Det blir som om man er midt mellom perfekt overensstemmelse og et scenario hvor hver sensor triller terning om karakteren.

Nå ser vi en trend der mange institusjoner sparer penger ved å gå over fra dobbelt- til enesensur. Det er et økonomisk forståelig valg, men det gjenstår et spørsmål om dette er forsvarlig praksis.

kunstig intelligens

Medisinstudenter reagerer på bruk av KI i sensur

Siden vi har gode anslag på reliabiliteten i essayvurderinger, kan vi bruke enkle statistiske simuleringer for å vise hva som skjer når vi fjerner den ene sensoren.

I simuleringen tar jeg utgangspunkt i at studentene har en sann prestasjon på eksamen. Denne er målt på en kontinuerlig normalfordelt skala, som så kan fordeler seg på A-F-skalaen til slutt. Hver sensor vil forsøke å treffe den sanne prestasjon, men påvirkes av tilfeldig støy (feilvurderinger). Når to sensorer er uenige, antar jeg at de møtes nøyaktig på midten.

Feilene jeg simulerer er utelukkende et resultat av lav konsistens mellom sensorer, og ikke systematiske feil (bias) der for eksempel alle sensorer har misforstått en regel i sensorveiledningen.

Resultatet av simuleringen er slående — og urovekkende.

Tre fargede stolpediagrammer som viser prosentandeler for to ulike valgalternativer. — Figuren viser en sensorsimulering med en reliabilitet på 0.5. Når man går fra to til én sensor, øker andelen studenter som får to eller tre+ karaktertrinn feil kraftig.

Som figuren viser, går volumet av de minste feilene (ett karaktertrinn) opp med bare én sensor. Men det mest alvorlige finner vi i de store feilene. Andelen studenter som utsettes for store feil (to trinn, for eksempel fra en fortjent C til en A, eller fra C til E) og alvorlige feil (tre eller flere trinn) øker forholdsmessig svært mye.

Når to sensorer vurderer en oppgave, vil den enes ekstreme vurdering i stor grad nøytraliseres av den andre. Uten denne korreksjonsmekanismen overlates studentene i større grad til tilfeldighetene.

Hvordan kan vi øke konsistensen? Hvis økonomien tvinger frem enesensur, må vi kompensere ved å redusere støyen på andre måter.

Debatt ● Martin Hanssen

Er KI på hjemmeeksamen det egentlige problemet?

Her er tre veier å gå:

1. Flere og varierte vurderingsformer: Støy reduseres ved flere uavhengige målepunkter. I stedet for en essayoppgave som teller 100 prosent, bør karakteren baseres på flere ulike vurderinger gjennom semesteret. Enda bedre er det å kombinere ulike formater, for eksempel å supplere essayet med en flervalgstest eller andre vurderingsmetoder.

2. Kunstig intelligens som «sensor nummer to»: Som ekspertgruppen ledet av Anders Malthe-Sørenssen nylig har fremhevet, kan KI bli et viktig verktøy i vurderingsarbeidet. Et godt validert KI-verktøy vil nok aldri kunne erstatte det faglige skjønnet, men det kan fungere som et speil. En enkelt sensor kan bruke KI til å speile sin egen vurdering: «Maskinen mener dette er en E, jeg mener det er en B. Hvorfor er det slik?». Neste steg blir å evaluere argumentasjonen til KI modellen opp mot ens egen forståelse av besvarelsen.

3. Knallhard operasjonalisering av kriterier: Generiske, overordnede sensorveiledninger av typen «kandidaten viser god analytisk evne» hjelper antagelig ingenting på konsistensen. Kriteriene må brytes ned og operasjonaliseres, slik at rommet for subjektiv tolkning minimeres.

Debatt ● Aina Hay-Hansson og Daisy Michelle Princeton

KI som sparringpartner i sensur

Støy er bare en side av saken Det er verdt å nevne at denne simuleringen illustrerer farene ved tilfeldig støy. Det jeg ikke har berørt her, er bias — de systematiske skjevhetene som kan oppstå fordi sensorkorpset i sin helhet har blindsoner eller feiltolkninger knyttet til eksamen.

Sensur er, og vil alltid være, en øvelse i menneskelig skjønn med feilmarginer.

Men når vi velger å kutte den andre sensoren for å få budsjettene til å gå opp, fjerner vi samtidig et viktig sikkerhetsnett.

Debatt ● Anne Grete Sandaunet og Elin Anita Nilsen

Vi må ta tak i realitetene i lærings- og vurderingsformene i høyere utdanning

Om Khrono

Kontakt

Når vi sparer penger på sensur, betaler studentene prisen

Automatisert sensur er galskap

Medisinstudenter reagerer på bruk av KI i sensur

Er KI på hjemmeeksamen det egentlige problemet?

KI som sparringpartner i sensur

Vi må ta tak i realitetene i lærings- og vurderingsformene i høyere utdanning

Meld deg på Khronos nyhetsbrev

Hevder forskere tar regningen. Vil ha større del av kaka

Ti søkere per studieplass i Forsvaret

Halvering av israelske EU-prosjekt

Får kritikk for å få penger fra matvaregigant

Studenter skriver bevisst dårligere for å unngå KI-mistanke

Tre tiltak for en mer forsvarlig bruk av KI ved hjemmeeksamen

Hun Nølte ikke da studenten angrep med kniv: Hedret

Meld meg på nyhetsbrev

Når vi sparer penger på sensur, betaler studentene prisen

Automatisert sensur er galskap

Medisin­studenter reagerer på bruk av KI i sensur

Er KI på hjemmeeksamen det egentlige problemet?

KI som sparringpartner i sensur

Vi må ta tak i realitetene i lærings- og vurderings­formene i høyere utdanning

Meld deg på Khronos nyhetsbrev

Siste fra forsiden:

Hevder forskere tar regningen. Vil ha større del av kaka

Ti søkere per studieplass i Forsvaret

Halvering av israelske EU-prosjekt

Får kritikk for å få penger fra matvaregigant

Studenter skriver bevisst dårligere for å unngå KI-mistanke

Nylige artikler

Mest leste artikler

Tre tiltak for en mer forsvarlig bruk av KI ved hjemme­eksamen

Hun Nølte ikke da studenten angrep med kniv: Hedret

Medisinstudenter reagerer på bruk av KI i sensur

Vi må ta tak i realitetene i lærings- og vurderingsformene i høyere utdanning

Tre tiltak for en mer forsvarlig bruk av KI ved hjemmeeksamen