Debatt ● Magnus Nordmo

Når vi sparer penger på sensur, betaler studentene prisen

Å kutte fra to til én sensor per oppgave virker som et enkelt sparetiltak for universitetene, men det har en høy kostnad for kvaliteten på vurderingen.

Portrett av mann i blå skjorte
Hvis økonomien tvinger frem enesensur, må vi kompensere ved å redusere støyen på andre måter, skriver forfatteren.
Publisert

Denne teksten er et debatt­inn­legg. Inn­holdet i teksten uttrykker forfatterens egen mening.

Sensur er en av de vanskeligste, men mest sentrale oppgavene vi har i universitets- og høyskolesektoren. Spesielt krevende er vurderingen av frie essays og større tekster, hvor det er vanskelig å sette en objektiv og rettferdig karakter.

Dette er i stor grad et skjult problem. Spesielt usynlig blir det når man sensurerer alene. Som enkeltstående sensor ser man kun sin egen vurdering, og den fremstår som oftest logisk for en selv. 

Hadde vi derimot hatt hundre uavhengige sensorer til å vurdere den samme besvarelsen, ville vi raskt sett den sanne — og ofte skremmende lave — konsistensen i vurderingene våre.

Forskning essayvurdering viser at konsistensen (reliabiliteten) spriker fra fag til fag og eksamen til eksamen. Tar man et gjennomsnitt av forskningen på vanlig essayvurdering hvor sensor ikke får spesiell instruksjon eller verktøy, får man anslagsvis reliabilitet på 0,5. 

I praksis betyr dette at vurderingen består av like deler «sann kompetanse» og ren støy. Det blir som om man er midt mellom perfekt overensstemmelse og et scenario hvor hver sensor triller terning om karakteren.

Nå ser vi en trend der mange institusjoner sparer penger ved å gå over fra dobbelt- til enesensur. Det er et økonomisk forståelig valg, men det gjenstår et spørsmål om dette er forsvarlig praksis.

Siden vi har gode anslag på reliabiliteten i essayvurderinger, kan vi bruke enkle statistiske simuleringer for å vise hva som skjer når vi fjerner den ene sensoren.

I simuleringen tar jeg utgangspunkt i at studentene har en sann prestasjon på eksamen. Denne er målt på en kontinuerlig normalfordelt skala, som så kan fordeler seg på A-F-skalaen til slutt. Hver sensor vil forsøke å treffe den sanne prestasjon, men påvirkes av tilfeldig støy (feilvurderinger). Når to sensorer er uenige, antar jeg at de møtes nøyaktig på midten. 

Feilene jeg simulerer er utelukkende et resultat av lav konsistens mellom sensorer, og ikke systematiske feil (bias) der for eksempel alle sensorer har misforstått en regel i sensorveiledningen.

Resultatet av simuleringen er slående — og urovekkende.

Tre fargede stolpediagrammer som viser prosentandeler for to ulike valgalternativer.
Figuren viser en sensorsimulering med en reliabilitet på 0.5. Når man går fra to til én sensor, øker andelen studenter som får to eller tre+ karaktertrinn feil kraftig.

 

Som figuren viser, går volumet av de minste feilene (ett karaktertrinn) opp med bare én sensor. Men det mest alvorlige finner vi i de store feilene. Andelen studenter som utsettes for store feil (to trinn, for eksempel fra en fortjent C til en A, eller fra C til E) og alvorlige feil (tre eller flere trinn) øker forholdsmessig svært mye.

Når to sensorer vurderer en oppgave, vil den enes ekstreme vurdering i stor grad nøytraliseres av den andre. Uten denne korreksjonsmekanismen overlates studentene i større grad til tilfeldighetene.

Hvordan kan vi øke konsistensen? Hvis økonomien tvinger frem enesensur, må vi kompensere ved å redusere støyen på andre måter. 

Her er tre veier å gå:

1. Flere og varierte vurderingsformer: Støy reduseres ved flere uavhengige målepunkter. I stedet for en essayoppgave som teller 100 prosent, bør karakteren baseres på flere ulike vurderinger gjennom semesteret. Enda bedre er det å kombinere ulike formater, for eksempel å supplere essayet med en flervalgstest eller andre vurderingsmetoder.

2. Kunstig intelligens som «sensor nummer to»: Som ekspertgruppen ledet av Anders Malthe-Sørenssen nylig har fremhevet, kan KI bli et viktig verktøy i vurderingsarbeidet. Et godt validert KI-verktøy vil nok aldri kunne erstatte det faglige skjønnet, men det kan fungere som et speil. En enkelt sensor kan bruke KI til å speile sin egen vurdering: «Maskinen mener dette er en E, jeg mener det er en B. Hvorfor er det slik?». Neste steg blir å evaluere argumentasjonen til KI modellen opp mot ens egen forståelse av besvarelsen.

3. Knallhard operasjonalisering av kriterier: Generiske, overordnede sensorveiledninger av typen «kandidaten viser god analytisk evne» hjelper antagelig ingenting på konsistensen. Kriteriene må brytes ned og operasjonaliseres, slik at rommet for subjektiv tolkning minimeres.

Støy er bare en side av saken Det er verdt å nevne at denne simuleringen illustrerer farene ved tilfeldig støy. Det jeg ikke har berørt her, er bias — de systematiske skjevhetene som kan oppstå fordi sensorkorpset i sin helhet har blindsoner eller feiltolkninger knyttet til eksamen.

Sensur er, og vil alltid være, en øvelse i menneskelig skjønn med feilmarginer. 

Men når vi velger å kutte den andre sensoren for å få budsjettene til å gå opp, fjerner vi samtidig et viktig sikkerhetsnett.

Powered by Labrador CMS