KI

Slik sensurerte han 50 eksamener ved hjelp av kunstig intelligens

Høyskolelektor Karl Philip Lund brukte et kvarter på hver av student­oppgavene på 30-60 sider.

Karl Philip Lund på talerstolen
Karl Philip Lund mener kvaliteten på sensuren ble bedre da han fikk hjelp av kunstig intelligens .
Publisert Oppdatert

Andre sensorer antydet på forhånd at de brukte mellom 30 og 60 minutter på hver oppgave. Ved å bruke kunstig intelligens (KI) anslår Karl Philip Lund at han i snitt brukte 15 minutter på hver eksamensbesvarelsene.

Til sammen sensurerte han rundt 50 besvarelser i digital markedsføring i vår. Han understreker at motivasjonen ikke først og fremst var å spare tid.

— Det var mer av nysgjerrighet. Jeg har brukt mye tid på å finne en riktig måte å bruke KI på, så alt i alt er jeg usikker på om jeg har spart så mange timer i denne runden. Men neste gang vil nok tidsbruken gå ned, sier han til Khrono.

VG skrev om Lunds utradisjonelle sensorarbeid først.

Lund er førstelektor ved Høyskolen Kristiania der han underviser i digital markedsføring.

Under arbeidet med sensuren merket han seg at de dårlige oppgavene tok kortere tid, mens han brukte mer tid på de gode besvarelsene. Og han mener selv at sensorjobben ble utført bedre enn den ellers ville blitt.

— Jeg vil faktisk hevde at bruken av AI i vurderingsprosessen har økt kvaliteten og ført til en mer rettferdig vurdering for studentene, skriver han i bloggen sin.

— Veldig artig

Reaksjonene etter at han fortalte offentlig om hvordan han hadde sensurert eksamensbesvarelsene, har vært blandete, men mest positive, oppsummerer han.

Fra en ansatt i eksamensavdelingen ved høgskolen fikk han følgende kommentar: «Veldig artig at dere er i fronten på denne utviklingen, som kommer for fullt!»

En annen kollega kommenterte at han ikke stilte seg bak det å bruke slike verktøy, «men som sensor står du uansett uavhengig ...»

Professor Arne Krokan ved NTNU, la ut denne kommentaren på sin LinkedIn-side:

«Denne måtte vel komme: - og da er det like greit at det kommer fra en jeg kjenner som en klok kollega. Karl Philip Lund og jeg har i ti år samarbeidet om et kurs på Høyskolen Kristiania og jeg kjenner KP som en reflektert og innovativ kollega. Det han har gjort her er nok første trinn på veien mot helt andre måter å bedrive vurdering på sektoren.»

Prorektor Morten Irgens ved Høyskolen Kristiania sier i en kommentar til VG at han stiller seg positiv til bruk av AI til sensurering, dersom den brukes riktig.

– Min oppfordring er at alle blir med og bruker AI, samtidig som vi må være bevisst på dens begrensninger og utfordringer, sier han.

Karl Philip Lund selv sier at han forstår at det han har gjort kan være kontroversielt.

— Det er jo litt skummelt, men det ga absolutt mersmak, sier han.

— Det er om å gjøre å finne en god måte å bruke slike verktøy på, og da må man tørre å teste litt. Vi har sett det tidligere også at folk er skeptiske til ny teknologi i starten, før det blir en del av hverdagen. I ettertid kan det av og til virke litt komisk, som da det ble protestert mot bruk av kalkulator i skolen. Men det er bra at folk er kritiske, sier han.

Fant riktig verktøy

I bloggen sin redegjør han detaljert for hvordan han gikk fram da han skulle ta i bruk kunstig intelligens under sensuren.

Han brukte først mye tid på å finne riktig verktøy, og landet til slutt på Humata, en ChatGPT for dokumenter. Den er utviklet av en tidligere Stanford-student og brukes ifølge Lund av utdanningsinstitusjoner over hele verden.

Før han startet selve sensorjobben, fikk han tilsendt en oppgave som flere sensorer uavhengig av hverandre hadde vurdert til karakteren A. Denne analyserte han for å identifisere relevante kvalitetssignaler. Satt på spissen tenkte han at han kunne gi A til alle oppgaver som lignet på denne oppgaven.

Etter å ha definert grunnleggende kvalitetssignaler og vurdert helheten av dokumentene, chattet han grundig med KI-verktøyet for å få det til å lage gode oppsummeringer av oppgavene. 

Tok grundig feil

Han håpet først at riktig KI-verktøy skulle gjøre hele jobben og ville foreslå en karakter etter å ha fått et spørsmål av typen «basert på vurderingskriteriene og oppgavesettet, hvilken karakter bør jeg gi oppgaven?». Der tok han grundig feil.

Chat-dialogen med verktøyet ble omfattende, og Lund kom fram til en mal for i alt sju oppsummeringer for de ulike delene av besvarelsene.

Til sist gjorde han en manuell vurdering av en begrenset del av teksten. Da handlet det om å vurdere den generelle flyten i språket til studenten.

Lund mener sensuren ved hjelp av kunstig intelligens er forsvarlig når de gjøres på rett måte.

— Vi var flere sensorer som gikk gjennom de samme oppgavene, og jeg ser at mitt avvik fra andre bedømmelser ikke var noe større enn for de andre sensorene.

Powered by Labrador CMS