Debatt ● Martin Hanssen

Er KI på hjemmeeksamen det egentlige problemet?

Spørsmålet handler ikke først og fremst om hvorvidt studenter bruker KI — men om dagens vurderingsformer faktisk måler det vi ønsker at de skal måle.

Person i hvit skjorte ved murvegg.
Jeg har selv sittet og rettet eksamener denne vinteren, og det er ingen tvil om at KI brukes, skriver forfatteren. — Det jeg sitter igjen med, er en gnagende usikkerhet.
Publisert

Denne teksten er et debatt­inn­legg. Inn­holdet i teksten uttrykker forfatterens egen mening.

Denne høsten og vinteren har debatten om kunstig intelligens og eksamensformer blusset opp for fullt. Hjemmeeksamen har kommet under særlig press, og flere har tatt til orde for å gå bort fra denne eksamensformen og tilbake til mer «tradisjonelle» løsninger som skoleeksamen. 

Jeg frykter at dette kan være et svar på feil problem. Hva om spørsmålet ikke først og fremst handler om hvorvidt studenter bruker KI — men om dagens vurderingsformer faktisk måler det vi ønsker at de skal måle?

Debatten fremstår for meg som tydelig delt. 

På den ene siden står de som mener at KI er en naturlig del av den teknologiske utviklingen, og at studenter må få ta i bruk de verktøyene som finnes. På den andre siden står de som opplever KI-bruken som så problematisk at hjemmeeksamen ikke lenger kan fungere som et pålitelig vurderingsgrunnlag.

Begge sider har gode poenger. Likevel mener jeg at vi i stor grad diskuterer feil spørsmål.

Etter mitt syn ligger noe av grunnproblematikken i risikoen for at studenter kan bestå emner, og i noen tilfeller oppnå toppkarakter uten å ha opparbeidet reell forståelse av fagstoffet eller bidratt med egne refleksjoner og argumenter. Dette er ikke bare et spørsmål om KI-bruk, men og grunnleggende om hvordan eksamen er koblet til karakterfastsetting.

Jeg har selv sittet og rettet eksamener denne vinteren, og det er ingen tvil om at KI brukes. 

Det jeg sitter igjen med, er en gnagende usikkerhet: Har studenten faktisk forstått stoffet? Er dette deres eget arbeid, eller generisk tekst produsert av et verktøy? Er disse karakterene egentlig rettferdige i henhold til studentens bidrag og prestasjon, eller karakterfester jeg KI sin prestasjon?

Denne usikkerheten er krevende som fagperson. Samtidig er det viktig å erkjenne at dette ikke er et helt nytt problem. Hjemmeeksamen har lenge gitt studentene god tid — alt fra noen timer til flere dager — til å formulere gjennomarbeidede svar, bruke hjelpemidler og vise seg fra sin beste side.

Likevel er det en bismak ved karaktersettingen.

I veldig mange emner utgjør eksamen 100 prosent av sluttkarakteren. Det betyr at én enkelt prestasjon, enten det er hjemmeeksamen eller skoleeksamen, avgjør alt. Hva om studenten har en dårlig dag? Er syk eller sover dårlig på grunn av nerver? 

Kanskje de opplever utfordringer på hjemmebane, eller får fullstendig jernteppe den dagen. Da kan konsekvensene bli store, uavhengig av hvilket arbeid som er lagt ned gjennom semesteret.

Flere av disse opplevde jeg selv som student, og har irritert meg over følelsen av en ‘urettferdighet’ av måten karakteren festes. Først på masternivå opplevde jeg et annet system, med både semesteroppgave og eksamen, der flere vurderinger telte inn på sluttkarakteren. Det opplevdes rett og slett mer rettferdig.

Dette gjør at jeg stiller spørsmålet: Er det egentlig hjemmeeksamen som er hovedproblemet, eller er det måten vi vurderer og karakterfester prestasjoner på? 

Når løsningen på KI-utfordringen blir å gå tilbake til skoleeksamen, ender vi kanskje opp med et annet problem: én eksamen som teller 100 prosent. Det gjør vurderingen sårbar, både for tilfeldigheter og for individuelle forskjeller som ikke nødvendigvis har noe med faglig nivå å gjøre. 

Som Malthe-Sørenssen-utvalget allerede har foreslått, bør flere ulike vurderingsformer kombineres for å gi et mer rettferdig og helhetlig grunnlag for karakterfastsetting. 

Dette støtter jeg fullt ut, og mener det kan løse mye av problematikken.

I mange andre land brukes slike mer sammensatte vurderingsformer. Studentene får poeng eller karakterbidrag for deltakelse, arbeidskrav, oppgaver underveis, midtveiseksamen og avsluttende eksamen. Ja, det krever mer oppfølging, men, det gir også et jevnere og mer helhetlig bilde av studentens prestasjon.

Poenget mitt er ikke at KI-debatten er uviktig. Tvert imot. Men kanskje burde vi starte et annet sted. 

Hva om sluttkarakteren i større grad baserte seg på flere prestasjoner? Flere arbeidskrav som faktisk teller. Mer vekt på bidrag gjennom semesteret. Kanskje ha en midtveiseksamen og en avsluttende eksamen, begge mindre omfattende, men sammen mer representative?

Da får man flere datapunkter å vurdere ut fra. Flere situasjoner der studenten kan vise kompetanse. Og kanskje også mindre insentiv til å lene seg tungt på KI i én avgjørende vurderingssituasjon. 

Jeg forstår godt at dette innebærer økt ressursbruk. Som fagperson vet jeg hvor presset tiden allerede er. Likevel mener jeg at dette kan være et viktig skritt mot en mer rettferdig og faglig forsvarlig vurdering av studenters arbeid.

Kanskje bør vi derfor stille oss et mer grunnleggende spørsmål i KI-debatten, nemlig hvordan vi best mulig kan evaluere studentenes samlede prestasjon i et emne, på en måte som er både rettferdig, og faglig meningsfull.

Powered by Labrador CMS