Debatt ● Aina Hay-Hansson og Daisy Michelle Princeton

KI som sparringpartner i sensur

Da Malthe-Sørenssen-utvalget nylig publiserte sine anbefalinger, åpnet de for KI som vurderingsstøtte. Våre erfaringer sier noe om hva som skal til for at dette skal kunne lykkes.

Delt bilde med to kvinner i innendørs portretter
Nøkkelen til en god KI-støtte ikke kun ligger i teknologien, men vel så mye, om ikke mer, i hvordan fagmiljøene formulerer sine vurderingskriterier, skriver forfatterne.
Publisert

Denne teksten er et debatt­inn­legg. Inn­holdet i teksten uttrykker forfatterens egen mening.

I diskusjonen om kunstig intelligens i høyere utdanning har det vært et tyngdepunkt rundt to spørsmål: Hvordan avdekke juks og KI-generert innhold, og hvilke eksamensformer som er mest motstandsdyktige. Disse debattene er viktige, men vi savner et tredje perspektiv — nettopp det Malthe-Sørenssen-utvalget nylig åpnet for: KI som produktiv ressurs i vurderingsarbeidet — ikke som trussel eller juks, men som sparringpartner i sensur.

For å utforske dette perspektivet, har vi i en erfaringsoppsamling brukt NotebookLM — en lukket KI-modell — som sparringpartner ved sensur av bacheloroppgaver i vernepleie og sykepleie. 

Og vår erfaring er at nøkkelen til en god KI-støtte ikke kun ligger i teknologien, men vel så mye, om ikke mer, i hvordan fagmiljøene formulerer sine vurderingskriterier.

I sykepleie, der mange vurderingspunkter er relativt klart definert, fungerte NotebookLM overraskende godt med standardiserte sensorveiledere. Den kunne identifisere faglige styrker og svakheter på måter som samsvarte med menneskelige sensorers vurderinger.

I vernepleie var bildet annerledes. Her medfører krav om gjennomgående refleksjon og spesialisert fagterminologi at vurderingsgrunnlaget må være svært presist. Med generelle sensorveiledere her var KI-støtten ofte upresis, misvisende, eller direkte feil. 

Forskjellen skyldtes ikke teknologien, men hvordan vurderingskriteriene var formulert.

Vendepunktet kom da vi laget langt mer detaljerte sensorveiledere for vernepleie, supplert med konkrete vurderingsbeskrivelser av hva som utgjør en mindre god, god eller svært god besvarelse på ulike deler av oppgaven.

Med disse tydelige rammene endret KI-ens bidrag seg markant. NotebookLM kunne peke på manglende koblinger mellom teori og praksis, identifisere uforløste analyser og fremheve passasjer som viste refleksjon. Den genererte vurderingstekster som ga et godt utgangspunkt for sensorens videre arbeid. 

Interessant nok førte vurderingsdialoger med KI-en ofte til nyttige diskusjoner. Siden den var strengt instruert om å følge sensorveilederen, kunne den komme med vurderinger som avvek fra den menneskelige sensorens førsteinntrykk — noe som kunne utløse verifisering av faglige tolkninger og nyttige kollegiale avklaringer.

Viktigst av alt: KI-en ble ikke smartere, men rammene vi ga den ble tydeligere.

En lærerik erfaring kom da en menneskelig sensor oppdaget et alvorlig etisk og juridisk brudd i en besvarelse som KI-en hadde oversett. Grunnen? De etiske og juridiske føringene var ikke tydelig nok integrert i sensorveiledningen.

For fag der vurderingene krever dypere faglig skjønn, må vurderingsgrunnlaget være svært detaljert og nyansert for at KI-støtten skal bli nyttig.

Hay-Hansson og Princeton

Da vi senere presiserte disse kravene i dialogen med NotebookLM, endret KI-vurderingen seg fullstendig. Dette viser noe viktig: KI reflekterer det fagmiljøet har gjort eksplisitt og presist. Den håndhever det vi har gjort tydelig, og overser — eller enda verre; til og med normaliserer — det vi har latt stå uavklart.

Våre erfaringer reiser spørsmål som bør utforskes videre:

1) Hvor detaljerte må sensorveiledere være for at KI skal kunne støtte vurdering av faglig refleksjon og kritisk tenkning? 

2) Hvordan påvirker oppgavens kompleksitet og omfang KI-ens evne til å se sammenhenger?

3) Hvilken type «feeding» av vurderingsgrunnlag gir best støtte til sensorens skjønnsutøvelse?

For oss har det blitt klart at for fag der vurderingene krever dypere faglig skjønn, må vurderingsgrunnlaget være svært detaljert og nyansert for at KI-støtten skal bli nyttig.

Diskusjonen om KI i utdanningen bør ikke bare handle om forsvar mot misbruk, men også om aktiv og reflektert bruk som styrker kvaliteten i sensur. 

Malthe-Sørenssen-utvalget legger vekt på at fagmiljøene må utvikle egen KI-kompetanse. Våre erfaringer viser at dette handler vel så mye, og kanskje også mer, om å klargjøre våre egne vurderingskriterier som om å mestre teknologi.

KI har ingen egen faglig autoritet Det er fagmiljøet som gir KI-en denne autoriteten, gjennom hvordan vi formulerer styringsprompts, sensorveiledere og vurderingskriterier. Dette er et ansvar som ikke kan omgås eller delegeres bort — det må tas i fagmiljøene selv.

Når vi som fagmiljø tar ansvar for å skape tydelige og presise vurderingsrammer, kan KI bli en verdifull sparringpartner. Ikke som erstatning for faglig skjønn, men som et verktøy som kan støtte oss i å utøve dette på en mer konsistent og gjennomtenkt måte — og kanskje til og med gjøre oss mer bevisste på våre egne implisitte vurderingskriterier.

Powered by Labrador CMS