kunstig intelligens

Norsk forskning: ChatGPT svarte godt, og ble ikke avslørt i 4 av 10 tilfeller

Nå etterlyser forskerne bak studien et nasjonalt lovverk for bruk av kunstig intelligens og samtaleroboter i akademisk sammenheng.

Forskerduoen Geir Inge Hausvik (til venstre) og Peter André Busch var snare med å sette i gang et prosjekt om ChatGPT etter at samtalroboten ble lansert mot slutten av fjoråret. Nå har de fått svar på mye av det de lurte på.
Publisert Oppdatert

— Vi står overfor en viktig diskusjon når det gjelder hva som skal være lov og hva som ikke skal være lov.

Det sier førsteamanuensis ved Institutt for informasjonssystemer ved Universitetet i Agder, Peter André Busch til Khrono.

Sammen med forskerkollega og førsteamanuensis Geir Inge Hausvik, har Busch gjennomført en studie ved Universitetet i Agder (UiA), der hovedformålet har vært å finne ut hvor godt ChatGPT kan svare på eksamensspørsmål.

Eksamensspørsmålet de brukte i studien, er et spørsmål som normalt krever kognitive evner på høyt nivå for å svare på, informerer forskerduoen overfor Khrono.

Ga bare én instruks

Ved studiens oppstart ba de to forskerne 15 kollegaer om å vurdere totalt ti besvarelser på et spørsmål fra en eksamen som hadde blitt arrangert ved UiA i 2022. Fem av besvarelsene var skrevet av studenter, mens fem var skrevet av ChatGPT.

Det er ingen tvil om at svarene til ChatGPT kan være vanskelige å avsløre for en sensor.

Peter André Busch, Universitetet i Agder

Den eneste instruksen Busch og Hausvik ga samtaleroboten, var at den måtte gi eksempler i førsteperson, slik at de som skulle bedømme besvarelsene ikke kunne skille mellom roboten og de ekte studentene ved bare å se om svarene var skrevet i første-, andre- eller tredjeperson.

— Utover det ga vi ingen spesielle instrukser annet enn å stille det samme spørsmålet som de ekte studentene fikk, understreker Busch.

Peter André Busch har allerede rukket å levere fra seg en forskningsstudie om ChatGPT.

Da de 15 kollegaene hadde vurdert og karaktersatt alle besvarelsene, var det tid for å telle opp. Besvarelsene som ChatGPT genererte fikk C i karaktersnitt. En av besvarelsene ble bedømt til B+, mens en annet fikk D. Det totale karaktersnittet var nøyaktig det samme ved studentbesvarelsene.

— Det vi dermed kan slå fast er at ChatGPT kan levere svar av god kvalitet, som fint kan passere som studentskrevet tekst hos en sensor, sier Busch, og bringer oss med det videre til neste funn i studien, nemlig at 15 sensorene bare avslørte 60 prosent av ChatGPTs genererte tekster.

Med andre ord gikk 40 prosent av besvarelsene gjennom uten å bli oppdaget.

— Det som var litt merkverdig, var at noen av sensorene som tok feil faktisk var ganske overbeviste om at de hadde vurdert riktig. Det er også verdt å nevne at sensorene som hadde mer undervisningserfaring, hadde flere riktige vurderinger enn de som hadde mindre erfaring, forteller Busch.

Studien til Busch og Hausvik er i skrivende stund inne til fagfellevurdering, og de to forskerne håper at den vil bli publisert i løpet av sommeren.

Får henvendelser

Det er ikke bare i høyere utdanning det merkes at kunstig intelligens er på full fart framover.

— Vi har også merket et økt trykk av henvendelser fra videregående skoler som ønsker mer informasjon om teknologien, og ikke minst hjelp til hvordan man skal unngå fusk, sier Geir Inge Hausvik.

Geir Inge Hausvik .

De fleste av de 15 sensorene som deltok i studien, mente at flyten i teksten til ChatGPT var god, at den fremsto logisk og at den inneholdt gode eksempler. Til tross for dette hevdet noen at ChatGPT hadde store utfordringer med å gi dybde til besvarelsene. De fleste mente også at samtalerobotens besvarelser tidvis kunne fremstå som glatte og overfladiske.

— Det er likevel ingen tvil om at svarene til ChatGPT kan være vanskelige å avsløre for en sensor, særlig dersom studenten gir mer avanserte instrukser og for eksempel bearbeider teksten i etterkant, før innlevering, sier Busch.

— Det er enkelt å bruke ChatGPT til akademisk juks. For de som ønsker å gjøre dette, finnes det mange muligheter. Man kan blande inn sine egne ord, man kan legge til referanser, fortsetter forskeren.

— Tipser du studentene om hvordan de skal jukse nå?

— Dette vet de fleste som ønsker å jukse godt om selv. Spørsmålet er hvordan akademia skal møte utfordringene, svarer Busch, som tror at kunstig intelligens og samtaleroboter betyr døden for eksamener uten tilsyn.

Med mindre det kommer noen verktøy som vi foreløpig ikke vet om, vil det etter hvert bli vanskelig og kanskje umulig å avholde hjemmeeksamener, mener han.

— Ja, det vil jeg påstå. Når det gjelder ChatGPT kan det nok hende at det finnes bedre muligheter til å hindre juks. Akkurat nå, vel å merke. Teknologien utvikler seg fort, poengterer Busch.

«Forventet kunnskap»

Han peker på et enda et interessant funn i studien, som handler om «forventet kunnskap», altså kunnskap som ikke var er nevnt eksplisitt i et eksamensspørsmål, men som sensorene må kunne forvente at studentene innehar.

— I praksis betyr dette at studentene selv må vurdere at noe som ikke er nevnt i spørsmålet, likevel hører med i besvarelsen. Dette klarte ikke ChatGPT å få med i sitt svar, forteller Busch.

Sammen med Hausvik anbefaler han at de som lager eksamensoppgaver til eksamener uten tilsyn, bør formulere spørsmål som har forventninger til et bestemt innhold uten å uttrykke det. Å referere spesifikt til kursplanen i eksamensspørsmålet, vil også være et godt motmiddel.

Busch mener at universitets- og høgskolesektoren allerede har kommet litt bakpå når det gjelder å møte utfordringene som kunstig intelligens medfører.

— Man ble nok tatt litt på senga nå. Det har lenge vært en hype rundt kunstig intelligens, men jeg tror nok at mange nå er imponert over hvor langt det faktisk har kommet, sier Busch.

— Det er dessverre betydelige muligheter for studenter som ønsker å jukse. Dette er noe som bør forskes intensivt på i tiden som kommer, sier Busch.

Forskerduoen ved UiA etterlyser også et nasjonalt lovverk som kan se nærmere på bruken av kunstig intelligens og samtaleroboter i akademisk sammenheng.

— Et nasjonalt regelverk bør gjelde for både universitet- og høgskolesektoren, og for den videregående utdanningen, kommer det fra Hausvik.

— Ellers så vil det selvsagt også være viktig å undersøke hvordan vi kan bruke dette verktøyet til noe positivt, sier Busch.

Digitaliseringsdebatt

Forrige uke arrangerte Universitetet i Stavanger (UiS) og Khrono til debatt om den lynraske teknologiske utviklingen.

Er norske utdanningsinstitusjoner og nordmenn generelt er for naive i møte med digitaliseringen? var et sentralt spørsmål.

Leder for Institutt for data- og teknologi ved UiS Tom Ryen, dro blant annet frem at ChatGPTs inntog har ført til at vi nå har gått opp et trappetrinn.

— Vi møter noen utfordringer, men de er vi nødt til å takle. Vi må tenke om vi kan bruke dette til noe fornuftig. Vi er nødt til å tenke på hva vi bruker den til, sa Ryen.

Professor i nordisk litteratur ved Universitetet i Bergen, Eirik Vassenden, mente at den digitale utviklingen vi opplever nå, kan være en trussel.

— Det raske spranget fra teknologier som har blitt perfeksjonert over 500 år til teknologier som er noen få år eller måneder gamle, er absolutt en trussel, sa litteraturprofessoren under debatten i Stavanger.

Powered by Labrador CMS