Debatt gaute t. einevoll

Forskningsbaserte evalueringer

Fjorårets debatt viste at det har vært for lite fokus på å sikre vitenskaps­baserte evalueringsrutiner i Forskningsrådet de siste årene.

— Er det faktisk de søknadene som best oppfyller de fastsatte ønskede kriteriene som blir valgt ut, spør professor Gaute Einevoll om Forskningsrådets evalueringer av søknader.

Denne teksten er et debatt­inn­legg. Inn­holdet i teksten uttrykker forfatterens egen mening.

I etterkant av fjorårets debatt er Forskningsrådet i gang med å revurdere sine rutiner for søknadsevaluering. Det er både nødvendig og flott. Utgangspunktet for dette arbeidet må være at søknadsevaluering i seg selv er et forskningsfelt, og at valget av de nye rutinene skal være forskningsbasert.

Da bør følgende være på plass:

Første punkt må være at Forskningsrådet for hver utlysning må spesifisere målet for søknadsevalueringen, dvs. hva som skal vektlegges. Eksellens? Relevans? Tverrfaglighet? Grensesprengende forskning?

Og hvordan skal disse målene presist forstås? Og er målet kun å plukke ut den lille andelen av søknader som skal innvilges, eller er det også viktig å gi nyttig tilbakemelding til majoriteten av søkere som ikke når opp?

Når målet for evalueringen er bestemt, så er i grunn valg av metoder et vitenskapelig spørsmål. Søknadsvurdering og beslutningspsykologi er et velutviklet fagfelt hvor det er utdelt nobelpriser. Det er denne forskningen det må tas utgangspunkt i når evalueringsrutiner velges.

I prinsipp kunne Forskningsrådet «outsourcet» denne evalueringen til andre organisasjoner. Stiftelsen Dam er en slik organisasjon som i dag evaluerer søknader for penger til prosjekter og forskning for opp mot en halv milliard kroner i året.

I boka Bedre beslutninger som kom ut tidligere i år, forteller Jan-Ole Hesselberg, forfatter av boka og programsjef i Stiftelsen Dam, om hvordan de la om fra evalueringsrutiner med to evaluatorer.

Med denne rutinen viste analysene de gjorde at det hovedsakelig (79 prosent) var tilfeldigheter som bestemte om en søknad nådde opp eller ikke, ikke søknadens innhold. Forskning har for eksempel vist at uønskede faktorer som rekkefølgen en evaluator vurderer ulike søknader på og humøret til evaluatoren, kan spille inn på karaktergivingen.

Når det gjelder frykten for ensretting i fordeling av forskningsmidler, har Forskningsrådet argumentert for at de har ulike virkemidler, dvs. ulike typer utlysninger, som kan kompensere for dette.

Gaute Einevoll, professor i fysikk ved NMBU og Universitetet i Oslo

For å redusere effekten av slik uønsket «støy», som det kalles i beslutningsforskningen, la de om rutinene slik at hver søknad ble vurdert av fem uavhengige eksperter. Da middelverdien av deres karakterer ble brukt til rangering, så var det hovedsakelig søknadens innhold som bestemte dens skjebne (kun 23 prosent var nå bestemt av tilfeldigheter).

Et viktig element i den nye rutinen var uavhengighet i karaktersettingen av de fem evaluatorene. For som godt dokumentert i beslutningsforskningen, er det mange utfordringer knyttet til å ta beslutninger i grupper. At gruppen kommer til enighet om en beslutning, betyr ikke i seg selv at den er velfundert og nøyaktig.

Som beskrevet i Bedre beslutninger, viste et forskningsprosjekt, hvor ulike paneler ble satt til å vurdere samme sett av søknader, at enigheten innad i et panel som ventet økte etter et panelmøte.

Man skulle da kanskje forvente at også enigheten mellom sluttvurderingene til de ulike panelene som var satt til å vurdere samme søknadssett, gikk opp etter panelmøtene. Men slik var det ikke. Unøyaktigheten, målt som spriket i resultatet fra fellesvurderingene fra de ulike panelene, gikk faktisk i stedet litt opp etter diskusjonene i panelmøtene.

Mange kjente såkalte «tankefeller» kan bidra til slik uønsket gruppedynamikk, for eksempel, frykt for å si hva man mener til andre paneldeltagere, ønske om å oppnå konsensus, eller at hver enkelt paneldeltager legger mindre innsats i jobben når flere sitter med beslutningsansvaret.

I Forskningsrådets nåværende rutiner har to panelmedlemmer et hovedansvar ved vurdering og fremlegging av søknader for diskusjon i resten av panelet. Sikrer dette at det ikke hovedsakelig er tilfeldigheter som er viktigste faktor som bestemmer om en søknad når opp eller ikke? Neppe, men som hos Stiftelsen Dam kan svaret på dette regnes ut med basis i de uavhengige karakterene satt av hvert enkelt panelmedlem.

Videre bør Forskningsrådet revurdere rutinene for klagebehandling. Nå er det slik at medlemmer fra panelet som er felt i Forskningsrådets klageutvalg blir med i komiteen som vurderer søknaden på nytt. Dette er problematisk ikke bare ut fra gruppedynamikken, men også i forhold til «bekreftelsesfellen», hvor man, gjerne uten å vite om det, er forankret i tidligere oppfatninger.

Ved klagebehandling i NAV eller ved nye vurderinger av eksamenskarakterer ved universitetene tar vi det nå som en selvfølge at det brukes nye uavhengige eksperter i klagebehandling.

Fritt tilgjengelig beskrivelse av begrunnelse for valg evalueringsrutiner. Når evalueringsprosedyrer er bestemt, kan ikke som nå kun konklusjonene for valg av rutiner presenteres og offentliggjøres. Som i vitenskapelige studier, må også begrunnelsene for dem gis. Dette er nødvendig for at valgene som er gjort skal få legitimitet hos forskerne.

Stiftelsen Dam har her gått foran med et godt eksempel med rapporten Bedre søknadsbehandling hvor de beskriver og begrunner sine rutiner. I boken forteller forfatteren at Stiftelsen Dam har en kultur som er avgjørende for å ta bedre beslutninger: Selvgransking holdes høyt.

En slik kultur må også Forskningsrådet tilstrebe. Er det faktisk de søknadene som best oppfyller de fastsatte ønskede kriteriene som blir valgt ut? For å svare på dette holder det ikke kun å vurdere om søknadene som har blitt innvilget er støtteverdige (som Porteføljestyrene i dag delvis gjør), også søknadene som ikke nådde opp må vurderes.

Rettferdig evaluering av forskningssøknader er en vanskelig øvelse, og regelmessige vurderinger av i hvilken grad de valgte evalueringsrutinene gir resultater i samsvar med målene som er satt, må gjennomføres.

Er det, for eksempel, slik at søknader hvor metoder fra matematikk og fysikk brukes til å forske på biologiske systemer har vesentlig større sjanser for tilslag i dagens Frinatek-paneler enn i Frimedbiopaneler? Dette er mitt inntrykk, og her burde Forskningsrådet kunne hatt forskningsbaserte svar med utgangspunkt i de siste års innsendte søknader.

Når det gjelder frykten for ensretting i fordeling av forskningsmidler, har Forskningsrådet argumentert for at de har ulike virkemidler, dvs. ulike typer utlysninger, som kan kompensere for dette. Men da må det også brukes ulike evaluatorer til søknadsvurdering for de ulike søknadstypene. Det ble ikke gjort ved evaluering av Forskerprosjekt og Store, tverrfaglige prosjekt i 2021.

I det hele tatt viste vel fjorårets debatt at det syntes å ha vært for lite fokus på å sikre vitenskapsbaserte evalueringsrutiner i Forskningsrådet de siste årene, til tross for at søknadsevaluering er Forskningsrådets kanskje viktigste aktivitet.

Forskningsrådet har etter hvert fått mange oppgaver, og det er et ledelses- og styreansvar å sørge for en kultur hvor søknadsevaluering gis nok oppmerksomhet. Kanskje et bidrag kan være å arrangere kurs i beslutningspsykologi for Forskningsrådets ansatte og dele ut boka Bedre beslutninger som en julegave på forskudd?

Les også: Flere debatter på Khronos meningsside

Powered by Labrador CMS