Debatt ● Jan-Ole Hesselberg
Likebehandling av søknader er ikke valgfritt og bør måles
Forskningsrådet sier at de «har gode prosedyrer for å fange opp og korrigere feiloppfatninger og fordommer». Men hvordan vet de at tiltakene faktisk fungerer?

Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
Khrono skrev nylig om en analyse jeg og medforskere står bak, publisert i Stiftelsen Dams rapport «Bedre søknadsbehandling». Rapporten har fått internasjonal oppmerksomhet og ble nylig trukket frem av kompetansemiljøet Research on Research Institute (RoRI) som et eksempel på hvordan forskningsfinansiører bør jobbe med å forbedre prosessene sine.
I rapporten viser vi at tilfeldigheter og skjevheter påvirker hvem som får forskningsstøtte, og at vi derfor mener målinger av likebehandling bør være en sentral nøkkelindikator for god søknadsbehandling.
Til min overraskelse virker Norges forskningsråd å være uenig i dette. Jeg vil gjerne presisere noen poenger og utfordrer Forskningsrådet til å svare.
Når ulike eksperter vurderer den samme søknaden, er det ofte stor variasjon i resultatene. Det gjør utfallet mindre avhengig av kvaliteten på søknaden og mer avhengig av hvem som tilfeldigvis vurderer den. Artikkelen til Khrono retter fokuset mot Forskningsrådet, men tilfeldigheter og skjevheter er ikke et særskilt problem for dem. Tvert imot. Vi finner den samme utfordringen i all søknadsbehandling, både i Norge og internasjonalt.
Det betyr ikke at all uenighet er negativ. En viss variasjon kan være både sunt og nødvendig. Men når uenigheten blir for stor, får man et problem helt uavhengig av hva som er årsaken til den. I praksis vil resultatet bli at to identiske søknader med for stor sannsynlighet vil få ulike svar.
Forvaltningsloven er tydelig: Like saker skal behandles likt. Likebehandling er ikke en luksus, men en lovpålagt forpliktelse. I vurderingsforskning bruker vi begrepet «reliabilitet» om dette. Et mål på reliabilitet er «intraclass correlation coefficient» (ICC). Litt forenklet sier målet noe om hvor stor andel av variasjonen i søknadenes karakterer som forklares av søknaden og ikke av andre faktorer.
Det er vanlig å definere «god reliabilitet» som en ICC på over 0,75. I våre analyser av 75.184 vurderinger i Forskningsrådet mellom 2013—2023 viser det seg at dette tallet er 0,50. Altså forklarer kvaliteten på søknadene 50 prosent av variasjonen i søknadenes karakterer og 50 prosent forklares av andre ting, som for eksempel hvem som vurderer søknaden.
Forskningsrådet sier at de «har gode prosedyrer for å fange opp og korrigere feiloppfatninger og fordommer». Men hvordan vet de at tiltakene faktisk fungerer?
Siden antakelser om virkningen av tiltakene ikke alltid er til å stole på, bør en sentral del av et godt evalueringsarbeid være å forsøke å måle både graden av likebehandling (reliabilitet) og systematiske skjevheter (bias) i prosessene, der det er mulig.
Jeg har vanskelig for å se noen bedre måte å måle likebehandling i søknadsbehandling på enn nettopp ICC. Analysen er faglig anerkjent, er relativt enkel å gjennomføre og den gir et svar som er mulig å forstå for utenforstående.
Som finansiør bør man etterstrebe å vite mest mulig om egne prosesser og hvilke utslag de kan få.
Som finansiør bør man etterstrebe å vite mest mulig om egne prosesser og hvilke utslag de kan få. Det kan berede grunnen for tiltak som kan gjøre beslutningsprosessene bedre. Derfor er det overraskende at Forskningsrådet har så lite interesse for denne typen kartlegging.
For ordens skyld, vi i Stiftelsen Dam er ikke bedre.
Vi får nøyaktig samme ICC-verdi som Forskningsrådet i en tilsvarende analyse. Forskjellen mellom oss og Forskningsrådet er at vi oppfatter dette som et stort problem og forsøker å gjøre noe med det, mens Forskningsrådet virker å være tilfreds med tingenes tilstand.
En vanlig innvendig er at ICCen er beregnet på uavhengige, individuelle ekspertvurderingene. Ja, vi vet at eksperter blir mer enige når de møtes og diskuterer, men forskning viser at denne enigheten ofte handler om gruppepsykologiske mekanismer som konformitetspress, autoritetseffekter og forankring — ikke nødvendigvis om at vurderingen blir mer treffsikker (se rapportens del 3.4 Vurderinger i gruppe).
Med andre ord: høy enighet etter en panelsamtale kan gi en falsk trygghet og problemet med manglende likebehandling kan faktisk bli større. For å få et nøyaktig bilde av graden av likebehandling, måtte man ha sendt et sett med søknader gjennom samme prosess flere ganger, men det er både dyrt og ofte praktisk umulig.
Derfor gir de uavhengige vurderingene, før ekspertene møtes og påvirkes av hverandre, det beste anslaget på hvor god likebehandlingen er.
En forklaring som Forskningsrådet gir på de lave ICC-verdiene, er at det er naturlig at en bred portefølje, slik Forskningsrådet har, gir lavere ICC enn for eksempel hva Kreftforeningen får. Det stemmer ikke. Det kan bidra til det, men i et program med tematisk like søknader kan det også bli vanskelig å skille mellom dem. Da vil resultatet bli en lavere ICC.
Langt viktigere for ICCen enn tematisk variasjon er variasjonen i kvaliteten på søknadene. Hvis den er høy, blir det enklere for ekspertene å skille mellom dem og ICCen går opp.
Hva som er årsaken til at det er så ulik grad av likebehandling i disse programmene, vet jeg ikke, men det burde interessere Forskningsrådet.
ICC-verdiene jeg har beregnet for Forskningsrådets egne programmer viser heller ikke at brede programmer gir lavere ICC enn de som er snevrere. Brede programmer, som FRIPRO og FORSKER, har ICCer på 0,50 og 0,52. Til sammenligning har vesentlig snevrere programmer som NANO2021 og KULMEDIA henholdsvis 0,29 og 0,09. Det er kritisk lave verdier.
Hva som er årsaken til at det er så ulik grad av likebehandling i disse programmene, vet jeg ikke, men det burde interessere Forskningsrådet. Mulige årsaker kan være hvem som er hentet inn som eksperter, kvaliteten på opplæringen av ekspertene, hvordan de jobber eller variasjonen i kvaliteten på søknadene.
Dessuten, selv om det skulle være gode årsaker til den lave reliabiliteten, så er det uansett et problem. Like søknader ender med å bli behandlet ulikt.
Det er ikke slik at likebehandling (høy reliabilitet) er en målsetting i seg selv. Det er fullt mulig å ha høy reliabilitet, men likevel gjøre lite treffsikre vurderinger (lav validitet).
La meg bruke et enkelt bilde: Badevekten. Hvis du går på vekten tre ganger og får samme resultat hver gang, er den reliabel. Men den kan fortsatt vise feil vekt. Den kan vise at du veier 85 kilo når du egentlig veier 80. Da er reliabiliteten høy, men validiteten lav.
Selv om høy reliabilitet ikke i seg selv er en målsetting, så er måling av reliabilitet likevel essensielt. Du kan nemlig ikke ha lav reliabilitet og samtidig ta gode beslutninger (ha høy validitet). Hvis vekten viser 83, 92 og 79 kilo etter tur, er den verken reliabel eller valid. Den kan aldri være presis uten å være konsistent.
Slik er det også med vurderinger av forskningssøknader. Vi kan ikke ha gode vurderinger uten at vurderingene først og fremst er noenlunde konsistente.
For utenforstående hadde det derfor vært nyttig med et svar fra Forskningsrådet på følgende to spørsmål:
Mener Forskningsrådet at likebehandling bør forventes i deres søknadsbehandling?
Hvis svaret er ja: Hvordan undersøker Forskningsrådet at det faktisk oppnås?
Likebehandling er til syvende og sist en utopi. Når mennesker gjør vurderinger vil det alltid være uønsket variasjon. Men likebehandling må likevel være horisonten vi beveger oss mot og for å vite hvilken retning vi beveger oss, må vi måle.
I Norge deler vi ut milliarder av skattekroner og livsviktige rettigheter gjennom søknadsordninger. Forskningsmidler gjennom Forskningsrådet, helsehjelp gjennom helseforetakene, start up-midler gjennom Innovasjon Norge og asylrettigheter gjennom Utlendingsdirektoratet, er bare noen av de utvalgte. Graden av likebehandling i disse institusjonene burde være en selvsagt nøkkelindikator.