Selv om det åpenbart finnes feil og svakheter i det eksisterende systemet, følger det ikke at vi bør revolusjonere alt uten henblikk på de praktiske utfordringene en slik revolusjon skaper, skriver innleggsforfatterne. Foto: Tor H. Monsen.

Er én felles, lav terskel godt nok for kvaliteten i forskningen?

Publisering. Én felles, lav list for forskningskvalitet kan svekke tilliten til forskningen, ikke styrke den, skriver fire forskere.

Publisert

OBS! Denne artikkelen er mer enn tre år gammel, og kan inneholde utdatert informasjon.

John-Arne Røttingens innlegg om at «forskning bør vurderes ut fra innhold og kvalitet og ikke hvor det er publisert» har en tittel som klinger godt og angir noen fine idealer. Men forskningssektoren trenger mer enn vakre slagord.

Røttingen mener at en slik felles list, uten kvalitetshierarkier, vil styrke befolkningens tillit til forskning. Dette er et besynderlig argument.

Fire forskere

Bakteppet er debatten om DORA, om hvordan vi i praksis evaluerer forskning, og om tidsskrifter og hierarkier av disse har viktige funksjoner i forskningssystemet. Røttingen ser ut til å mene at vi kan klare oss godt uten tidsskriftshierarkiene slik vi kjenner dem i dag, men sier lite konkret om hvordan løse praktiske problemer knyttet til evaluering av forskning uten dagens system — spørsmål fremmet blant annet i Bård Harstads nylige kronikk.

Hvis Røttingens innlegg var ment som et svar på Harstads bønn om praktisk hjelp, så var det ikke spesielt nyttig. Vi trenger et fokus på hva man bør gjøre, ikke mer om hva som ikke er ideelt å gjøre.

Slik Thomas Hegghammer påpeker i en kronikk i Aftenposten, vil subjektive og skjønnsmessige vurderinger etter alt å dømme få en langt større plass i et nytt DORA-basert system, uten at det er klart hvordan man skal sikre mot negative slagsider ved subjektive og skjønnsmessige vurderinger.

Parallelt er det beklagelig at fagfellevurderingens rolle i å bidra til forskningskvalitet, og tidsskriftenes funksjon i å sile arbeider etter kvalitet og gi informasjonssignal i en verden der tusenvis av arbeider produseres hvert år, fullstendig underkommuniseres.

Så, hvordan vil Forskningsrådet konkretisere arbeidet med DORA-implementering, her med tanke på rollen som vitenskapelige publikasjoner og vurdering av disse nødvendigvis må spille? Er et system som sikrer at forskning er «god nok» virkelig alt som skal fremmes? Eller skal Forskningsrådet også forholde seg til det av forskningen som er vesentlig bedre eller endog fremragende?

Om informasjon om publiseringskanal skal oversees, hvordan ta høyde for at fageksperter er et knapt gode, og at ikke alle tidsskrift (eller evalueringskomiteer) kan ha de beste og mest relevante ekspertene? Og sist, men ikke minst, hvordan vil Røttingen og Forskningsrådet aktivt motvirke uønskede utilsiktede konsekvenser av økt vekt på subjektive vurderinger, som det er grunn til at bl.a. vil ramme kvinner og menn ulikt?

Disse spørsmålene er langt fra kun polemiske virkemidler – det er spørsmål som representerer reell bekymring om hvordan evaluering under et idealisert DORA rammeverk skal foregå i praksis, både i Forskningsrådet og andre organer som har skrevet under den omstridte erklæringen. La oss utdype:

I fjor skrev noen av oss en redegjørelse for mulige konsekvenser av Plan S for publisering, forskningskvalitet og forskningsmiljøer. Forskningskvalitet – og rollen publisering i de mest anerkjente tidsskriftene på et gitt felt har for forskningskvalitet – var den gang, som nå, en viktig grunn til at vi valgte å engasjere oss i debatten. Vi så potensielt store utilsiktede konsekvenser blant annet fordi vi ikke så at kvalitetssikring – og den iboende kvalitetshevingen som vitenskapelig publisering bidrar til – var tilstrekkelig anerkjent og vektlagt.

Hvordan skal man motvirke åpenbare problemer med at subjektive skjønnsbaserte vurderinger får langt mer plass i den nye virkeligheten som skisseres? De mest ivrige DORA tilhengerne har lagt «Journal Impact Factors» for hat, og bruker mye tid på å lete etter eksempler på alt som er feil i dagens forskningssystem.

Når argumentene går utover anekdoter (f.eks. på feil i topptidsskrifter), vises det til utvalgte korrelasjonsstudier som peker på konkrete problemer med studier publisert i gode tidsskrifter, som så tas til inntekt for at tidsskriftshierarkiet, og med dette også hele fagfellevurderingssystemet, ikke fungerer.

Metodologiske svakheter ved slike studier, som ikke-representative utvalg og manglende håndtering av seleksjonsproblemer, og manglende grunnlag for generalisering og konklusjon om systemet som helhet, hindrer her ikke at det trekkes dramatiske konklusjoner om at «forskning viser» at dagens forskningssystem er i krise.

Konstruktive forslag til hvordan bygge et bedre system i praksis er langt sjeldnere. Det er lett å finne feil og kritisere. Det er vanskeligere å være konstruktiv. Selv om det åpenbart finnes feil og svakheter i det eksisterende systemet, følger det ikke at vi bør revolusjonere alt uten henblikk på de praktiske utfordringene en slik revolusjon skaper.

Forskningsrådet signerte for en tid siden DORA, men vi har fortsatt lite informasjon om hvilke implikasjoner dette har for evalueringer i regi av Forskingsrådet, helt konkret. Hvordan implementerer Forskningsrådet DORA i praksis? Hvilke instruksjoner får fageksperter med tanke på vurderingene de gjør av søknader?

Torkel Brekke ved Civita, for eksempel, mener at vurdering bare kan skje ved å lese arbeidene selv. Skal fageksepertene virkelig lese alle arbeidene i alle søkernes publikasjonslister? (Det tåler neppe Forskningsrådets budsjetter). Og hvordan sikrer Forskningsrådet at det er de fremste ekspertene som evaluerer søknadene innenfor det gitte forskningsfeltet? (Forskningsrådets temapaneler er ofte så brede at de vanskelig vil kunne ha den nødvendige spesifikke ekspertisen for enhver søknad).

Forskningsrådet bør finansiere den best mulige forskningen – det regner vi med at alle er enige om — men hvordan sikres dette konkret i praksis, i et system der tidsskriftshierarkiet slik vi kjenner det idag ikke lenger kan være ett av mange ulike elementer i slike evalueringsprosesser?

Ett konkret løsningsforslag som er kommet fra DORA-forkjempere, deriblant fra prorektor i Tromsø, Kenneth Ruud, er at man også legger ved fagfellevurderinger (for hver eneste artikkel) i alle søknader.

En utfordring oppstår når det er kvalitetsforskjeller mellom tidsskrift: Når man sender arbeidene sine til de svakeste tidsskriftene vil man ofte få relativt få kritiske kommentarer, mens den samme forskningsartikkelen som regel vil få hard kritikk i de ledende tidsskriftene på feltet, hvor de fremste internasjonale ekspertene fagfellevurderer.

Etter to-tre-fire runder med slik vurderinger og påfølgende revideringer av forskningsartikkelen, er også sluttproduktet, rent vitenskapelig, som regel også av vesentlig høyere kvalitet. Hvordan kan vi da sammenligne evalueringer fra ulike tidsskrift?

Dette handler om hvor man legger listen for hva «god nok» – veldig god – eller fremragende – forskning er og skal være, og at ulike tidsskrift i dag i de fleste fag i noen grad også speiler et slikt kvalitetshierarki. Det er ikke urimelig å anta at også en evalueringskomité i et DORA-basert regime kan komme til å skjele til hvilket tidsskrift en kandidat har publisert i, når antallet fagfellevurderinger og substansen i dem spriker mellom de ulike enkeltartikler man ser på, men da er vi jo tilbake til start.

Røttingens metafor om at forsknings-Norges ambisjoner bør rettes mot høydehopp – ikke lengdehopp – og at alle skal over en minimumslist i høyde, høres bekvemmelig ut. Her følger kvalitetssikringen et binært prinsipp, hvor all forskning som ikke er «feil» skal telles som «god nok forskning».

Vi tolker Røttingen dithen at han mener at all forskning skal fylle minimumskrav til metodisk etterrettelighet, kjennskap til tidligere forskning, og etterlevelse av forskningsetiske standarder – det er lett å være enig i, selvsagt, ellers er det jo ikke forskning. Imidlertid er det stor forskjell på forskning som tilfredsstiller minimumskrav og den fremragende forskningen.

Røttingen mener at en slik (formodentlig lav) felles list, uten kvalitetshierarkier, vil styrke befolkningens tillit til forskning. Dette er et besynderlig argument: Siden folk selv ikke kan evaluere all forskning egenhendig — og det er liten grunn til å tro at middelmådig forskning forsvinner de neste femti til hundre årene — trenger konsumentene av forskning noen signaler å navigere etter.

I dag gir tidsskriftene disse signalene, på samme måte som New York Times eller Reuters er kvalitetsstempler i journalistikken, og det er selvsagt ikke slik at alle nyhetsmedier som ikke er direkte «fake news» er like bra – eller gode nok for den saks skyld. Vi tror idéen om at vi kun trenger én felles, lav list for forskningskvalitet kan komme til å svekke tilliten til forskningen, ikke styrke den.

En streng lesning av DORA tilsier at man bør forkaste enhver vurdering av forskning som bygger på hvor forskningen er publisert. Et enda strengere alternativ kan være å forkaste enhver bruk av kvantitative mål både på tidsskriftnivå og artikkelnivå, og at evalueringskomitéer leser og vurderer alle arbeider «med friske øyne». Dette høres jo rettferdig og fint ut, men betyr at subjektive vurderinger får relativt fritt spillerom. Er det ønskelig?

I bedømmelsessituasjoner er det vanlig at kandidatene ikke er anonymiserte og at medlemmene i ulik utstrekning har spisskompetanse på hver søkers fagfelt. Løsningen som gjerne benyttes i evalueringssituasjoner er derfor å kombinere flere ulike typer informasjon, både objektive mål og skjønn, inkludert informasjon om publiseringskanaler. I tillegg vil man gjøre en grundigere vurdering ved å lese arbeidene til de mest aktuelle kandidatene.

Vi tror det er svært sjelden man kun ser på publiseringskanal. Bare for å gjøre det helt klart: Det er ingen av oss som mener at man kun skal telle antall artikler og se på impact factor for å finne den beste søkeren. Vi kjenner heller ingen andre som mener dette. En slik posisjon, tror vi, er kun en stråmann i debatten om DORA. Det reelle spørsmålet er om vi skal bruke informasjon fra publiseringskanal i tillegg til annen informasjon i evalueringer. Dette tror vi er nødvendig i praksis.

Det må selvsagt også gå an å si at visse arbeider publisert i topptidsskrifter ikke er så gode likevel. Ingen vi kjenner hevder at publiseringskanal er et perfekt mål på kvalitet, uten målefeil. Men, det er verdt å være oppmerksom på hvilke målefeil som gjøres når vi går vekk fra å se på publiseringskanal og over på å gi subjektive vurderinger relativt fritt spillerom. Da kan det kanskje være lettere å nedvurdere arbeider som ligger litt på siden av eget fagfelt, der det er faglige uenigheter, personlige interesser eller man ønsker å løfte frem søkere man liker bedre.

Det er imidlertid vanskelig å avvise en kandidat på et slikt grunnlag dersom vedkommende har flere publikasjoner i gode tidsskrifter, og tidsskriftenes gjennomgående kvalitet brukes som indikator. På den måten kan tidsskrifthierarkiet motvirke f.eks. akademisk nepotisme. Vi tror målefeil som skyldes bruk av publiseringskanal som informasjonssignal antakelig er mindre alvorlige, jevnt over, enn de mange skjevhetene og målefeilene som vi risikerer at kan komme fra rene skjønnsbaserte vurderinger i brede komitéer.

Et eksempel er hvordan slik skjønnsmessig vurdering kan slå skjevt ut etter kjønn. Ulike studier antyder at både menn og kvinner undervurderer kvaliteten i kvinners arbeid, mens de også overvurderer kvaliteten i menns arbeid. Publikasjoner i gode tidsskrifter (som har blind fagfellevurdering) gjør at komitéer er nødt til å vurdere et tydelig signal på arbeidets kvalitet, som ikke påvirkes av komitémedlemmers mulige implisitte bias.

Det er dermed grunn til å stille spørsmål om hvilken effekt DORA vil få på likestilling i akademia, og hvordan negative – og utilsiktede – konsekvenser skal motvirkes. Det er på tide å diskutere konkrete tiltak som sikrer en så effektiv pålitelig og rettferdig evaluering som mulig av fremtidens forskning. Vi tror tidsskriftene bør spille en sentral rolle også i fortsettelsen i dette systemet.

Velkommen til vårt kommentarfelt
Logg inn med en Google-konto, eller ved å opprette en Commento-konto gjennom å trykke på Login under. (Det kan være behov for å oppdatere siden når man logger inn første gang)

Vi modererer debatten i etterkant og alle innlegg må signeres med fullt navn. Se Khronos debattregler her. God debatt!
Powered by Labrador CMS