Debatt torbjørn skardhamar og torkild h. lyngstad

Kritikken mot Microdata.no treffer svært godt

Microdata.no har flere fundamentale begrensninger, noe som har vært påpekt allerede fra starten av prosjektet for ti år siden, skriver Torbjørn Skardhamar og Torkild H. Lyngstad.

Selv om beregningene i Microdata.no er basert på algoritmer i Python, er brukerens programmeringsspråk hjemmelaget. Et slikt programmeringsspråk er en stor investering i seg selv. Microdata.no har derfor bare helt rudimentær funksjonalitet etter 10 års utvikling, skriver innleggsforfatterne.
Publisert Oppdatert

OBS! Denne artikkelen er mer enn tre år gammel, og kan inneholde utdatert informasjon.

Denne teksten er et debatt­inn­legg. Inn­holdet i teksten uttrykker forfatterens egen mening.

Microdata.no, en tjeneste for registerdataanalyser som leveres av Norsk senter for forskningsdata (NSD) og Statistisk sentralbyrå (SSB), har vært gjenstand for debatt den senere tid. Både Universitets- og høgskolerådet (UHR) og Forskningsinstituttenes fellesarena (FFA) har rettet kritikk mot tjenesten. I et dialogmøte med brukere var kritikken skarp og bred, nærmest unison.

Tjenesten har også sine forsvarere. I et innlegg i Khrono skriver Ballo, Elstad, Bernstrøm og Nørgaard (heretter BEBN) at kritikken mot microdata.no bommer. De finner tvert imot tjenesten svært nyttig som et supplement til annen forskning med registerdata, og har fordeler sammenlignet med utlånsordningen.

(les videre under AnnonseN)

Bli varslet om debatt og nyheter
Last ned Khrono-appen og få varsel om de viktigste debattinnleggene og de viktigste nyhetssakene.
-

Vi slutter oss til kritikerne, og mener at kritikken treffer svært godt. Microdata.no har vært og vil forbli et ineffektivt pengesluk for registerdatabruk. La oss forklare hvorfor.

Microdata.no har flere fundamentale begrensninger, noe som har vært påpekt allerede fra starten av prosjektet for ti år siden. De to viktigste er det hjemmesnekrede programmeringsspråket og at man må programmere i blinde.


Selv om beregningene i Microdata.no er basert på algoritmer i Python, er brukerens programmeringsspråk hjemmelaget. Et slikt programmeringsspråk er en stor investering i seg selv. Microdata.no har derfor bare helt rudimentær funksjonalitet etter 10 års utvikling. Den begrensede funksjonaliteten gjør at man ikke kan gjøre databehandling utover de aller enkleste operasjoner eller bruke spesialiserte analyseverktøy. Språket ligner Stata i syntaks, men i årene som har gått har derimot Stata-dominansen blitt utfordret. Ytterligere endringer kan forventes i fremtiden. Å basere seg på en hjemmesnekret løsning er verken kostnadseffektivt eller langsiktig.

Den andre begrensningen er at man er nødt til å programmere i blinde, uten å kunne se på dataene. For å programmere i blinde må man ha en svært god forståelse av datastrukturene og være en dyktig programmerer i det aktuelle språket. Man må altså være såpass god at man kan være helt sikker på at man aldri gjør feil. Enhver som har feilsøkt i kode vet at dette blir svært vanskelig.

Microdata.no leverer ikke i dag på nivå med ordinære statistikkpakker, og vi kan være helt sikre på at det ikke vil holde tritt med utviklingen. Her vil det altså være et kontinuerlig utviklingsbehov. Løftene om fortsatt drift, utvidelser og økt funksjonalitet er derfor også løfter om store kostnader.

Microdata.no var ment å være en forskningsinfrastruktur. Et av suksesskriteriene for tjenesten må da være at registerdatabrukere heller vil benytte seg av den fremfor den eksisterende utlånsordningen. BEBN viser til at det har blitt publisert forskningsartikler med bruk av microdata.no. Det er selvsagt riktig, og det skulle da bare mangle! Men vi er ikke imponert over volumet fra en tjeneste til den prisen – og som første brukbare versjon skulle stått ferdig i 2017.

Vi har skummet gjennom noen av arbeidene i publikasjonslista oppgitt på microdata.no. Dette ser ut til å være helt greie analyser. Man kommer likevel ikke utenom at de empiriske analysene tross alt er av det enklere slaget. Forskningsmiljøene som er storbrukere av registerdata ligger i forskningsfronten i sine felt, men ingen av dem vil bruke microdata.no. Universitetene i Oslo og Bergen har eksempelvis sagt nei til abonnement på tjenesten. Det er riktig at noen få bruker systemet, men tjenesten har svært begrenset verdi for de fleste brukere av registerdata.

BEBN trekker frem pris og tilgjengelighet som noen av fordelene med microdata.no. Det er helt klart at utlån av registerdata til forskning har lenge vært preget av å være tidkrevende, omstendelig, og ikke minst svært dyrt. Men microdata.no har også kostet mye penger. Ifølge Khrono har Forskningsrådets program for forskningsinfrastruktur bevilget bortimot 90 millioner kroner. I slike tilfeller må man tenke på alternativkostnadene.

I dag kunne vi i stedet for et system som ikke kan brukes hatt enten en enklere og mer effektiv utlånsordning, en fjernaksessløsning, eller begge deler. For å ta et svært forenklet eksempel: Anta at et stort forskningsprosjekt i gjennomsnitt bruker 300.000 kroner på å få tilrettelagt registerdata. 300 slike store prosjekter ville få sine behov fullfinansiert av bevilgningen fra Forskningsrådet. Eksempelet er sjablongaktig, men illustrerer de enorme kostnadene ved utvikling av microdata.no.

Systemet vil medføre store kostnader også i fremtiden, gjennom oppdateringer og vedlikehold. Disse kostnadene vil konkurrere med andre investeringer. SSB forteller at de jobber med en fjernaksessløsning tilsvarende det de andre nordiske landene har hatt lenge. Avdelingsdirektør Torstein Bye har opplyst at SSB hadde fått avslag på søknader om støtte i flere omganger. Det er nærliggende å tro at nettopp ressursbruken på microdata.no har vært til hinder for å etablere en langt mer effektiv forskningsinfrastruktur for registerdata.

BEBN gjør et poeng ut av all forskning med microdata.no er 100% etterprøvbar. Det skulle bare mangle at forskningsresultater etter etterprøvbare. Vi er enige i at det er utfordringer med replikasjoner og etterprøvbarhet av analyser basert på registerdata utlånt fra SSB, men ikke i at microdata.no løser disse problemene.

Replikasjonsmulighetene for utlånte registerdata kan løses med langt enklere midler, til en langt lavere pris. Det som trengs er at utlånte data arkiveres hos SSB og at de kan lånes ut igjen for replikasjon. Hvert datasett må da få ett unikt ID-nummer som det kan vises til i publikasjoner, og SSB må bare ha noen rutiner for et slikt arkivsystem og ellers håndtere tilganger på vanlig måte. Reproduserbar kode kan lagres hos tidsskrifter, dataarkiver, eller hos SSB sammen med dataene. Et slikt system burde være lett å lage, koster ikke 90 millioner, og burde vært på plass for lenge siden.

Brukere av microdata.no bør likevel ikke heise Open science-flagget høyt. Systemet er lukket, en svart boks hvor man ikke kan se om prosedyrene brukt faktisk gir det tilsiktede resultat. Brukeren kan heller ikke være sikker på om funksjonene i microdata.no gjør akkurat det samme som profesjonelle statistikkpakker. Det er følgelig umulig å egentlig replikere analyser gjort i microdata.no utenfor systemet, og omvendt.

UHR/FFA skriver i sitt opprinnelige brev at «Løsningen er best egnet for masterstudenter og forskere som av ulike grunner ikke har tilgang til finansiering av data». Det stemmer nok at det har blitt skrevet masteroppgaver basert på microdata.no. Men er egentlig tjenesten et godt tilbud til studenter?

Våre studenter bør tilegne seg ferdigheter i databehandling og analyse og bruk av relevant teknologi som er anvendelig også utenfor en enkelt tjeneste som microdata.no. Hvis masterstudenter skal bruke tjenesten betyr det at vi må innrette vår metodeundervisning etter en bestemt dataleverandør og undervise i microdata.nos hjemmesnekrede programmeringsspråk, med arbeidsmåter som avviker vesentlig fra hvordan man ville jobbet empirisk i resten av verden. Det ville utvilsomt redusere yrkesrelevansen av studiene.

Ingen utdanningsinstitusjon med rimelige ambisjoner for sine studenter bør legge opp til at studentene skal investere sin tid i å lære et hjemmesnekret programmeringsspråk med begrenset funksjonalitet og en arbeidsform med lav overføringsverdi.

Brukere av microdata.no bør likevel ikke heise Open science-flagget høyt. Systemet er lukket, en svart boks hvor man ikke kan se om prosedyrene brukt faktisk gir det tilsiktede resultat.

Torbjørn Skardhamar og Torkild H. Lyshaug, professorer i sosiologi ved Universitetet i Oslo

Vi vil også påpeke at det stadig skrives studentarbeider med registerdata som det ikke ville vært mulig å gjennomføre med microdata.no.

Det opprettes nå heldigvis et strategisk forum mellom SSB, NSD, UHR og FFA. Det er viktig at det nå satses på registerdata for forskning med langsiktig perspektiv på riktig måte. Microdata.no kan i høyden være en liten brikke i det puslespillet. Vi mener imidlertid at ressursene heller bør brukes på andre tiltak som vil være atskillig mer effektive.

Powered by Labrador CMS