kunstig intelligens

Forskere misbrukt til KI-trening. — Det er så drøyt!

Meta har piratkopiert vitenskapelige artikler til å trene opp egne språkmodeller.  Flere forskere reagerer. 

Anne Sverdrup-Thygeson mener at akademikerne i hvert fall må engasjere seg. — Jeg har ikke engang hørt om dette som en sak i akademia, mens forfatterorganisasjonene har skrevet en hel del om det, sier hun om piratkopiering og KI-trening.
Publisert

Forfattere med bokutgivelser som er blitt brukt i trening av kunstig intelligens kan få erstatning, ettersom bøkene er piratkopiert inn i en database. Et nylig inngått forlik åpner for dette.

Et søk viser at mange vitenskapelige artikler også ligger i basen med piratkopiert stoff brukt til trening av kunstig intelligens (KI).

— Jeg syns dette er provoserende på flere nivåer, sier biologiprofessor Anne Sverdrup-Thygeson ved Norges miljø- og biovitenskapelige universitet i Ås.

— Jeg ikke har gitt tillatelse til det. Det er jo også et åndsverk, selv om det er en vitenskapelig artikkel. Jeg har ikke godkjent at den skal brukes til trening av KI, sier hun.

Milliard-forlik

Tidligere i år vant amerikanske forfatterorganisasjoner fram, og fikk til et forlik der Anthropic gikk med på å betale 1,5 milliarder dollar i kompensasjon for ulovlig bruk av bøker til trening av kunstig intelligens. 

Selskapet står bak språkmodellen Claude, og i treningen ble det brukt millioner av piratkopierte bøker fra blant annet nettsteder som Library Genesis til å trene KI-modellene, skriver Norsk faglitterær forfatter- og oversetterforening på sine nettsider.

Også norske forfattere kan være omfattet av forliket, som kan gi dem 30.000 kroner i kompensasjon. Men et søk i databasen viser at det ikke bare er bøker som er blitt piratkopiert.

— Bruk av opphavsrettslig beskyttet materiale til trening av kunstig intelligens innebærer i praksis en eksemplarfremstilling som krever opphavers samtykke eller et annen rettslig grunnlag, sier Torger Kielland, jussprofessor ved Universitetet i Bergen og leder av Forskerforbundets opphavsrettsutvalg.

Tilgang på lovlig vis

Portrett av Torger Kielland
Torger Kielland er professor ved Det juridiske fakultet, Universitetet i Bergen

— Det finnes regelverk, både i USA og i Europa, som til en viss grad tillater at materialet brukes til trening av kommersielle språkmodeller. Men en helt grunnleggende forutsetning er da at en har fått tilgang til materialet på lovlig vis, og det har man ikke her. Dette er en database bestående av piratkopiert mteriale.

Hos avisen The Atlantic kan hvem som helst søke i LibGen, databasen med piratkopier som Meta har brukt til å trene opp sin språkmodell. 

Databasen inneholder ifølge avisen millioner av bøker og vitenskapelige artikler, blant annet fra kjente norske akademikere som Anne Sverdrup-Thygeson og Dag O. Hessen. 

Her kan du sjekke ut Khronos KI-skole.

Ønsker kompensasjon

Dag O. Hessen ved skrivepul
Dag O. Hessen, professor ved Universitetet i Oslo, mener han i det minste burde blitt spurt først.

— Jeg synes det er greit at de er blitt brukt, men det hadde vært naturlig å få en forespørsel om godkjenning først. Det er uansett god kotyme å be om lov, sier Hessen, professor ved Universitetet i Oslo.

Han mener akademikere bør ha rett til kompensasjon på linje med forfattere.

Kvinne foran skifervegg.
Ishita Barua mener bruken av vitenskapelige artikler i ytterste konsekvens kan svekke motivasjonen for forskningsformidling.

— Dette er jo bruk av åndsverk uten tillatelse. Det er kommersielle aktører som tar seg til rette uten å spørre eller betale. Det skulle vært en ordning slik som Kopinor-avtalen norske forlag har der vi får vederlag for videre bruk. 

Lengre sør, ved Universitetet i Agder, mener førsteamanuensis og KI-ekspert Ishita Barua at det verste med bruken av vitenskapelige tekster til språkmodell-trening er at det vanner ut hele krediteringssystemet.

— Vi forskere bygger opp en kompetanse over mange år, og så kommer språkmodellene og stjeler og kopierer stilen vår. Når systemene der foreløpig ikke har noen måte å kreditere oss på, blir dette en pulverisering av kunnskapsformidling som er problematisk.

Hun mener en ikke skal undervurdere viktigheten av sitering og kreditering for enkeltforskere. Anerkjennelsen er en viktig drivkraft for mange forskere, og hvis den forsvinner gjennom språmodeller uten synlige kilder, kan det på sikt svekke motivasjonen for forskningsformidling, sier hun.

— For å sette det litt på spissen: Hvorfor bruke tid og krefter på å skrive klart og godt, hvis resultatet uansett havner i en treningsdatabase og omformes til en anonym masse?

Barua mener at et annet viktig poeng er at særpreget i formidlingen vil forsvinne.

— Dette er noe man har brukt mye tid på, og mange forskere har utviklet sin personlige stil og språk. En av de egenskapene jeg liker best ved meg selv som forsker er evnen til å reflektere, formulere og skrive klart. Skal dette håndverket nå reduseres til råmateriale for maskiner, mister vi potensielt mangfoldet i hvordan forskning formidles.

Mener det er forlagene som må gå til sak

— Treningen på slikt materiale, uten tillatelse eller annet rettslig grunnlag, er et inngrep i opphavsretten, sier jussprofessor Kielland.

Å slå fast at det som er gjort er lovstridig, er en ting. Å faktisk få noe ut av de som har misbrukt artiklene til KI-trening er et lengre lerret å bleke.

— Søksmålet mot Anthropic var et gruppesøksmål, der amerikanske forfatterforeninger gikk til søksmål på vegne av verdens forfattere. Skal en få til noe tilsvarende for akademikere, er det nok lettest om initiativet kommer fra amerikanske organisasjoner eller parter.

Samtidig er det stor forskjell på avtaler inngått med norske og utenlandske forlag, noe som igjen har ført til diskusjoner om utformingen av kompensasjonsordningene, sier Kielland.

— Avtaler med utenlandske forlag innebærer en nærmest total overdragelse av alle rettigheter. Da er det ikke sikkert det vil dryppe mange kroner på de som har skrevet artiklene. Derfor jobbes det med å lage kompensasjonsordninger hvor man ikke kan fraskrive seg retten til kompensasjon gjennom avtaler med forlagene.

Sverdrup-Thygeson mener på sin side at akademikerne i hvert fall må engasjere seg.

— Jeg har ikke engang hørt om dette som en sak i akademia, mens forfatterorganisasjonene har skrevet en hel del om det. 

Peker på utviklingen hos tidsskriftene

UiO-professor Hessen mener dette føyer seg inn i diskusjonen om hvordan systemet rundt de vitenskapelige tidsskriftene er blitt.

— Det er blitt pervertert. Vi skriver artiklene, gjør gratisarbeid, gir fra oss rettighetene og betaler for å få tilgang til artiklene. Og så skal det i tillegg være forlagene som sitter igjen med kompensasjonen for dette, sier han.

Også Sverdrup-Thygeson mener hele systemet med vitenskapelige artikler og publisering er ganske ute å kjøre.

Hun mener vi trenger en større diskusjon og debatt om hvordan hele publiseringsriggen for vitenskapelige artikler bør være, og at dette er en anledning som bør trigge denne diskusjonen.

— Det er så drøyt. Forlagene måker inn fordeler og fortjenester, og så passer de ikke en gang på artiklene våre. Det er håpløst slik det er nå.

Powered by Labrador CMS