Ajankohtaista/27.2.2023

Tekoälyn koulutusaineisto ja tekijänoikeus: vaikeuttaako EU:n hajanainen tekijänoikeusjärjestelmä tekoälyhankkeita Euroopassa?

Samuli Simojoki

 ja 

Jemina Bonsdorff

Kerroimme aiemmassa blogikirjoituksessamme tekoälysovelluksiin liittyvistä oikeustapauksista Yhdysvalloissa ja Englannissa. On ilmeistä, että lähiaikoina samankaltaisia oikeustapauksia tullaan näkemään EU-maissa. Milloin tekijänoikeudella suojatun aineiston käyttöön tekoälyn koulutusaineistona tarvitaan tekijänoikeudenhaltijoiden lupa? Vastaus: kukaan ei tiedä.

Kysymys on tekoälyä kehittäville organisaatioille hyvin konkreettinen. Internetissä ja muutoin käyttäjille on laillisesti saatavilla valtava määrä aineistoa, jota epäilemättä jo tällä hetkellä käytetään laajasti tekoälyn koulutusaineistona. Lupien kerääminen tällaisten hajautettujen aineistojen käyttöön ei tietenkään ole realistista. Esimerkiksi kaikkien tuntema Chat GPT on hyödyntänyt internetin kautta saatavissa olevaa materiaalia koulutuksessaan.

EU:ssa on pyritty harmonisoimaan jäsenmaiden tekijänoikeusjärjestelmiä, joskus paremmalla, joskus huonommalla menestyksellä. Tekijänoikeuden soveltamiseen tekoäly-ympäristössä liittyy EU:ssa niin isoja epäselvyyksiä, että pelkäämme toimialalle sekaannusta ja oikeudellista epävarmuutta. Odotettavissa on, että eri jäsenvaltioiden tekijänoikeusjärjestelmät hakevat erilaisia linjauksia ja tuomioistuimet tulevat päätymään erilaisiin tulkintoihin tekijänoikeuden poikkeusten soveltumisesta koulutusaineistokäyttöön. Tämä olisi myrkkyä tekoälyinvestoinneille Euroopassa.

Miksi tekijänoikeus ja tekoäly kohtaavat?

Miksi koulutusaineiston käyttö on ylipäänsä tekijänoikeudellinen kysymys? Siksi, että tekoälyn kouluttaminen väistämättä edellyttää kopioiden tekemistä koulutusaineiston sisältämistä teoskappaleista – kun tekoälyn kouluttamisessa tekoälysovellus lukee ja analysoi koulutusaineistoa, teknisessä prosessissa väistämättä tapahtuu teoskappaleiden valmistamista.

Myös lyhytaikaiset, tilapäiset teoskappaleet, millä keinolla ja missä muodossa tahansa valmistetut, ovat tekijänoikeuden haltijan yksinoikeuden piirissä. Tekijänoikeus sisältää kuitenkin lukuisia poikkeuksia tekijänoikeuden haltijan yksinoikeuteen. Ydinkysymys kuuluukin, soveltuuko joku näistä poikkeuksista. Jos poikkeukset eivät sovellu, aineiston käyttö tekoälyn koulutukseen edellyttäisi tekijänoikeuden haltijan lupaa.

Yhdysvalloissa tarkastellaan tällä hetkellä kattaako fair use -doktriini tekoälyn kouluttamisen edellyttämät tilapäiset kopiot. Unionin oikeus ja Suomen tekijänoikeuslaki (404/1961) eivät pidä sisällään Yhdysvaltain tapaan yleistä fair use -doktriinia. Sen sijaan EU:ssa tekijänoikeutta rajoitetaan laissa nimenomaan mainittujen poikkeussäännösten nojalla.

Koulutusaineistoa koskevaan tekijänoikeuskeskusteluun liittyy mielenkiintoisia tekijänoikeuden peruskysymyksiä: tekijänoikeus on ilmaisun suojaa eikä tekijänoikeus anna suojaa teoksen sisältämälle informaatiolle tai tekijän tyylille. Voidaan esittää, että tekoälyn koulutuksessa tavoitteena ei ole valmistaa teoksesta kopioita, vaan ainoastaan irrottaa teoksen sisältämää informaatiota siitä oppimiseksi.

Vastaavalla tavalla myös ihmisten luovuus kumpuaa aiemmasta tekijänoikeudellisesta materiaalista oppimisesta. Kirjan lukeminen, taideteoksen katselu tai musiikin kuuntelu eivät ole tekijän yksinoikeuden piirissä. Jos teknisen toimenpiteen ainoa tarkoitus on irrottaa teoksen sisältyvää informaatiota eikä millään tavalla hyödyntää itse tekijänoikeuden kohdetta eli ilmaisumuotoa, tuntuisi perustellulta, että tekijänoikeus ei tällaista käyttöä rajoittaisi.

Mikään olemassa oleva tekijänoikeuden poikkeus ei kuitenkaan näyttäisi sellaisenaan ulottuvan kopioihin, joita tämä käyttömuoto edellyttää. Lähimmäksi yltää alla tarkasteltava DSM-direktiivin 4. artikla ja lähelle pääsee myös tilapäisiä kopioita koskea poikkeus, mutta nämäkin jäävät vajaiksi ja epäselviksi.

Lienee ilmeistä, että sääntelyn lopputulos ei tule olemaan binäärinen (aineiston käyttö koneoppimiseen ilman oikeudenhaltijan lupaa aina mahdollista / ei koskaan mahdollista) vaan asiassa on nyansseja. Millä tavalla materiaali on saatavilla, soveltuuko siihen käyttöä sääntelevät lisenssiehdot, mikä on koneoppimisprosessin tarkempi luonne ja millä tavalla se nivoutuu muuhun, aineiston sallittuun käyttöön? Kaikilla näillä tekijöillä voi olla tekijänoikeudellista relevanssia.

DSM-direktiivi: onko koneoppiminen tekstin- ja tiedonlouhintaa?

Koneoppimisen kannalta erityisen relevantiksi muodostuu DSM-direktiivin 4 artiklan mukainen tekstin- ja tiedonlouhintaa koskeva poikkeus, jonka mukaan jäsenvaltioiden on säädettävä poikkeuksesta tai rajoituksesta tekijänoikeuksiin, kun kyseessä on kappaleen valmistaminen tai kopiointi tekstin- tai tiedonlouhintaa varten.

Mahdollistaako 4 artikla siis tekijänoikeudella suojatun aineiston tekoälykäytön silloin, kun aineisto on laillisesti saatavilla? Tähän ei ole selvää vastausta. ”Tekstin- ja tiedonlouhintaa” koskevan määritelmän suppealla tulkinnalla (automaattinen analyysitekniikka, jonka tarkoituksena on tietojen, suuntausten tai korrelaatioiden, tuottaminen) voisi päätyä johtopäätökseen, että artikla soveltuu vain analytiikan tuottamiseen aineistosta.

Tekoälyn kouluttamisen tarkoitushan usein ei ole analytiikan tuottaminen, sillä tekoälyllä voi olla paljon laajemmat käyttötarkoitukset, kuten esimerkiksi uuden aineiston tuottaminen. Toisen tulkinnan mukaan tekoälyn kouluttamisessa on kyse nimenomaan analytiikasta – tekoälyn koulutuksessa aineistoa analysoidaan – ja syntyvän tekoälyn käytön eri muotojen ei pitäisi olla merkityksellisiä asian arvioinnissa.

Perustavanlaatuinen ongelma 4 artiklassa on myös sen sallima ”opt-out”: tekijänoikeudenhaltijalla on mahdollisuus päättää, että aineistoa ei sittenkään saa käyttää teksti- ja tiedonlouhintaan ilmoittamalla asiasta aineiston yhteydessä. Emme hämmästyisi, jos tällaiset, koneella luettavissa olevat rajoitukset muodostuisivat EU:ssa standardiominaisuudeksi nettisivuilla ja muissa aineistoissa, joita voitaisiin käyttää koulutusaineistona.

Kuten aiemmassa blogikirjoituksessamme totesimme, DSM-direktiivissä ei mainita tekoälyä tai koneoppimista lainkaan, eli 4 artiklan soveltumista tekoälysovellusten kehittämiseen ei direktiivissä ole mahdollistettu eikä suljettu pois. Suomessa direktiivin implementointi on edelleen kesken. Juuri äskettäin valmistui sivistysvaliokunnan lakiehdotusta koskeva mietintö. Siinä ei ole millään tavalla otettu kantaa 4 artiklan tulkintaan tekoälyn näkökulmasta. Myös itse hallituksen esityksessä vältettiin ottamasta kantaa artiklaa 4 ja tekoälyn koulutusaineistoa koskevaan kysymykseen.

Euroopan komissio pohtinut asiaa

Viime aikoina kysymystä on pohdittu myös Euroopan komissiossa. Komissio julkaisi keväällä 2022 selvityksen ”Study on copyright and new technologies”, jossa pohdittiin ko. artiklan tai muiden tekijänoikeuden poikkeusten soveltumista tekoälyyn. Johtopäätös oli, että asia on epäselvä, ja pelkona on, että eri jäsenmaissa päädytään eri tulkintoihin. Selvityksessä todettiin myös olevan toivottavaa, että direktiivin implementoinnin yhteydessä jäsenmaat ottaisivat asiaan nimenomaisesti kantaa. Suomessa direktiivin implementointi on vielä kesken. Hallituksen esityksessä on vältetty ottamasta kantaa tähän kysymykseen, vaikka esityksessä viitataankin yllä mainittuun komission selvitykseen.

Komission selvityksessä pohdittiin myös muita mahdollisia soveltuvia tekijänoikeuden poikkeuksia. Selvitys ei sulje pois mahdollisuutta, että tilapäistä kappaleen valmistamista koskeva poikkeus soveltuisi koulutusaineistokäyttöön. Poikkeus soveltuu, jos

  • kopiointi on väliaikaista ja erottamaton ja välttämätön osa teknistä prosessia,
  • kopioinnin ainoa tarkoitus on mahdollistaa välittäjän tekemä teoksen siirto verkossa kolmansien osapuolten välillä tai teoksen laillinen käyttö, ja
  • kopioinnilla ei ole itsenäistä taloudellista merkitystä.

Poikkeuksen soveltuvuus kiteytyy muun muassa siihen, miten kriteeriä ”laillinen käyttö” on tulkittava tekoälyn kouluttamisen kontekstissa. Ilman lainsäädännön selventämistä tähän poikkeukseen voi olla vaikea vedota.

Oikeudellinen epävarmuus vaikeuttaa investointeja – mikä olisi ratkaisu?

EU:ssa vallitsee siis suuri epäselvyys tekoälyratkaisuiden tekijänoikeudellisista kysymyksistä. On riski, että eri maiden oikeuskäytännöt lähtevät jopa isoissa periaatteellisissa tekoälyratkaisuja koskevissa asioissa eri suuntiin. EU:n tuomioistuimen ratkaisukäytäntö toki tuo selvyyttä joskus kaukana tulevaisuudessa, mutta se ei ole tyydyttävä ratkaisu tekoälyä juuri tänään kehittävien näkökulmasta.

Tekoälykentästä Euroopassa uhkaakin tulla pirstaloitunut ja aivan tarpeettoman oikeudellisen epävarmuuden lähde. Oikeudellinen epävarmuus vaikeuttaa investoimista tekoälyyn ja saatavilla olevan aineiston käyttämistä tekoälyn koulutukseen. Tekoäly on niin valtavan merkittävä tulevaisuuden teknologia, että EU:lla ei olisi varaa tällaiseen epävarmuuteen tilanteessa, jossa EU on muutoinkin vaarassa jäädä Yhdysvaltojen ja Kiinan jalkoihin tekoälykilpailussa. Olisiko EU:n syytä pikaisesti säätää selvennys tekoälyä koskeviin tekijänoikeuskysymyksiin?

Jos edellä esitetty herättää kysymyksiä tai haluat lisätietoja asiasta, asiantuntijamme keskustelevat mielellään kanssasi.

Samuli Simojoki

Samuli toimii neuvonantajana media- ja teknologiaoikeuteen liittyvissä kysymyksissä ja transaktioissa.

Samulilla on lisäksi paljon kokemusta toimeksiannoista, jotka käsittelevät immateriaalioikeutta, henkilötietojen suojaa, telekommunikaatiota ja ICT-palveluiden ulkoistamista.

Samuli vastaa on Boreniuksen Technology & Data -tiimistä yhdessä Erkko Korhosen kanssa.

Jemina Bonsdorff

Jemina neuvoo asiakkaitamme erilaisissa immateriaalioikeuksiin, teknologiaan ja kaupallisiin sopimuksiin liittyvissä asioissa.

Jemina hoitaa vuosien kokemuksella tunnettujen brändien omistajien antamia toimeksiantoja, jotka koskevat muun muassa brändien suojaamista ja lisensointia sekä verkkokauppaa, markkinointia ja kuluttajansuojaa. Jeminalla on lisäksi erityisosaamista tekijänoikeuksien alalta.