Ajankohtaista/24.1.2023

Tekoälyn kouluttaminen ja tekijänoikeus – perustavanlaatuinen epäselvyys perustavanlaatuisessa asiassa

Samuli Simojoki

Jemina Bonsdorff

Koneoppimiseen perustuvat tekoälyratkaisut ovat kerta toisensa jälkeen hämmästyttäneet suurta yleisöä kyvyillään. Viime aikoina kehittäjät ovat esitelleet kuvia ja tekstiä tuottavia tekoälyratkaisuja. Vapaasti kokeiltavissa oleva Chat GPT on tästä viimeisin esimerkki.

Koneoppiminen perustuu valtavaan määrään koulutusainestoa, jota analysoimalla tekoäly parantaa algoritmiaan – mitä enemmän koulutusaineistoa, sitä parempaan algoritmiin ja tekoälyratkaisuun päästään.

Tekijänoikeudella tai lähioikeudella suojatun aineiston käyttöön tekoälyn koulutusaineistona liittyy kuitenkin perustavanlaatuinen oikeudellinen epäselvyys: ei ole selvää, milloin käyttöön tarvitaan oikeudenhaltijan suostumus ja milloin käyttö olisi mahdollista kolmansien tekijänoikeuksia loukkaamatta. Tämä tarkoittaa sitä, että tekijänoikeudella tai lähioikeudella suojatun aineiston käyttöön tekoälyn koulutusaineistona liittyy tällä hetkellä oikeudellinen riski, jos käyttöön ei ole hankittu lupia kaikilta oikeudenhaltijoilta.

Nyt Yhdysvalloissa on vireillä kaksi joukkokannetta, joissa tuomioistuin joutuu ottamaan kysymykseen kantaa tietyistä näkökulmista. Kanteilla on potentiaalia muovata tekoälyn ja tekijänoikeuden suhdetta olennaisesti ja siten muuttaa koko tekoälyalaa. Toinen kanne koskee avoimen lähdekoodin ohjelmistojen käyttöä, toinen internetissä saatavilla olevien kuvien käyttöä tekoälyn koulutusaineistona.

GitHub Copilot -tekoälyjärjestelmää koskeva joukkokanne

Yhdysvaltojen San Franciscossa on marraskuussa 2022 nostettu joukkokanne Microsoftia, sen tytäryhtiötä GitHubia ja yhteistyökumppani OpenAI:ta vastaan Matthew Butterickin johdolla. Joukkokanne koskee GitHub Copilot -nimistä tekoälyjärjestelmää, joka kantajien mukaan perustuu ennennäkemättömään avoimen lähdekoodin ohjelmistopiratismiin.

GitHub Copilot on tekoälyllä varustettu koodausavustaja, jonka opettamiseen on käytetty avoimen lähdekoodin GitHub-arkistoa. GitHub Copilotin opettamisessa käytetyt avoimen lähdekoodin materiaalit on julkaistu yleisesti saataville GitHub-arkistoon, ja niiden käyttöön sovelletaan avoimen lähdekoodin lisenssiehtoja. Kanteessa on vedottu 11 eri avoimen lähdekoodin lisensseihin, kuten MIT, GPL ja Apache -lisensseihin.

Kun avointa lähdekoodia käytetään uudelleen, koodin alkuperäiset tekijät ja heidän tekijänoikeutensa tulee mainita eli kreditoida lisenssiehtojen mukaisesti eivätkä lisenssit sisällä oikeutta lähdekoodin käyttöön koulutusaineistona. Nyt vireillä olevassa tapauksessa GitHub Copilot tuottaa loppukäyttäjälleen koodia, joka kantajien mukaan on usein lähes identtistä verrattuna tekoälyratkaisun opettamiseen käytettyyn lisensoituun avoimen lähdekoodin materiaaliin. GitHub Copilot ei kuitenkaan kreditoi avoimen lähdekoodin alkuperäisiä tekijöitä lisenssiehtojen mukaisesti, vaan tuottaa koodin kuin omanaan.

Kantajat katsovat, että Microsoft, GitHub ja OpenAI syyllistyvät siten useiden koodaajien tekijänoikeuksien laajamittaiseen rikkomiseen kopioimalla avointa lähdekoodia tietoisesti GitHub Copilotin kautta lisenssiehtojen vastaisesti. Kanne kyseenalaistaa tekoälyjärjestelmien opettamisen sekä niiden työntuloksen. Vaikka tapaus on vasta alkuvaiheessa, sillä tulee mahdollisesti olemaan suuri vaikutus yrityksiin, joiden liiketoiminta perustuu tekijänoikeussuojatulla materiaalilla opetettuun tekoälyyn.

Myös muut tekijänoikeustahot heräämässä

Kuten todettu, generatiivisten tekoälyjärjestelmien opettamisesta ja käyttämisestä tekee ongelmallista se, että koneoppimiseen käytettävä data on usein tavalla tai toisella tekijänoikeussuojattua – onhan generatiivisen tekoälyn työntuloksenkin tarkoitus usein olla tekstiä, kuvia, musiikkia tai koodia.

GitHub Copilot ei suinkaan ole ainoa tekoälyjärjestelmä, jonka opettamiseen käytetään internetistä saatavaa tekijänoikeussuojattua materiaalia. Tekoälyn opettamiseen käytettävät datamassat ovat valtavia, ja ne voivat sisältää esimerkiksi jopa miljardeja kuvia tai laajoja määriä tekstiä tai koodirivejä.

GitHub Copilotia koskeva joukkokanne ei enää ole ainoa kysymystä koskeva riita. Heti alkuvuodesta Yhdysvalloissa nostettiin uusi joukkokanne muun muassa Stable Diffusion -nimistä kuvataidetta tuottavaa tekoälyjärjestelmää vastaan – jälleen Matthew Butterickin johdolla. Kantajina olevien taiteilijoiden mukaan vastaajayhtiöt Stability AI, DeviantArt ja Midjourney ovat Stable Diffusion -tekoälyjärjestelmää käyttäen loukanneet jopa miljoonien taiteilijoiden tekijänoikeuksia. Kysymys siitä, onko tekijänoikeussuojaa nauttivan materiaalin käyttäminen tekoälyjärjestelmän opettamisessa laillista, jakaa asiantuntijoiden mielipiteitä. Avoimen lähdekoodin käytössä lähtötilanne on luonnollisesti eri kuin sellaisen materiaalin, jota koskevaa käyttöoikeutta ei ole säädelty lisenssiehdoissa.

Fair use -doktriini

Yhdysvalloissa yritykset oikeuttavat toimintansa niin kutsutulla fair use -doktriinilla kuten nyt Microsoftia, GitHubia ja OpenAI:tä vastaan vireillä olevassa tapauksessa. Kyseisen doktriinin nojalla tekijänoikeutta voidaan tietyin edellytyksin rajoittaa, joskin tekoälyyn liittyen vakiintunut oikeudellinen konsensus tästä on vielä saavuttamatta.

Fair use -doktriiniin vetoamalla yrityksellä on hyvät mahdollisuudet perustella suojatun aineiston käyttöä tekoälyjärjestelmän opettamisessa ainakin tiettyjen kriteereiden täyttyessä. Mikäli tekoälyjärjestelmä kuitenkin lisäksi luo työntuloksenaan tekijänoikeuksia loukkaavaa materiaalia, fair use -doktriiniin soveltuminen on huomattavasti epätodennäköisempää.

Juuri tämän problematiikan punnintaan GitHub Copilotia koskevan tapauksen odotetaan tuovan selvyyttä. Mikäli ratkaisu on lopulta kantajille suosiollinen, se johtaisi epäilemättä suuriin muutoksiin koko tekoälymaailmassa.

Epäselvyyttä myös Euroopassa

GitHub Copilotia koskeva joukkokanne ei tietenkään ota huomioon EU:ssa vaikuttavia oikeusnormeja, eikä sillä tule olemaan välittömiä oikeusvaikutuksia Euroopassa. Kanteen voidaan kuitenkin odottaa rohkaisevan oikeudenhaltijoita ryhtymään vastaavanlaisiin toimiin myös Euroopassa.

Näin on itse asiassa jo tapahtunutkin: ensimmäinen suurempaa näkyvyyttä saanut eurooppalainen kanne on vireillä Englannissa, jossa kuvapalvelu Getty Images on haastanut Stability AI:n oikeuteen väitetystä tekijänoikeusloukkauksesta. Kanne perustuu kuvapalveluun ladattujen kuvien käyttöön Stability AI:n edellä mainitun Stable Diffusion -tekoälyjärjestelmän kehittämisessä.

Millä kriteereillä tekoälyn kouluttaminen avoimella lähdekoodilla tai muulla laillisesti käytettävissä olevalla aineistolla sitten olisi mahdollista EU:ssa nykyisten tekijänoikeuden poikkeusten perusteella, implied license -doktriinin perusteella tai erityisesti vuonna 2019 hyväksytyn tekijänoikeutta digitaalisilla sisämarkkinoilla säätelevän DSM-direktiivin valossa? Lyhyesti sanottuna tilanne on epäselvä.

Vain muutama vuosi sitten säädetty DSM-direktiivi kuvaa hyvin teknologian valtavan nopeaa kehittymistä ja sitä, kuinka vaikeaa lainsäädännön on pysyä kehityksen vauhdissa. Direktiivi hyväksyttiin pitkän taistelun jälkeen vuonna 2019, ja direktiivin tekstin- ja tiedonlouhintaa koskevan 4 artiklan osalta direktiivi on jo nyt osoittautunut vanhentuneeksi.

Direktiivissä ei mainita tekoälyä tai koneoppimista lainkaan, mikä tarkoittaa sitä, että 4 artiklan soveltumista tekoälysovellusten kehittämiseen ei direktiivissä ole mahdollistettu eikä suljettu pois. Tämä on jossain määrin hämmentävää siinä mielessä, että direktiivin valmistuessa vuonna 2019 koneoppiminen oli yleisesti jo tunnistettu tekoälyn valtavirraksi. Lopputulos on se, että artiklan 4 soveltuvuudesta tekoälykäyttöön vallitsee epäselvyys, ja on olemassa vaara siitä, että eri jäsenmaissa päädytään asiassa erilaisiin tulkintoihin.

Suomessa direktiivin implementointi on vielä kesken, ja hallituksen esityksessä on vältetty ottamasta kantaa artiklaa 4 ja tekoälyn koulutusaineistoa koskevaan kysymykseen. Sana ”tekoäly” mainitaan hallituksen esityksessä vain yhdessä kohdassa, jossa viitataan Euroopan komission asiaa koskevaan selvitykseen.

Mitä tapahtuu seuraavaksi?

Yhdysvalloissa ja Englannissa vireille tulleet kanteet ovat vasta alkutekijöissään, ja EU:n oikeustilaan liittyy muitakin kysymyksiä kuin DSM-direktiivin 4 artikla. Pureudumme EU:n tilanteeseen tarkemmin tämän blogikirjoituksen toisessa osassa. Selvää joka tapauksessa on se, että laillisesti saatavilla olevan aineiston käyttö tekoälyn koulutusaineistona tulee olemaan yksi tulevien vuosien suurimpia tekijänoikeudellisia kysymyksiä.

Samuli Simojoki

Samuli toimii neuvonantajana media- ja teknologiaoikeuteen liittyvissä kysymyksissä ja transaktioissa.

Samulilla on lisäksi paljon kokemusta toimeksiannoista, jotka käsittelevät immateriaalioikeutta, henkilötietojen suojaa, telekommunikaatiota ja ICT-palveluiden ulkoistamista.

Samuli vastaa on Boreniuksen Technology & Data -tiimistä yhdessä Erkko Korhosen kanssa.

Jemina Bonsdorff

Jemina neuvoo asiakkaitamme erilaisissa immateriaalioikeuksiin, teknologiaan ja kaupallisiin sopimuksiin liittyvissä asioissa.

Jemina hoitaa vuosien kokemuksella tunnettujen brändien omistajien antamia toimeksiantoja, jotka koskevat muun muassa brändien suojaamista ja lisensointia sekä verkkokauppaa, markkinointia ja kuluttajansuojaa. Jeminalla on lisäksi erityisosaamista tekijänoikeuksien alalta.

GitHub Copilot -te­ko­ä­ly­jär­jes­tel­mää koskeva joukkokanne

Myös muut te­ki­jä­noi­keus­ta­hot heräämässä

Fair use -doktriini

Epäselvyyttä myös Euroopassa

Mitä tapahtuu seuraavaksi?

GitHub Copilot -tekoälyjärjestelmää koskeva joukkokanne

Myös muut tekijänoikeustahot heräämässä