A mesterséges intelligencia és az adatvédelem: egy különös házasság kezdete (első rész)

A ChatGPT berobbanásával a mesterséges intelligencia és az adatvédelem különös jogi viszonya igazi „hot topic” lett. Ez nem csoda, hiszen az MI mindenhol ott van, és irgalmatlan mennyiségben és sebességgel gyűjti rólunk a személyes adatokat. De meddig jogszerű ez az adatgyűjtés? Dr. Várady Endre a GDPR alapelvei mentén járja körül ezt az izgalmas témát.

Egyes felmérések szerint a ma rendelkezésre álló adatok 90% az elmúlt pár évben jött létre és az adatgyűjtésben a mesterséges intelligencia (MI) egyre dominánsabb szerepet tölt be. Az adatvédelmi hatóságok, így a magyar hatóság (NAIH) is egyre intenzívebben foglalkozik az ilyen módon gyűjtött adatokkal. Hazánkban a hatóság például 250 millió Ft rekordösszegű bírságot szabott ki az MI jogszerűtlen használata miatt, az olasz adatvédelmi hatóság pedig egyenesen betiltotta a ChatGPT alkalmazást az olasz érintettek vonatkozásában.

Mindennek ellenére az MI látszólag nem vet fel különösebb GDPR kérdéseket. A technológiai semlegesség elvének jegyében az MI-nek a GDPR ugyanazon rendelkezéseinek kell megfelelni, mint bármilyen más adatkezelési műveletnek. Elvi szinten ez igaz, de az ördög mindig a részletekben bújik meg. A gyakorlati megvalósítás szintjén ugyanis állandóan ellentmondásba ütközünk, és gyakran még az adatvédelmi hatóságok is kénytelenek elrugaszkodni a hagyományos GPDR megközelítésektől.

De hogyan is néz ki ez a megközelítés? A GDPR szerint az adatgyűjtésnek meg kell felelnie számos alapelvnek, többek között az átláthatóság, az adattakarékosság, a tisztesség és a pontosság elvének, és még sorolhatnánk. A következőkben górcső alá vesszük, hogy vajon az MI adatgyűjtése megfelel-e a GDPR alapelveknek.

Az első GDPR alapelv: az átláthatóság elve

Az MI a feketedoboz-elv alapján működik. A bemeneti adatokat ismerjük, és az is ismert, hogy végül mit dönt a rendszer, de az teljesen átláthatatlan, hogy mi történik közben és hogy a bemeneti adatok végkövetkeztetésként miért éppen azt a kimenetet hozzák. Nem látjuk mi van a fekete dobozban. Jogosan merül fel a kérdés, hogy az MI rendszerek lehetnek-e átláthatóak az érintettek számára, ha az érintettek nem látnak bele abba. A fekete doboz felnyitásával viszont megsértenénk az üzleti titokhoz és a szellemi tulajdonhoz fűződő jogosultságokat.

Az ellentmondás feloldásához pragmatikus megoldáshoz kell nyúlni. Mi az érintett legfőbb érdeke? Elsősorban az, hogy egyszerű, transzparens eljárásrend követésével javítani lehessen az algoritmus döntésén. Ez pedig megvalósítható például emberi beavatkozás kérésével, valamint akkor, ha az érintettek egy tesztrendszer segítségével ellenőrzik, hogy milyen betáplált adatok milyen következtetést generálnak.

Ugyanakkor az MI logikájáról, illetve használatának várható következményeiről is lehet közérthető, tömör tájékoztatást adni anélkül, hogy felnyitnánk a fekete dobozt. Például, ha egy biztosító a díjkalkuláció során algoritmussal követi nyomon ügyfelei vezetési szokásait, akkor az adatkezelés megkezdése előtt érdemes erről tájékoztatnia az érintetteket. Elmondhatja, hogy a díj kalkulációhoz MI megoldást használ, hogy az MI hogyan működik (pl. neurális vagy döntés fa modell tömör, közérthető bemutatása) valamint tájékoztatást adhat arról, hogy a gondatlan vezetés magasabb biztosítási díjat eredményez.

A második GDPR alapelv: az adattakarékosság elve

Az MI és az adatvédelem viszonyában a másik örökké visszatérő kérdés, hogyan egyeztethető össze a MI rendszerek hatalmas adatigénye az adattakarékosság elvével, hiszen az adattakarékosság elve megköveteli, hogy a felhasznált adatok csak az adatkezelés céljának eléréséhez szükséges mértékre korlátozódjanak.

Az MI rendszereknek valóban hatalmas adatkészletre van szükségük. Például egy önvezető jármű szoftver esetén akár százezer fényképre és videó elemzésre is szükség lehet, hogy a rendszer végül megtanulja, hogy a jármű előtt megjelenő ember egy gyalogos. Ez viszont nem jelenti azt, hogy az MI rendszereket ne lehetne úgy kialakítani, hogy a rendszer folyamatosan értékelje a felhasznált adatok jellegét és mennyiségét, és egy beépített mechanizmussal csökkentse a felesleges vagy jelentéktelen adatokat. Továbbá az is megoldható, hogy a betanítási adathalmaz méretét csak fokozatosan növelje.

Fontos azt is leszögezni, hogy az adatkészlet minősége egy sokkal fontosabb szempont. Az adatkészlet megfelelő kiválasztása, címkézése és validálása nélkül az egész adathalmaz olyan, mint egy rendezetlen könyvtár (például hiába van hatalmas adatkészlet a gyalogosokról, ha a fényképek/videók nem megfelelő paraméterek alapján lettek kiválasztva, akkor az önvezető jármű szoftver nem fogja megfelelően felismerni a gyalogost). Ezzel szemben egy gondos kiválasztási/címkézési/validálási eljárással rendet és értelmet adhatunk a nyers adattömegnek.

Egy következő megoldás az adattakarékosságra, ha az érintett magánéletébe való beavatkozást jelentősen korlátozzuk, vagyis megnehezítjük az alapadatokban szereplő személyek azonosítását. Ez történhet például álnevesítéssel, titkosítási technikák vagy egyéb privát szférát érintő megoldások felhasználásával.

Cikk megosztása:

Facebook
Twitter
Pinterest