DataKolektiv, vlasnik

Vreme čitanja: 9 minuta

Foto: Canva

On two occasions I have been asked, “Pray, Mr. Babbage, if you put into the machine wrong figures, will the right answers come out?” … I am not able rightly to apprehend the kind of confusion of ideas that could provoke such a question.”

– Charles Babbage (1791 – 1871), konstruktor Diferencijalne mašine (jedan od prekursora savremenih računara) i po mnogima “otac računara”

Voleo bih u našem današnjem susretu na stranicama rubrike Veštačka inteligencija uvedem jedan od najvažniji pojmova u debati o društvenim efektima i regulativi AI. Implicitno smo se sa pojmom koji imam na umu već susreli više puta tokom naših prethodnih diskusija. Kada smo prošli put razmatrali pitanje prepoznavanja lica, pomenuo sam da možemo da se pitamo da li bi AI model treniran na setu fotografija u kome nalazimo 10% lica jedne, 35% lica druge, i 55% lica treće rase bio podjednako efikasan u prepoznavanju novih lica različitih rasa? Ako je potrebno izgraditi sistem AI za predikciju kriminaliteta u nekom gradu, a istorijski podaci na kojima sistem treniramo da pronalazi strukture (engl. patterns) u ponašanju, izgledu, navikama, kretanju individua itd. govore da je u određenom periodu velikih broj izvršioca krivičnih dela pripadao određenoj etničkoj zajednici koja tu živi, da li će taj AI sistem i u budućnosti biti sklon da markira pripadnike te etničke zajednice kao potencijalne prekršioce zakona sa većom verovatnoćom nego druge građane? Sva ovakva i slična pitanja se odnose na zabrinutost u vezi tog jednog važnog pojma, pojma algoritamske pristrasnosti (engl. algorithmic bias).

Dakle, danas o tome kako i zašto sve algoritmi postanu pristrasni u donošenju odluka, koji su najinteresantniji primeri algoritamske pristrasnosti, i kako se prema tim problemima odnose postojeća regulativa i predlozi buduće regulative EU u oblasti zaštite podataka o ličnosti i veštačke inteligencije. 

 

Veštačka inteligencija i prepoznavanje lica

 

Kako algoritmi postanu pristrasni?

Primeri mogućih algoritamskih pristrasnosti koje sam pomenuo svi počivaju na pretpostavci da podaci kojima raspolažemo za trening AI sistema odslikavaju određeno stanje stvari čija bi generalizacija predstavljala osnov za pristrasne odluke o pojedinačnim, budućim slučajevima. Podsetimo se šta je generalizacija u učenju uopšte: u tipičnom setingu, neki AI sistem treniramo procesom mašinskog učenja da pronalazi razne stabilne, nekada i ekstremno složene, strukture informacija koje određeni podaci nose; na osnovu tih struktura, sistem pokušava da generalizuje sveukupni profil informacija u podacima na kojima je treniran i tako generalizovanu strukturu informacija koristi da bi predviđao nešto o podacima koji prethodno nije analizirao. Jasno se vidi jedna stvar: ako sistem treniramo na podacima koji sadrže određenu strukturu informacija, bez obzira na to da li je ta struktura informacija logički nužno pokazatelj nečega važnog nju će algoritam mašinskog učenja da “pokupi” i generalizuje. Da li je logički ili aksiološki nužno da je počinilac nekog krivičnog dela u određenom delu Njujorka Hispanoamerikanac – naravno da nije. Ali ako trenirate AI da na osnovu statističkih podataka o stopama kriminaliteta procenjuje verovatnoću da će neko počiniti krivično delo u tom i tom distriktu nekog grada gde sa većom verovatnoćom nalazimo Hispanoamerikance nego nekoga drugog, i gde su istorijski oni bili češće prekršioci – eto problema. Algoritam će generalizovati prethodno znanje i zbog toga možda početi da “sumnja” na nekoga sasvim neosnovano!

Međutim, to ne mora biti jedini izvor algoritamske pristrasnosti. Algoritamske pristrasnosti mogu da nastanu iz najrazličitijih razloga, na primer kao posledice samog algoritma, njegove “prirode” odn. logike koja je neposredno ugrađena u kod koji ga reprezentuje u memoriji računara i izvršava: doslovce onoga kako i šta algoritam radi sa podacima. Takođe, bez obzira na pravu prirodu podataka kojima raspolažemo za trening AI sistema, procedure prikupljanja podataka, njihovog kodiranja – načina na koji npr. određene podatke podvodimo pod šire kategorije i tek kao takve ih koristimo u treningu nekog matematičkog modela – kao i neposredan način upotrebe tih podataka u modelima, svi mogu da proizvedu neku formu algoritamske pristrasnosti. Istraživačima u empirijskim naukama je ovo jasno i bez da su stručnjaci u Data Science, AI i mašinskom učenju: npr. svako istraživanje u društvenim naukama, od eksperimentalne studije ponašanja preko primene skala stavova, inventara ličnosti, do širokog anketnog istraživanja javnog mnjenja može da trpi posledice problema izazvanih procedurama prikupljanja, kodiranja, i upotrebe podataka. Ono što u Data Science i AI zovemo matematičkim modeliranjem ili mašinskim učenjem u istraživanjima najčešće zovemo jednostavno analizom podataka: bila koja analiza podataka, budući da ona svakako predstavlja određeni algoritam, može da proizvede neku formu algoritamske pristrasnosti – samo što termin algoritamska pristrasnost ne koristimo uobičajeno u naučnom diskursu društvenih istraživanja. Konceptualno, u pitanju je skoro isti problem – samo što je u oblasti Data Science i AI problem često daleko teže identifikovati zbog daleko veće složenosti algoritama koji se koriste u odnosu na uobičajeni arsenal analize podataka u društvenim istraživanjima i naukama.

Sa ovime je povezana poznata fraza  “garbage In, garbage out” (skr. GIGO, nekada i RIRO: “rubbish in, rubbish out“) u statistici i kompjuterskim naukama: ako i najbolji algoritam na inputu (tj. ulazu) primi besmislene podatke, ali takve da ne dovedu do greške u njegovom radu koja će izazvati da on stane – na autputu (tj. izlazu) će taj algoritam dati besmislene odgovore. Primer koji će lako prepoznati (dobri) studenti ekonomije, psihologije i još nekih društvenih nauka: (1) izvedete istraživanje i prikupite podatke o dve kontinuirane varijable, (2) izvedete prostu linearnu regresiju i očitate rezultat od R2 = .95, prilično solidno, (3) otrčite srećni do vašeg mentora noseći sjajan nalaz u rukama dok prethodno niste proverili (4) da li su vam reziduali u modelu normalno distribuirani, najčešće (5) nesvesni da ako nisu – vaš statistički nalaz nema smisla. Lepo kaže: garbage in – garbage out.

Iako algoritamske pristrasnosti mogu da se ispolje na najrazličitije načine, one koje su privukle najviše pažnje i najviše zagrejale javnost vezane su za situacije u kojima odluke AI sistema nepravedno diskriminišu osobe na osnovu podataka koje imaju o njima. Možemo da zamislimo razne (neprijatne) situacije u koje AI modeli mogu tako da nas dovedu, preko primera diskriminacije na osnovu rasne ili etničke pripadnosti, pa do toga da nas neki algoritam koji automatizuje analizu profesionalnih rezimea koji se šalju za određenu poziciju “počisti” zbog nečega što uopšte nije toliko relevantno koliko je za algoritam predstavljalo signal prisustva neke strukture podataka koja je u prethodnom treningu tek markirana kao indikator toga da kandidat ne odgovara određenoj poziciji (videćemo kasnije kako i najbolji – Amazon u konkretnom primeru – mogu da pogreše u ovakvim kontekstima). Razmislite o AI sistemima koji automatski izračunavaju kreditne skorove: ako su trenirani na prethodnim odlukama analitičara rizika koji su iz ovih ili onih razloga sami bili pristrasni – možda ne namerno, a možda ne i bez osnova – oni će u svom radu reflektovati te prethodne pristrasnosti. Dopunski problem je što sa analitičarem rizika možete da razgovarate i on ponudi jasno objašnjenje svojih odluka, dok je u slučaju rada veoma složenih AI sistema teško identifikovati, kao što smo već diskutovali u rubrici Veštačka inteligencija, zašto su neku odluku doneli tačno kako su je doneli. Razmišljanje o ovakvim i sličnim slučajevima, kao i neki empirijski nalazi o radu određenih AI sistema, vodili su ka tome da se pitanje regulative AI prilično koncentriše upravo oko problema algoritamske pristrasnosti.

 

Neki primeri algoritamskih pristrasnosti

  Amazon je 2018.godine prestao da koristi svoj AI algoritam korišćen u selekciji kandidata za poslove, razvijan od 2014. godine. Razlog? Algoritam je treniran na podacima o postojećim pozicijama u Amazon (globalno, u Amazonu su 60% zaposlenih muškarci dok na menadžerskim pozicijama nalazimo 74% muškarca) dok se u analizi teksta profesionalnih rezimea išlo se na ekstrakciju reči i fraza a ne na ekstrakciju realnih znanja i veština koje bi mogle biti opisane tamo (mnogo teži zadatak za AI sistem: prava ekstrakcija znanja iz teksta). Dakle: radilo se na uparivanju sličnosti rezimea sa pozicijama koje drže zaposleni kojima je Amazon već bio zadovoljan. Rezultat: algoritam je favorizovao muškarce, dajući niske skorove rezimeima koji uopšte pominju reči poput “women’s“. Nekih 55% menadžera ljudskim resursima u SAD je u anketi iz 2017. godine odgovorilo da će u narednih pet godina AI sistemi postati regularne alatke u njihovom svakodnevnom radu.

Studija “Dissecting racial bias in an algorithm used to manage the health of populations” iz 2019. godine, objavljena u uglednom Science, otkrila je da AI algoritam za predikciju potrebe za zdravstvenom negom, koji se koristi za oko 200 miliona američkih građana, pokazuje rasnu pristrasnost. Konkretni algoritam je imao posao da oceni koji građanin bi ostvario benefit ulaskom u program nege u slučajevima visokog zdravstvenog rizika u kome se takvim građanima alocira dodatna zdravstvena nega. Problem je nastao usled toga što je za procenu potrebe za zdravstvenom negom kao proxy mera – mera nečega što ne možemo da izmerimo direktno pa ga “aproksimiramo” nečime za šta verujemo da je sa tim povezano – korišćen prethodni trošak građanina na usluge zdravstvenog sistema. Empirijska studija je zaključila da su crni građani – čak i kada su trošili na zdravlje koliko i beli građani – češće trošili na ozbiljnije intervencije, poput terapije dijabetesa ili problema sa visokim pritiskom – što je moguće posledica nejednakog pristupa zdravstvenim uslugama. Analizirajući grupu građana sa visokim izračunatim algoritamskim rizikom, ustanovljeno je da crni građani među njima imaju 26.3% više hroničnih bolesti. Drugim rečima, zbog upotrebe proxy mere koja nije realno reflektovala nameravano merenje realne potrebe za zdravstvenom negom, mera algoritamskog rizika je implicitno favorizovala bele građane SAD. 

 

 

Neke studije, poput “The Risk of Racial Bias in Hate Speech Detection“, su našle da tvitovi populacije crnih građana, pisani upotrebom karakterističnih dijalekata, u uobičajenim arhitekturama neuronskih mreža treniranih da prepoznaju govor mržnje i toksičnost u jeziku uopšte imaju dva puta veću verovatnoću da budu označeni kao toksični od drugih tvitova – ovo je posledica pristrasnosti koja se nalazi već u samim anotiranim korpusima tekstova na kojima se neuronske mreže treniraju.

Odličan primer toga kako su algoritmi pokupili postojeće pristrasnosti u procesima pretrage informacija je Facebook, gde je 2019. godine – prema članku u Wired – primećen fenomen koji je izazvao mnogo zabave i smeha: na pretragu “photos of my female friends” njihova platforma za pretragu je sugerisala da se rezultati dopunski pročiste frazama “u bikinijima” ili “na plaži“, dok se to nije događalo za pretragu poput “photos of my male friends“. Algoritam pretrage je jednostavno reflektovao realna interesovanja pristrasne publike!

Softver za prediktivnu alokaciju policijskih snaga, pokazano je u studiji metodologijom simulacije objavljenoj u Significance, može da uleti u specifičnu feedback petlju koja je bi dovela do interesantne vrste algoritamske pristrasnosti. Na osnovu istorijskih podataka o ratama kriminalnih dela u određenim delovima grada, softver bi alocirao više policijskih patrola u taj deo grada. Međutim, sa prisustvom više policijskih snaga na određenoj teritoriji, logično je da će biti i više primećenih kriminalnih dela! Pošto se novi podaci unesu u prediktivni sistem, sistem traži dodatnu alokaciju policijskih snaga, i tako u krug, osnažujući pristrasnost prema kojoj se kriminalna dela javljaju tamo gde se kriminalna dela javljaju, tako propuštajući da prediktivno alocira policijske snage u druge delove grada – gde su možda potrebne.

 

Algoritamska pristrasnost u trenutnim regulatornim okvirima EU

Naša zemlja se obavezala da uskladi nacionalno zakonodavstvo u oblasti zaštite podataka sa EU Sporazumom o stabilizaciji i pridruživanju. Pitanje zaštite podataka o ličnosti je tema pregovaračkih poglavlja 23 i 24 koja su otvorena 2016. godine u pristupnim pregovorima.

Zbog toga je za nas na prvom mestu relevantno da znamo da već GDPR – uredba Evropskog parlamenta i saveta o zaštiti fizičkih lica u odnosu  na obradu podataka o ličnosti  i o slobodnom kretanju takvih podataka – u Članu 22 navodi da (pod određenim ograničenjima):

Lice  na  koje  se  podaci  odnose  ima  pravo  da  se  na  njega  ne  primenjuje  odluka  zasnovana isključivo  na  automatskoj  obradi,  uključujući  i  profilisanje,  koja  proizvodi  pravne  efekte  koji  se na njega odnose ili na sličan način  značajno utiču  na njega.” 

Ovaj, prvi stav Člana 22 GDPR se ne primenjuje u okolnostima u kojima je odluka neophodna za zaključenje ili izvršenje ugovora između lica čiji su podaci u pitanju i rukovaoca tim podacima, ili ukoliko je takva odluka dozvoljena pravom Evropske unije ili države članice a koje se odnosi na rukovaoca podacima (uzimajući u obzir legitimne interese lica na koje se podaci odnose, naravno), ili ako je odluka zasnovana na izričitom pristanku lica čiji su podaci u pitanju.

Tekst GDPR detaljnije prepoznaje jasno diskriminatorne efekte algoritamske pristrasnosti u sledećim redovima:

U  cilju  obezbeđivanja  pravične  i  transparentne  obrade  podataka  u  odnosu  na  lice  na  koje  se podaci  odnose,  uzimajući  u  obzir  konkretne  okolnosti  i  kontekst  u  kojem  se  podaci  o  ličnosti obrađuju,  rukovalac  treba  da  koristi  odgovarajuće  matematičke  i  statističke  postupke  za profilisanje,  da  sprovodi  odgovarajuće  tehničke  i  organizacione  mere  kako  bi  se  posebno osiguralo  da  budu  ispravljeni  faktori  koji  dovode  do  netačnosti  u  podacima  o  ličnosti  i  da  rizik od  pojave  pogrešaka  bude  sveden  na  najmanju  moguću  meru,  da  obezbedi  podatke  o  ličnosti tako  što  će  uzeti  u  obzir potencijalne  rizike  za interese i  prava  lica  na  koje  se  podaci  odnose  i tako  da  se,  između  ostalog,  spreče  diskriminatorski  efekti  na  fizička  lica  na  osnovu  rasnog  ili etničkog  porekla,  političkog  mišljenja,  vere  ili  uverenja,  članstva  u  sindikatu,  genetskog  ili zdravstvenog  stanja  ili  seksualne  orijentacije,  ili  na  načina  na  osnovu  kojeg  se  preduzimaju mere  koje  imaju  takav  efekat.  Donošenje  automatskih  odluka  i  profilisanje  na  osnovu  posebnih kategorija podataka o ličnosti  može da bude dozvoljeno samo pod  posebnim uslovima.

Ipak, konkretno ovi redovi stava 71 GDPR – koji u tekstu preporučuje i pravo na objašnjenje algoritamske odluke donete u vezi nekog lica – su neobavezujuće prirode.  

U najnovijem Predlogu regulative o veštačkoj inteligenciji Evropskog parlamenta i saveta (teksta poznatog i kao engl. Artificial Intelligence Act) od 21. aprila 2021. godine, nalazimo sledeći predlog:

High-risk AI systems that continue to learn after being placed on the market or put into service shall be developed in such a way to ensure that possibly biased outputs due to outputs used as an input for future operations (‘feedback loops’) are duly addressed with appropriate mitigation measures.

(“AI sistemi visokog rizika koji nastavljaju da uče pošto su već plasirani na tržište ili postali operativni će biti razvijeni na takav način da osiguraju da se moguće pristrasni rezultati usled upotrebe prethodnih rezultata kao ulaza za buduće operacije (‘feedback petlje’) propisno tretiraju odgovarajućim merama ublažavanja.” – prev.aut.)

Ovime se jasno referira na moguće feedback petlje koje smo pominjali i videli kako mogu da razviju algoritamsku pristrasnost. U dokumentu je posvećena posebna pažnja prepoznavanju odn. definiciji AI sistema visokog rizika, kao i preciziranju AI praksi koje će se smatrati zabranjenima – u nekom od narednih tekstova serijala Veštačka inteligencija posvetićemo posebnu pažnju analizi iznetih predloga. Predlog regulative AI Evropskog parlamenta u celini prožimaju upozorenja na algoritamsku pristrasnost – ali tek ostaje da vidimo kakva će biti budućnost ovog predloga.