DataKolektiv, vlasnik

Vreme čitanja: 12 minuta

Foto: Unsplash

“The core of the issue is that no one can understand Facebook’s destructive choices better than Facebook, because only Facebook gets to look under the hood. A critical starting point for effective regulation is transparency: full access to data for research not directed by Facebook. On this foundation, we can build sensible rules and standards to address consumer harms, illegal content, data protection, anticompetitive practices, algorithmic systems and more.”

— Iz izjave Frensis Haugen Komitetu Senata SAD za trgovinu, nauku i transport, 4. oktobar 2021.

 

Planirao sam da se ovom temom bavimo nešto kasnije u serijalu Veštačka inteligencija na Talasu, ali su me aktualni događaji potakli da promešam karte i posvetim joj se sada. U prethodnom tekstu “Zašto nam je potrebna regulacija Veštačke inteligencije?” najavio sam da ćemo sledećom prilikom raspravljati o pretnjama koje su posledica razvoja i upotrebe sistema za analizu i produkciju prirodnog jezika kao što je OpenAI GPT-3 (o osnovama na kojima radi taj sistem, pogledajte “Kako razgovaraju mašine? (2. deo)”). Vratićemo se tom problemu nešto kasnije. Danas već moramo da uronimo u novu, tek komplikovanu problematiku: šta je proizvod masovne interakcije korisnika sa socijalnim mrežama čijom distribucijom sadržaja upravljaju algoritmi mašinskog učenja?

Pogađate: dogodio se izlazak u javnost Frensis Haugen 3. oktobra, data inženjerke, naučnice, MBA sa Harvadra, koju je karijera vodila od Gugla ka Jeplu, Pinterestu, konačno u Fejsbuk. U svim fazama svoje karijere prolazila je kroz samu koštanu srž onoga što drži onlajn ekonomiju uspravnom: još u Guglu, bila je koautorka patenta koji poboljšava rangiranje rezultata pretrage. I u jednom trenutku – verujem, upravo zato što je radila u neposrednoj blizini same suštine savremenog online biznisa – joj je bilo dosta: izašla je, prvo anonimno, u javnost ove godine, proširivši set internih dokumenata koje je prikupila iz Fejsbuka kako bi utvrdila da algoritamskoj maksimizaciji profita tamo na putu ne stoji nikakav obzir prema dobrobiti korisnika, zaštiti njihove bezbednosti i čak mentalnog zdravlja. Na osnovu dokumenata koje je otkrila, The Wall Street Journal (WSJ) je početkom septembra predstavio svoje The Facebook Files, otvarajući vrata širokoj debati o posledicama algoritamskog upravljanja sadržajem na socijalnim mrežama. Dan posle izlaska iz anonimnosti, 4. oktobra, u emisiji 60 minuta na CBS, Haugen je svedočila pred Podkomitetom za zaštitu kupaca, bezbednost proizvoda i podataka Komiteta za trgovinu, nauku, i transport Senata SAD; očekuje je i svedočenje pred Parlamentom Velike Britanije.

Nekoliko konkretnih problema je egzemplirano u WSJ The Facebook Files, od kojih je problem efekata upotrebe Instagrama (takođe u vlasništvu Fejsbuka, da se podsetimo) na mentalno zdravlje tinejdžerki već diskutovala Marta Vasić u tekstu na rubrici Društvo za Talas. Suština tvrdnji Frensis Haugen je sledeća: interna istraživanja u samom Fejsbuku pokazuju da način na koji njihovi algoritmi određuju koji će nam sadržaj plasirati vodi ka polarizaciji stavova u javnom mnjenju, dok kompanija daleko češće kao prioritet vidi primenu tih algoritama – jer joj obezbeđuju viši profit – nego rad na njihovom unapređenju, ili njihovo uklanjanje iz sistema, iako svesna njihovih posledica. Znam da ovo zvuči komplikovano. Cilj ovog teksta u serijalu Veštačka inteligencija je da razjasnimo o čemu je reč.

 

Ekonomija palca i kažiprsta

Pretpostavljam da su to dva prsta koja najviše trošimo na ekranima naših telefona i tableta, i koristim priliku da podsetim da su podjednako korisni i u veštini pisanja rukom – izuzetno zgodna stvar za znati. Dok sam studirao, 90-ih godina u Beogradu, prijatelj sa Matematičkog fakulteta – gde je ispit mnogo teže položiti nego na mojoj psihologiji – mi se jednom poverio kako “meri” svoje postignuće u vežbi zadataka: fizičkim radom. Objasnio mi je: doslovce se fokusiram na to koliko pišem, koliko sedim savijen nad stolom, koliko vremena su mi mišići napregnuti dok celo telo učestvuje u koncentraciji. Što više fizički radim, govorio je, to će moje postignuće biti bolje. Bio je u pravu i doktorirao u oblasti algebarske topologije (što je tek hod po mukama) desetak godina kasnije.

Isto vam je i sa Fejsbukom, Instagramom i drugim aplikacijama, samo što sledovanje nije ocena na ispitu ili prestižna diploma, i što se dobit od vašeg rada palcem i/ili kažiprstom na ekranu prilično asimetrično deli između vas i vlasnika aplikacije: oni mahom dobiju novac, a vi mahom dobijete nešto dopamina (neurotransmiter koji omogućava sinaptički prenos signala između neurona u određenim moždanim krugovima) te signale u neuronskim mrežama mozga koje učestvuju u sistemu nagrađivanja: strijatumu i ventralnim tegmentalnim jedrima. Kao kognitivnog psihologa, ni najmanje me ne iznenađuje da davanje i primanje lajkova ima slične ili čak iste fiziološke konsekvence kao i druge forme društvenog nagrađivanja (ili čokoladica, ako hoćete, ko voli šećer). Koliko god trivijalno bilo, i to lajkova što se nakupi se doživljava kao oblik socijalnog nagrađivanja, društveno priznanje, znak statusa, i dabome da će vaš centralni nervni sistem da vam pomogne da se navučete na to i tražite još. Nego, one pare koje dobije druga strana, to je interesantno objasniti kako.

U suštini je jednostavno, i ne znam ko bi to bolje mogao da objasni do:

 

 

Senator – we run ads.” I onda je računica, suštinski ista koju koristimo u matematičkim modelima u eksperimentalnoj psihologiji i ekonomiji, bihejvioralnoj ekologiji, drugim naukama o ponašanju, i veštačkoj inteligenciji, jasna: što više vremena provedete pregledajući sadržaje na nekoj socijalnoj mreži, a to ćete raditi ako sadržaje drugih lajkujete i drugi lajkuju vas (dok dopamin radi posao i loži vaš mozak da ga izluči još), to je veća verovatnoća da ćete da kliknete na neku reklamu. Čim to uradite, socijalna mreža je zaradila pare – jer je oglašavač plaća da plasira reklamu i za to očekuje klikove. Vas potrekpljuju lajkovima, vi potrekpljujete druge lajkovima, tu i tamo izručujete klikove na sadržaju plaćenom da bude plasiran, vaši klikovi potkrepljuju oglašavača, novac oglašavača potrekpljuje socijalnu mrežu da vas drži prikovanom za nju. Kao što sam pokušao da objasnim u tekstu iz ovog serijala posvećenom asocijativnom učenju u AI: pojam očekivanja nagrade (engl. reward expectation) je od ključnog značaja u upravljanju ponašanjem, i sam centralni pojam teorije učenja, u psihologiji i AI podjednako. Ako mislite da je nemoguće ponašanje na socijalnim mrežama objašnjavati upravo istim mehanizmima kojima se objašnjava učenje bioloških vrsta od goluba, preko miša i mačke, do psa (i čoveka), noviji (2021) rad iz Nature je tu da vam pomogne da se pomirite sa tom činjenicom.

(Neko bi rekao: da li je moguće da niko ne razmisli o svemu ovome, makar i u intuitivnim terminima – to “očekivanje nagrade” i “potkrepljenje” ne deluju daleko od neke svakodnevne pameti, priznaćete – pre nego što se navuče na onlajn život po socijalnim mrežama? O tome, i neviđenoj neodgovornosti u određenim naučnim krugovima u kognitivnoj psihologiji i AI koji teorije asocijativnog učenja doslovce iskorišćavaju jer su tek lakše za analizu i razumevanje od rada na razumevanju simboličkih kognitivnih procesa i kauzalnosti, ćemo pisati u jednom od narednih tekstova u ovom serijalu).

 

Engagement: važno je učestvovati

Svaki algoritam mašinskog učenja, oblasti koja je prevalentna u mejnstrimu onoga što danas nazivamo AI, baziran na principima statističkog učenja, ima određeni cilj. Njegov cilj je da nešto optimizuje. Optimizaciju možemo intuitivno da shvatimo kao ovaloploćenje principa Okamove britve u ekonomiji, na primer: kako da sa minimalnom investicijom postignemo maksimalan profit (u logičko-metodološkom originalu: kako da sa minimum pretpostavki izgradimo naučnu teoriju koja objašnjava maksimalan broj empirijskih fenomena)?  Očigledno je da u ovako postavljenom problemu jasno definišemo cilj: maksimizacija profita. Ako je vaš cilj maksimizacija profita, a sredstvo koje imate na raspolaganju socijalna mreža, postavlja se pitanje kako da najneposrednije definišite šta treba da bude minimalno (ili maksimalno) da bi vaša socijalna mreža za investiciju koju dajete u nju vratila najviši mogući profit? Kad kažem najneposrednije, doslovce mislim: šta da kažemo našim softverskim inženjerima, tačno na šta cilja algoritam koji odlučuje kada se kome plasira koji sadržaj?

Posle prethodno diskutovanog, jasno je: vaš cilj treba da bude maksimizacija učešća (engl. engagement) korisnika na socijalnoj mreži. Što više vremena na fidu, na profilu kreirajući sadržaj, što više reakcija, što više lajkova datih, što više lajkova primljenjih… Odavno su kolege u oblasti Data Science to shvatile i formulisale kao problem primenjene nauke: najbolji način na koji se bira koji sadržaj se kome plasira na socijalnim mrežama je onaj koji maksimizuje korisnikovo učešće na socijalnoj mreži. Jedan cilj. Jedan, jedini cilj: vreme koje provodite tamo. Jer što ste duže tamo, verovatnoća da ćete kliknuti na nešto što je neko socijalnoj mreži platio da bude plasirano je veća; ergo profit.

U ekonomijama poput srpske, gde primanja stanovništva nisu visoka, ovo je verovatno bilo teže intuitivno prihvatiti, jer potrošnja na e-trgovinu izvesno nije bila uporediva sa nivoom te potrošnje u razvijenim zapadnim ekonomijama. Ali to je bilo relevantno možda pre izbijanja pandemije Covid 19 koja nas je skoro sve stavila na remote rad i otvorila vrata za cvetanje posla poput dostave hrane i namirnica. Sada više ne vidim da bi ma kakve osobenosti naše ekonomije bile prepreka iskustvu iz koga svi ovde mogu neposredno da razumeju princip o kome je reč. Niste gladni? Idite malo na neku socijalnu mrežu.

I onda je sve lakše, jer kada je definisan kriterijum, kao što je maksimizacija učešća, uspostavljena je jasna mera za poređenje algoritama, modela mašinskog učenja: bolji je onaj koji plasira sadržaj tako da čoveka drži duže za ekranom. Sve ostalo je pitanje budžeta iz kog ćete da platite servere te briljantne matematičare, inženjere, programere, psihologe, ekonomiste i druge. Neko je rekao da su podaci nova nafta; ima smisla, ali vam garantujem da je onda vaše vreme novo zlato.

 

Mašina za pretragu i sugestije

Modeli mašinskog učenja koji rešavaju problem poput maksimizacije učešća se nalaze u dve suštinski povezane, formalno i matematički zapravo ekvivalente oblasti istraživanja u AI: u razvoju algoritama pretrage (engl. search) i mašina za sugestije (engl. recommendation engines).

Gugl indeksira ogroman broj stranica na Internetu. Posao Gugla je da kada vi ubacite bilo koji niz reči u polje za pretragu on vrati kao rezultat listu Internet stranica koje predstavljaju po relevantnosti ordinalno uređen niz odgovora na vaš upit (engl. query). Algoritmi kojima na osnovu vašeg upita serveri Gugla ocenjuju stranice koje njihove baze podataka indeksiraju u odnosu na to koliko su relevante kao odgovor na taj vaš upit, i vraćaju vam kao rezultat listu “pogodaka”, poređanu tako da su najrelevantnije stranice u vrhu rezultata a slede ih sve manje i manje relevantne, su algoritmi koji rešavaju problem pretrage. Čuveni algoritam PageRank, u čijem razvoju je učestvovao i ko-osnivač Gugla Leri Pejdž (da malo razbijemo predrasude da ekonomska čuda u IT prave klinci iz garaže sa bogatim roditeljima koji ih debelo finansiraju – neće bez tih inteligencije i kreativnosti da ide…) je egzemplaran u tom pogledu, i dan danas predstavlja osnovu Gugl pretrage. Mašinerija mašinskog učenja koju Gugl danas koristi da bi rešavao problem pretrage je daleko, daleko složenija od upotrebe samo jednog algoritma, naravno.

Problem sugestije (ili preporuke), koji rešavaju modeli poznati kao “mašine za preporuke“, je ekvivalentan problemu pretrage, ali se postavlja u donekle drugačijem kontekstu. Siguran sam da ste nekada koristili Spotifaj, Dizer, Jutjub, pretraživali Netfliks ili proizvode na Amazonu. I siguran sam da su svi ti sistemi posle izvesnog vremena počeli da “gataju” vaš ukus: da li bi možda poslušao ovu pesmu, kupci koji kupuju X često kupuju i Y (pa još ako uzmete zajedno ide popust), “slični artisti su…”, itd. Mašine za preporuke to rade: prate vaše ponašanje na nekom sistemu određeno vreme, a zatim izračunavaju koliko je vaše ponašanje – izbor pesama, videa, proizvoda, partnera na platformi za dejting, kripto-mačkica na nekom NFT tržištu, i sl – slično ponašanju nekih drugih korisnika. Uzeće u obzir, naravno, i sve druge podatke koje ste ostavili prilikom registracije ili posle. Siguran sam da se neće stideti da preko tzv. data brokera kupe podatke koje ste ostavili nekom drugom provajderu usluga (sećate se ono kad ste kliknuli “I agree” na nečije Terms and Services…). Pošto su broj korisnika i količina podataka ogromni, problem je kako skorove sličnosti između vas i drugih korisnika koji već koriste sistem izračunati efikasno: brzo i poštujući ograničenja računarske moći koja su na raspolaganju. Razni matematički trikovi i ingeniozna rešenja se tu traže i nalaze. Ali jednom kada su strukture sličnosti između korisnika izračunate, sistem će povući informacije o tome šta kupuju, iznajmljuju, pregledaju vama slični korisnici – i početi vama da predlaže da pogledate isto. Ponovo: verovatnoća da ćete kupiti, ako vam ukus “pogode”, raste.

Kao što je vaš upit “vodič” algoritmima kako da nađu najrelevantnije stranice za vas, tako je vaše ponašanje (kliktanje) po sajtovima iza kojih rade mašine za preporuke “vodič” tim algoritmima da pronađu za vas najrelavntnije proizvode i usluge. Problem pretrage i preporuke su, ponavljam, formalno ekvivalnenti, i razlikuju se samo konteksti u kojima ih treba rešiti.

Isto tako socijalne mreže, na osnovu vašeg ponašanja tamo i podataka koje imaju o vama, izračunavaju koje sadržaje da vam plasiraju na fidu, koje reklame da vam pokažu u koloni pored fida, koje korisnike, grupe, stranice da vam predlože za kontakt ili praćenje. Samo što je problem na socijalnim mrežama lakše rešiti: jer dok Gugl unapred ne zna šta će zadovoljiti vaš upit, kao što ni Amazon npr. ne zna unapred koji proizvod vam zaista treba, socijalna mreža na osnovu vaših lajkova zna šta volite, kakve komentare smatrate pozitivnim, kakvi komentari vas motivišu da učestvujete u diskusije, koji video šerujete… Ona na raspolaganju ima mnogo više informacija od sistema koji rešavaju čist problem pretrage, i zato mnogo više može da se osloni na puke asocijativne sisteme učenja, tzv. nadgledano učenje (engl. supervised learning) u kome vi sami svojim kliktanjem algoritmu dajete fidbek na osnovu koga on koriguje svoj rad, dok rešenje problema pretrage zahteva više učešća daleko složenijih algoritama nenadgledanog učenja (engl. unsupervised learning). Ovako bih poređao težinu problema: plasiranje sadržaja i preporuka na socijalnoj mreži je najlakše, na sajtu za e-trgovinu poput Amazona ili za pružanje sadržaja poput Netfliksa ga je nešto teže rešiti, dok se Gugl suočava sa najtežim oblikom problema – jer prethodne dve vrste sistema vi više “hranite” podacima na osnovu kojih oni mogu da shvate koliko dobro vas “čitaju”. Razmislite: kad lajkujete komentar na Fejsu ili šerujete post, ili kad pogledate film ili seriju na Netliksu, oni bar znaju da je to za vas nešto bitno; ali kada otvorite link na stranicu koju vam da Gugl pretraga, Gugl nema način da zna da li ste na njoj našli ono što vam je potrebno ili ne.

Naučna literatura o potencijalnim rešenjima ovih problema je bespregledna. Za one koji bi da pokušaju sami da ih rešavaju – što zaista ohrabrujem, jer je u pitanju prelepa oblast istraživanja – moja dva teksta o problemu preporuke (deo 1 i deo 2) napisana za prijatelje i kolege iz novosadske kompanije SmartCat koja okuplja sjajne data inženjere i naučnike o podacima, daju delimično dobar pregled tipologije mašina za preporuke i diskutuju tzv. hibridne sisteme podrobnije (uključujući i razvoj jednog originalnog rešenja), a mnogo važnije od svega tu je i otvoreni kod na mom GitHub nalogu iz koga može da se nauči jedan praktičan način da se taj problem rešava u programskom jeziku R.

Međutim, koliko god kao autor ovih redova volim naučnu oblast o kojoj govorimo, moram da vam priznam jednu stvar: nešto je tu toliko trulo u državi Danskoj da bi čovek pomislio da smo u samoj Srbiji. Evo šta.

 

Algoritmi razdora

Vratimo se tvrdnji – za koju sam siguran da je tačna – koju je iznela Frensis Haugen: algoritmi koji odlučuju o plasmanu sadržaja na Fejsbuku (i drugde, dodao bih) vode polarizaciji stavova u javnom mnjenju. Iz svega što smo prethodno diskutovali verovatno još nije jasno kako, a ja vas uveravam da to uopšte nije teško razumeti.

Za čitaoce koji su pažljivo pročitali prethodne tekstove u ovom serijalu: setite se naše diskusije problema sa kojima se suočava trenutno najmoćniji AI sistem za analizu i produkciju prirodnog jezika, GPT-3. Pokazaje se da je taj sistem u stanju da savršeno oponaša diskurs bilo koje rasprave u kontekstu koji mu je dat u njegovom trening setu, ogromnom skupu podataka iz kojih je učio gramatiku jezika i pravila “jezičkih igara”, da upotrebim jedan Vitgenštajnov termin. Ali u trenutku kada naši upiti takvom sistemu počnu da referiraju na kontekste kojima on prethodno nije bio izložen, i koji po svojoj strukturi ne mogu lako da se povežu sa kontekstima upotrebe jezika kojima GPT-3 jeste bio izložen, on doslovce počinje da lupeta gluposti. Našem, prirodnom ljudskom umu se to, van izvesnih patoloških stanja, nikada ne dešava. Upravo od istog problema, samo manifestovanog na drugi način, pate i sistemi mašinskog učenja za plasman i preporuku sadržaja i kontakata na socijalnim mrežama.

Jednostavno je: ako se korisnici socijalnih mreža spontatno uključuju u komentarisanje pro et contra ali baš ma čega od sadržaja na mreži, odn. ako ih više angažuju diskusije u kojima neko protivreči stavovima koje iznose, algoritam koji za cilj ima da maksimizuje njihovo učešće će, u pokušaju da zadovolji objektivan cilj pred njega postavljen, upravo pokušati da korisniku koji to čini pruži što više sadržaja koji će ga motivisati da se tako angažuje i tako provede duže vremena na mreži.

Ako se korisnici spontano angažuju u pro et contra argumentacijama o teorijama zavere, algoritam će to prepoznati, i korisnicima koji učestvuju u takvim diskusijama pokušati da plasira više korisnika koji čine slično, i više linkova ka stranicama, knjigama, filmovima, dokumentarcima, već čemu god u povezanoj tematici.

Ekstremizam, isto. Zvezda ili Partizan, isto. Vlast i opozicija. Imenujte, asocijativni algoritam će naučiti.

I tako dobijamo začarane krugove: čovek je motivisan da brani neki stav – drugi čovek je motivisan da ga osporava – mreža je motivisana da ih zadrži u komunikaciji i nadmetanju i plasira sadržaje koji će započeti sledeće takve diskusije. Kada jednom neka pozicija zagovaranja dosadi, ili se isti argumenti u odbranu suprotne pozicije više puta ponove, prirodno će se izlaz tražiti u još i još radikalnijim formulacijama stava. Ako ste nekada videli kako izbije tuča u školskom dvorištu ili na fudbalskom stadionu, ili npr. kako izgledaju raspave na srpskoj političkoj sceni – nema neke velike razlike.

Jer algoritam nema ništa vrednije iz čega bi mogao da proceni ukus nekog korisnika do onoga što mu sam taj korisnik sam pruži, kao što smo prethodno to već diskutovali.

Ljudi se lakše odlučuju da reaguju na esktremnije stavove. Nekada to čine potirući ih, nekada promovišući ih. Antivakser, u strahu od mogućih (ekstremno nisko verovatnih, dodao bih) posledica vakcinacije, počinje da opsesivno bloguje i deli svoje sadržaje onlajn. Pristalice imunizacije će takve sadržaje na socijalnim mrežama osporavati, ili čak ismevati. Ali ako svi oni zajedno počinju u takvoj raspravi da provode više vremena onlajn, algoritam koji uči kako da ih tu zadrži će naučiti šta ih interesuje – i početi da im “baca koske”, plasira sadržaj kojima bi ih isprovocirao da nastave sa komentarima, pozitivnim ili negativnim svejedno. Svaki publicitet je dobar, zar ne?

Prema WSJ, jedna od istraživača u Fejsbuku, Monika Li, je otkrila da su 64% pridruživanja ekstremističkim grupama na toj socijalnoj mreži posledica preporuka koje su generisali njihovi automatski sistemi. Frensis Haugen, preko svega toga, tvrdi da je Fejsbuk u više navrata bio svestan toga da njihovi algoritmi opasno polarizuju javnost po raznim pitanjima, ali da su neke preduzete mere prevencije ili suspenzije bile kratkog daha, i ubrzo, sa ovim ili onim objašnjenjem, povučene. WSJ su imali uvid i u rezultate internih istraživanja u Fejsbuku koja su empirijski potvrdila da njihovi modeli za maksimizaciju učešća polarizuju stavove korisnika. Haugenova se sada zalaže za uređenje fidova na Fejsvuku u čistom hronološkom redosledu i potpunu eliminaciju algoritama koji plasiraju sadržaj da bi maksimizovali učešće na socijalnoj mreži.

 

Izlaz?

Dok Haugen rešenje problema vidi u većoj transparentnosti, zahtevajući u svojoj izjavi pred Komisijom Senata SAD pun pristup podacima za istraživanja kojima ne bi upravljao sam Fejsbuk, ja stvari vidim nešto drugačije. Oblast AI ima alternative kojima bi mogla da pristupi rešavanju ovakvih problema. Bez ulaženja u detalje, ali najmanje dva teorijska pristupa – pristup simboličke AI i eksplanatorne AI bazirane na kauzalnoj analizi, oba odgovorno programirana tako da reflektuju određene bitne etičke pretpostavke – ne bi bilo tako lako navesti da slepo kopiraju pristrasnosti korisnika kao sisteme bazirane na asocijativnom učenju. Ako se pitate pa zašto to ne radimo… Zato što je teže. Znam da je odgovor porazan, ali je istinit. Za kauzalne analize velikih i složenih grafova uzroka i posledica, kroz koje bi AI zaista rezonovala, a ne počivala na tek pukim asocijama (ma kog reda) je potrebna ogromna moć izračunavanja, dok se klasična simbolička paradigma u AI i dalje suočava sa fundamentalnim problemima i na nivou same reprezentacije problema koji treba rešiti. Ali nema nikakve sumnje da je to put kojim treba krenuti, suočeni sa problemima koje smo ovde razmatrali. O takvim alternativama, u nekom od narednih tekstova serijala Veštačka inteligencija.