Facebook: cum am abuzat platforma folosind propria-i moderare

Noriega · July 16, 2024

Ceea ce voi scrie acum a fost testat in the wild just for fun. Cea mai mare parte din metodele prezentate in aceasta postare nu mai sunt de actualitate, dar voi semnaliza corespunzator ce mai functioneaza si ce nu. Prima parte descrie cat de cat partea tehnica, dar pentru cine vrea sa citeasca doar partea amuzanta poate sa scrolleze pana la "partea fun".

Sistemul de moderare este compus din doua entitati: moderatorii umani si AI-ul. Ambele entitati aveau niste hibe foarte mari de care m-am folosit pana s-a schimbat intregul lor sistem de moderare. Fiind o companie mare apar periodic tot felul de schimbari, unele dintre ele rezolvand fara intentie anumite probleme.

Problema cu moderatorii umani:

sunt colaboratori de pe toata planeta
- cei mai multi sunt recrutati pentru o perioada scurta de timp (4-12 saptamani)
majoritatea celor care modereaza nu cunosc limba romana si folosesc servicii de traducere pentru moderare
- in general moderatorii folosesc Google Translate, si, probabil, unii folosesc sistemul de traducere proprietar de la Facebook
- serviciile de traducere, oricare ar fi ele, nu ofera intotdeauna un context corect si de multe ori nici traducerea corecta
a lucra pentru Facebook inseamna a urma proceduri si a urma regulile impuse de companie fara a te putea abate de la ele, chiar daca observi ca se intampla lucruri aberante din cauza lor

Problema cu AI-urile Facebook:

AI-ul proprietar pentru traducere era praf la limba romana
- la fel ca si alte LLM-uri, mai intai traduce din romana in engleza textul, apoi analizeaza traducerea in engleza pentru a decide daca textul respecta "Community Standards"
- doar ca acest AI traducea mult mai prost in 2021 decat o facea Google Translate in 2015, iar contextul era total diferit in traducere decat in limba in care a fost scris
  - nu stiu cat de bine traduce acum, tehnologia a avansat destul de mult in ultimii doi ani
AI-ul de moderare: odata ce a decis ca un text incalca "Community Standards" nu cred ca isi mai poate schimba perspectiva - este necesara interventia unui operator uman pentru a schimba decizia
tot un sistem automatizat de moderare se baza pe rata de succes a raportarilor, asa ca l-am violat

Context: eram pe reveneala dupa problemele de sanatate, dar depresia de care tocmai scapasem ma lasase fara vlaga. Nu mai aveam tragere de inima sa fac nimic, la munca eram praf, rotitele creierului ruginisera, sistemul meu dopaminergic dormea pe el. Asa ca am zis sa revin pentru o perioada la vechile indeletniciri si sa fac tot posibilul sa ma distrez macar. Deci, trolling pe net. Unde? Pe Facebook, unde sunt toti prostii. Daca sunt atatia prosti, tocmai eu se lipsesc? Mi-am gasit si partener, un prieten care toata ziua statea la munca pe telefon, si am dat drumul la treaba.

Atunci cand trollezi primesti o gramada de injurii si reclamatii. Am trecut prin cateva suspendari ale contului pana am invatat la ce este sensibil sistemul de moderare. Dar cea mai interesanta parte a fost cand m-am prins ca unele decizii se iau automat, iar unele reguli pot fi abuzate chiar daca moderatorii umani sunt cei care investigheaza reclamatiile. Ce am facut mai departe?

Am citit Community Guidelines si Community Standards ca sa aflu ce tip de reclamatii au cea mai mare sansa de succes si m-am apucat de teste. Acestea au fost cele mai utile pentru ce a urmat:

nudity (impact major)
- nu publicati pe Facebook poze cu bebelusi dezbracati
harrasement (impact major)
- acest report reason a fost vedeta - va explic mai jos cum il foloseam
violence (impact major)
- si acest report reason putea fi abuzat cu usurinta cand reuseam sa enervam oamenii si sa ii facem a ne ameninte
unauthorised sales (impact mediu)
- cu acest reason am facut ceva curatenie in cateva grupuri pe care se vindeau cai, gaini, porci, animale de companie
hate speech (impact mic)
- ii cam doare la banana pe cei de la Facebook de hate speech in limba romana
bullying (impact mic)
- in schimb functiona de minune reportul cu reason "hartuire", cu toate ca tot ce se incadra la hartuire se incadra si la bullying
sexual activity (impact mic)
- trebuia sa faca cineva o remarca ce tenta sexuala - ex: caut si eu o domnisoara tinerica pentru a face dragoste toata noaptea cu ea
- in schimb injuraturi ca "fa, daca te prind te fut" nu erau pedepsite cand faceam teste, decat daca se foloseau "violence" sau "harrasement" ca report reason

Legenda:
impact major - sanse mari sa fie penalizat cel raportat (peste 80%)

impact mediu - sanse medii sa fie penalizat (intre 50% si 70-80%)

impact mic - sanse mici sa fie penalizat, dar totusi exista o oarecare sansa

Urmatoarele sunt si acum puse la misto in lista de raportari (cel putin in Romania):

fraud or scam
- nici in ziua de azi nu am vazut sa aiba vreun efect, nici chiar atunci cand sunt sute de reporturi reale intr-o zi
- nu cred ca mai au destui operatori umani care sa investigheze aceste reporturi, asa ca le ignora
mocking victims
- am testat intensiv cateva zile - nu le pasa
  - iata ce postam cu diverse conturi: am fost violata, mama a fost violata de Securitate in fata mea, bunica mea a fost in lagarele naziste, am fost batut de tatal meu toata copilaria. Apoi lasam cu alt cont de-al meu comentarii pline de dispret la adresa victimei (ai meritat, sper sa mai patesti asta din nou etc), apoi raportam comentariul respectiv. Zero efect. Ii raportam si pe alti bagatori de seama care isi bateau joc. Nimic.
  - cred ca este pus acolo doar din motive legale, sau functioneaza insa ignora reporturile din unele tari
false information
- sunt 100% sigur ca reporturile pentru false information nu au efect - e pus acolo doar din motive legale
- acea notificare cu false information care apare sub postari se datoreaza trusturilor media, sau unor entitati influente care semnalizeaza dezinformarea
spam
- un singur report nu face diferenta - conturile vechi raportate pentru spam nu par a pati mare lucru (posibil sa ma insel)
bullying
- inainte avea un impact mic, acum sansele sa aiba efect un report pentru bullying sunt derizorii

In sfarsit, partea fun.

Pusi pe șotii, am inceput sa punem in aplicare teoriile pe care le aveam. Intre timp au mai aparut inca doua persoane in gasca noastra de trolli. Scopul era unul singur: sa bagam zilnic cat mai multe persoane in "facebook jail", adica sa fortam sistemul sa le suspende contul pentru o perioada de timp. Pentru cine nu stie, sistemul de penalizare de pe Facebook creste durata pedepselor chiar si pana la 3 luni. In unele cazuri am reusit sa "convingem" Facebook sa stearga cu totul conturile raportate de noi, dar in general, era foarte greu sa ajungem la nivelul ala si necesita multa manipulare pentru a enerva din nou si din nou acea persoana.

Victimele le agatam prin trolling. Noi trollam, cativa destepti erau ofuscati si se luau de noi. Dupa care se intamplau urmatoarele:

Report reason -> harrasement

Quote

Victima: @nemessis tu ar trebui sa zbori de pe acest grup
Eu: @victima te rog sa incetezi sa imi mai dai tag si sa ma mai contactezi
Victima: @nemessis hai dispari.
Eu: @victima te rog sa incetezi sa imi mai dai tag si sa ma contactezi in mod repetat. Imi creezi o stare de anxietate si frica
Victima: @nemessis hahaha ce sensibil esti

In momentul asta ii faceam report cu motivul hartuire la ultimele doua comentarii in care mi-a dat tag. Sansele de reusita erau de peste 90%. De ce? Pentru ca in categoria hartuire intra si asta, citez: "Repeatedly contacting a person who doesn't want to contact".

Bun. Pare simplu. Este intr-adevar, dar asta nu este tot. Daca ii repetam de mai multe ori sa nu imi mai dea tag si sa nu ma mai contacteze si o faceam sa intre in jocul meu, se adunau 6-7 taguri. Dupa care incepeam sa le raportez pe toate. Cel mai probabil primea pedeapsa pentru 4-5 dintre ele. Asta inseamna ca din start contul respectiv ajungea sa fie suspendat pentru mai mult timp, nu doar pentru una sau trei zile.

Partea interesanta este ca atat AI-ul cat si operatorii umani faceau aceeasi eroare. AI-ul pentru ca asa a fost calibrat, iar operatorii umani pentru ca sunt obligati sa respecte procedurile si regulile chiar daca in anumite situatii, cum e cea de mai sus, era aberant sa le respecte.

Pe langa faza cu raportarea pentru taguri mai foloseam destul de des si raportarile pentru expresii uzuale din limba romana. Daca cineva ne spunea "du-te si arunca-te in Dambovita", sau "du-te si spanzura-te" puteam sa raportam pentru hartuire sau pentru violenta. In cele mai multe cazuri aveam succes.

Metoda a functionat mai mult de un an. Cred ca la un moment dat un sefulet de departament de la Facebook le-a transmis superiorilor ca 3 cretini profita de procedurile lor ca sa suspende conturile userilor.

Impact: fiecare dintre noi suspendam intre 40 si 70 de conturi pe zi, de multe ori fiecare dintre ele primind mai mult de o singura pedeapsa in acea interactiune cu noi. A fost cel mai amuzant abuz, dar stati sa vedeti ce a urmat si cat de retardati au fost cei care au gandit urmatorul sistem.

Rata de succes a raportarilor

Si daca aveati impresia ca scaparea de mai devreme a fost penibila, hai sa va spun ce s-a intamplat cand am capatat o rata de succes atat de mare la raportari.

Cumva am capatat un nivel de incredere atat de mare, incat daca raportam pentru hartuire un comentariu inocent de tipul "salutare grup", existau sanse mai mult decat rezonabile ca acel user sa fie pedepsit de sistem pentru hartuire. Daca facea apel la decizie scapa de pedeapsa, dar unii dintre sarmani nu stiau ca pot face apel. La mai multe apeluri pierdute de noi parea ca ne pierdeam si din nivelul de incredere si din super puteri. Era un du-te vino in care ba aveam super puteri, ba nu le mai aveam si munceam sa le recapatam.

Pentru a ajunge la acest nivel de incredere era nevoie de 3-4-5 zile in care sa folosim intensiv metoda "nu imi mai da tag" (o faceam cam 7-8 ore pe zi), iar apoi capatam aceste super puteri. Daca nu mai intram pe Facebook o saptamana o luam de la zero. Foarte dubios sistemul.

A functionat doar cateva luni, dar a fost amuzant cand ii pedepseam pe cei mai vocali comentaci si admini de pe anumite grupuri. Nimeni nu mai intelegea ce se intampla, dar stiau ca suntem noi de vina.

Report reason -> any-> dumb Translator

Intr-o zi incercam sa ii agit pe niste bosorogi de pe un grup plin de iubitori ai lui Ceausescu si m-am gandit eu, ca baiatul destept

Quote

Ce ar fi sa scriu ceva pozitiv despre comunitatea gay si sa le bat obrazul bosorogilor ca ii trateaza pe gay ca pe niste fiinte inferioare? Sigur se vor agita, vor comenta ceva nasol despre gay si ii voi raporta pentru hate speech.

La cateva minute dupa ce am postat ma arde tot pe mine Facebook cu o suspendare de 7 zile pentru hate speech. Fac apel. Dupa mai putin de un minut primesc rezultatul apelului. Hate speech. Clar m-a ars AI-ul care a tradus textul meu. Iau textul, il postez in alta parte de pe alt cont de tavaleala cu optiunea de traducere automata in engleza. Mda. Ce am scris eu si ce a tradus imbecilul nu avea nici o treaba. Aia e. Am facut pauza de la Facebook. Intre timp mi-am setat toate conturile sa traduca automat postarile din romana in engleza. Cum vedeam ceva tradus prost, cu potentialul de a fi gresit interpretat, cum ii dadeam report. A mers binisor, dar prea rar dadea rateuri atat de mari si interpretabile precum a dat in cazul meu.

Inca mai functioneaza, dar dupa cum ziceam, cam rar apare oportunitatea de a incalca Community Standards din cauza traducerii eronate. In afara de asta sistemul de moderare este in clipa de fata aproape inexistent.

Report reason -> unauthorised sales

Stiati ca nu este permisa pe Facebook vanzarea de caini, pisici? Sau de porci? Sau de cai, capre, oi, miei si alte animale, fie ca sunt salbatice sau domestice? Eh, inainte de a renunta Facebook la armata de moderatori puteam intra pe grupurile unde se vindeau cai si porci si ii raportam pe toti vanzatorii. Nici cei care vindeau pentru consum animale sacrificate nu scapau. Important era sa existe atasate la postare poze cu animalul sacrificat. Rata de succes era bunicica, pe la medie, dar totusi apropiata de o rata mare. Cum zice Lenghel, spre zona verde. Imi aduc aminte ca in 2022, in perioada Pastelui, pe un grup dedicat au avut conturile suspendate aproape toti cei care vindeau miei sacrificati.

La un moment dat toate metodele au picat. Nu mai au destui moderatori, iar AI-ul lor este setat sa nu mai bage in seama majoritatea raportarilor. Ba mai si trimite cateodata mesaj ca nu sunt destui moderatori care sa se ocupe de reporturi din cauza Covid-19. In 2024. A fost util si amuzant, dar foarte obositor in acelasi timp. Acum sa vedem cum sta treaba cu Reddit. Acolo se fac bani

Spor.

Edited July 16, 2024 by Noriega

Nytro · July 17, 2024

Genial! Toate datele sunt aflate pe baza multiplelor incercari? Daca o persoana nu reactioneaza in vreun fel (e.g. comment-uri), sunt sanse sa i se blocheze contul pe baza postarilor existente? Nu se ia in considerare faptul ca niste useri trimite sute de reporturi? :))

Noriega · July 17, 2024

Quote

Toate datele sunt aflate pe baza multiplelor incercari?

Da @Nytro, am aflat totul prin incercari pentru ca multe luni de zile am facut rahaturile astea in aproape tot timpul nostru liber. Era un boost masiv de dopamina si o luasem razna cu totii. Pana si nevestele ne ziceau ca exageram si ca nu mai facem nimic altceva in afara de cacaturile astea.
Treaba cu super puterile a descoperit-o prietenul meu care este foarte paralel cu tehnologia. A inceput sa dea report la cateva comentarii si postari de tipul "salutare" si a primit mesaje de la facebook ca a dat jos textele respective, care chiar dispareau de pe Facebook si conturile deveneau inactive pentru cateva zile. Mergea pana si la mesajul automat "Sa le uram bun venit noilor membri"

Quote

Daca o persoana nu reactioneaza in vreun fel (e.g. comment-uri), sunt sanse sa i se blocheze contul pe baza postarilor existente?

Da. Am ars multi asa. Pitici Gratis spunea de acum 6-7 ani ca e in Facebook Jail non-stop pentru ca ii tot raporta lumea postarile si comentariile din 2012. Noi cautam pe intreg facebook postarile acelor useri si cum gaseam ceva ce stiam ca poate fi interpretat gresit de moderatori sau AI, sau ca incalca Community Standards, ii dadeam report de pe 2-3 conturi. Uneori pe doua conturi primeam mesaje ca nu a incalcat regulamentul, iar la al treilea il ardea. Practic la fiecare report se rula din nou flowul de verificare. Cred ca sistemul e la fel si acum, dar ii doare in pula de reporturi.

Mai e o smecherie cu comentariile de tip imagini care contin text. Textul din acele imagini este extras de Facebook si poate fi gasit in atributul "alt" al pozei. Daca imaginea contine, de exemplu, textul "moarte tiganilor" si o raportezi, e ca si cum ai raporta un comentariu de tip text.

Gasisem o smecherie si la functia de search. Daca cautam pe intreg facebook postarile sau pozele userelui, nu se afisau toate rezultatele. Dar dupa 3 ore se facea un fel de shuffle la rezultate si mai apareau si altele.

Acum este foarte limitat searchul. Cred ca de prin februarie sau martie au taiat din el. Eu ii spun "whatsapp update", pentru ca filtreaza foarte mult cautarile ce contin "whatsapp". Folosind anumite keywords in search se puteau gasi linkurile grupurilor romanesti de whatsapp postate pe diverse grupuri si pagini de Facebook, iar de pe grupurile de whatsapp se puteau extrage zeci de mii de numere valide de telefon in doar cateva ore, linkuri de zoom si alte informatii mai mult sau mai putin interesante. Pentru cei cu boti de spam, era o metoda buna de a gasi grupuri de whatsapp pe care sa spameze.

Pentru trolii ca noi, sa capatam acces la sute de grupuri de whatsapp a fost pomana curata. Pe un grup de whatsapp al unui complex rezidential s-a facut un poll folosind ceva site care ne-a permis sa votam cu multe proxyuri data si ora adunarii asociatiei de locatari. Joi la ora 14, parca. La ora aia toata lumea era la servici, asa ca s-au prezentat mai putin de 10 persoane. Dupa aia s-au certat intre ei pentru ca votasera 80 de persoane sa fie la data si ora respectiva adunarea, iar subiectul era important: montarea camerelor de supraveghere in bloc, dupa ce s-au spart niste locuinte. Asta cu whatsapp este o cu totul si cu totul alta poveste, la fel de amuzanta.

Tot la searchul pe Facebook mai este o smecherie ca sa fie afisate cu prioritate mai mare postarile unui cont cu un nume destul de comun. Sa zicem ca numele contului este Mariana Vasilescu si sunt inca 200 de conturi cu acelasi nume. Prima data accesezi profilul persoanei, apoi imediat bagi numele contului in search. Daca numele contului apare la sugestii cand scrii Mariana V, atunci inseamna ca iti va returna cu o prioritate mai ridicata postarile ce au legatura cu acel cont, dar tot vor mai aparea si cateva rezultate de la celelalte conturi. Functioneaza si acum binisor, dar nu prea mai afiseaza rezultate cu postarile la care acel cont a comentat, ci doar postarile contului in cauza.

Sunt multe smecherii micute dar utile. In momentul de fata nu imi mai aduc aminte de multe dintre ele.

Quote

Nu se ia in considerare faptul ca niste useri trimite sute de reporturi?

Dupa un an de zile s-au prins si ei

Edited July 17, 2024 by Noriega

Sign In

Facebook: cum am abuzat platforma folosind propria-i moderare

Recommended Posts

Noriega

Nytro

Noriega

Join the conversation

Browse

Activity

Pages