-

Hoe detecteren social media platforms verboden content?

Onlangs kwam het bericht naar buiten dat afbeeldingen van Zwarte Piet niet meer toegestaan zijn op Facebook en Instagram. Dit is niet de eerste ‘verbannen’ content op de social media platformen. Volgens de richtlijnen van het bedrijf zijn gewelddadige content, naaktbeelden en terroristische aansporingen bijvoorbeeld ook verboden. Maar hoe worden alle posts van ruim drie miljard maandelijkse gebruikers gecontroleerd op verboden inhoud?

Rapporteren versus geautomatiseerde algoritmes

In het geval van Zwarte Piet kunnen gebruikers de content rapporteren. Deze wordt vervolgens door medewerkers van Facebook gecontroleerd en verwijderd. Het is ook mogelijk om algoritmes te ontwikkelen die (een groot gedeelte van de) content herkennen en – in het geval van schending van de richtlijnen – automatisch verwijderen. Dit gebeurt al bij verschillende categorieën zoals kinderporno, geweld of terroristenpropaganda. We lichten twee categorieën van modellen toe die hiervoor ingezet kunnen worden:

Object detection

Bij object detection wordt een model getraind om bepaalde objecten in een afbeelding te herkennen. In het geval van Zwarte Piet wordt een model getraind dat kenmerken die Zwarte Piet typisch heeft – zoals een donkere huidskleur, rode lippen, gouden oorringen, krullend haar, een mutsje met een veer en eventueel zelfs een roe – herkent. Een medewerker moet hiervoor handmatig de locatie van Zwarte Piet in afbeeldingen markeren; dit wordt het labelen van afbeeldingen genoemd. Nadat er voldoende afbeeldingen gelabeld zijn, wordt met behulp hiervan het model getraind. 

Wanneer er een nieuwe afbeelding wordt gepost die veel van de kenmerken van Zwarte Piet bevat, kan de afbeelding als verdacht worden geclassificeerd en wordt deze vervolgens eventueel verwijderd. 

Binary classification

Dit is een tweede categorie die toegepast kan worden. We nemen Zwarte Piet weer als voorbeeld. Als er veel afbeeldingen van een bepaald onderwerp zijn verzameld, wordt er per afbeelding handmatig ingevoerd of dit een Zwarte Piet is: ja of nee? Dit handmatige invoeren wordt het labelen van een afbeelding genoemd. Net als bij object detection, wordt het model hier getraind met de gelabelde afbeeldingen. Als dit gebeurd is, herkent het model op termijn zelf wanneer een afbeelding een Zwarte Piet bevat en kan deze verwijderd worden. 

In de praktijk worden object detection en binary classification soms ook gecombineerd. Hierbij doet het object detection model voor alle afbeeldingen de eerste scan op ‘verdachte’ objecten (zoals Zwarte Piet). Het binary classification model is gespecialiseerd in het definitieve oordeel (is er sprake van een Zwarte Piet of niet)? 

Als een algoritme eenmaal geïmplementeerd is, bespaart dit veel tijd. Daarnaast vervangt dit het, soms verschrikkelijke, werk van de moderators die blootgesteld kunnen worden aan shockende content. Het feit dat er bij Zwarte Piet gebruik wordt gemaakt van enkel rapporteren kan meerdere redenen hebben. 

Wanneer dan toch rapporteren?

In het verleden zijn er vaker (pijnlijke) fouten gemaakt, wat tot imagoschade kan leiden. In 2015 heeft Google bijvoorbeeld een label van hun image-labeling technologie verwijderd omdat deze donkere mensen classificeerde als gorilla’s. Dit soort fouten liggen erg gevoelig en kan zelfs als racistisch bestempeld worden. Hierdoor kan het een keuze zijn om content handmatig te beoordelen en zo fouten en imagoschade te voorkomen.

Zoals we hierboven al toelichtten, vraagt een algoritme veel data die handmatig gelabeld moet worden. De kans is aanwezig dat Facebook ook voor de Zwarte Piet content een algoritme wil ontwikkelen, maar hier simpelweg nog niet genoeg input voor heeft. Daarnaast is er nooit een garantie dat een algoritme 100% goed werkt.

Over de auteurs: Willem van der Geest en Romain Huet zijn senior data scientist bij TMC Data Science.

Op de hoogte blijven van het laatste nieuws binnen je vakgebied? Volg Emerce dan ook op social: LinkedIn, Twitter en Facebook.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond