Computer vision: the next big thing

Gezichtsherkenningstechnologie wordt steeds krachtiger. Naast zeer nauwkeurige herkenning van personen is het nu zelfs mogelijk de emoties van gezichten te lezen. Een nieuw marktsegment met tal van nieuwe spelers en kansen. Zowel off- als online. Van marketing tot e-commerce.

Steeds meer Chinese vrouwen kunnen geen dag meer zonder hun zipai shenqi, oftewel Goddelijke Selfietools. Deze zeer populaire foto-apps gebruiken gezichtsherkenning en 3D-modeling om de gezichten van gebruikers smaller te maken, ogen ronder en groter en de huid blanker. Deze app, genaamd MeituPic van marktleider Meitu, is inmiddels al op ruim negenhonderd miljoen telefoons geïnstalleerd. Tien procent van de vijfhonderd miljoen gebruikers gebruikt de app elke dag.

De techniek van MeituPic wordt ook gebruikt door het Chinese socialvideoplatform Meipai, dat dagelijks ruim 270 miljoen views faciliteert. Niet geheel verrassend kondigde Meitu eind augustus dan ook zijn in Hongkong geplande IPO aan die het bedrijf een waarde van ruim twee miljard dollar moet geven. En waarmee het onder andere zijn verdere internationale uitrol wil financieren. Want naast China is men reeds actief aanwezig in de Verenigde Staten, de UK, Mexico, evenals in Japan en andere Aziatische landen.

Meitu bevindt zich in de voorhoede van een snel aanzwellende golf Chinese startups die gezichtsherkenning – of het bredere computer vision – hebben verankerd in hun businessmodel. Zij domineerden dan ook de veertiende European Conference on Computer Vision, die twee maanden geleden in Amsterdam werd gehouden. De eerder georganiseerde Chinese Conference on Computer Vision telde in totaal ruim achthonderd deelnemers. Daaronder ook AI-startups als Megvii, SenseTime en DeepGlint. Waarbij de eerste twee zich meer richting financiële dienstverlening bewegen. DeepGlint baarde onlangs nog opzien met in Wired aangekondigde plannen om de data van miljoenen surveillancecamera’s doorzoekbaar te maken. “Alleen het gebied rond Tiananmen Square (het Plein van de Hemelse Vrede in Beijing, red.) levert dagelijks al achttienhonderd terabyte aan videodata op”, aldus CEO Bofei He. “Wij kunnen daarmee niet alleen specifieke personen identificeren, maar bijvoorbeeld ook personen die zich verdacht bewegen of bagage achterlaten.”

Smile to Pay
De eveneens op twee miljard dollar gewaardeerde startup Megvii is de ontwikkelaar achter het Face++ cloudserviceplatform voor gezichts- en objectherkenning. Sinds de lancering in 2012 maakten al ruim tienduizend ontwikkelaars gebruik van Megvii’s API. Onder de gebruikers bevinden zich Chinese socialnetwerksites als Sina, Weibo en Renren, maar ook Alipay. China’s grootste digital paymentservice gebruikt Megvii’s software onder meer voor de autorisatie achter zijn ‘Smile to Pay’-mobiele betalingsoptie.

Concullega SenseTime richt zich met zijn gezichtsherkenningssoftware juist weer hoofdzakelijk op de zeer snel groeiende Chinese markt voor online leningen. Met Rong360.com als een van de klanten, dat inmiddels ook bekendstaat als China’s ‘financiële online supermarkt’. En in de afgelopen vier jaar ruim vijftig miljard aan leningen uitzette. “Via dit kanaal hebben wij ook toegang tot zeer waardevolle data waarmee wij onze dienstverlening steeds verder kunnen uitbreiden”, aldus CEO Xu Li van SenseTime, dat inmiddels ook werkt voor surveillancebedrijven, shopping malls en diverse socialmediaplatformen.

Deze op 250 miljoen dollar gewaardeerde startup won onlangs nog twee eerste prijzen in de ImageNet-competitie, oftewel de ‘Olympische Spelen van de computer vision-sector’. Net als de meeste andere deelnemers borduurt SenseTime voort op een nieuwe generatie gezichtsherkenningstechnologie. De eerste baseert zich op de afstand tussen vaste gezichtskenmerken en de wijze waarop fotopixels clusteren om bijvoorbeeld een neus of oog te vormen. Waarbij data wordt gematcht met reeds vastgelegde gezichten in een database, net als met vingerafdrukken. De kwaliteit van de match hangt daardoor wel sterk af van de kwaliteit van het te matchen beeldmateriaal en de omvang van de gebruikte database.

De nieuwe generatie ondervangt dat door deep learning, een vorm van machine learning die gebruikmaakt van op de architectuur van ons brein gebaseerde neurale netwerktechnologie. Net als onze hersens kan deze technologie ook voorspellingen doen op basis van context, en tegelijk zelf de grenzen ervan bepalen. Een bekend voorbeeld hiervan is het door Google X ontwikkelde neurale netwerk dat met zijn zestienduizend processors en miljard onderlinge connecties de opdracht kreeg kattenfilmpjes op YouTube te analyseren. Door het kijken van miljoenen video’s leerde het netwerk zichzelf om specifieke katten te herkennen op basis van meerdere variabelen.

Rusland
Op eenzelfde wijze kan het systeem onbekende delen van gezichten of voorwerpen zelf invullen. En heeft het dus niet langer ‘perfect’ beeld nodig om een hoogwaardige identificatie te maken. In een in juni 2015 gepubliceerd rapport beschrijven Google-onderzoekers hoe hun eigen FaceNet-technologie na training met een 260 miljoen beelden tellende dataset in staat bleek om 86 procent van de random online gevonden foto’s accuraat te identificeren. Grote spelers als Microsoft, NEC, IBM en Facebook melden soortgelijke percentages.

’s Werelds grootste sociale netwerk claimt zelfs binnen enkele seconden een specifieke persoon uit de totaal ruim 250 miljard geüploade foto’s te kunnen herkennen. Waarbij steeds vaker gebruik wordt gemaakt van andere zichtbare persoonlijke kenmerken, zoals lichaamsdelen, houding en kleding.

Ook het Russische social platform Vkontakte, dat met name in Oost-Europa en Rusland zeer populair is en ruim honderd miljoen leden telt, koppelt sinds maart zijn profielen aan de Russische FindFace-app. Een app die de doorsneegebruiker de mogelijkheid biedt om de identiteit van onbekenden op foto’s in luttele secondes te achterhalen. In een interview met The Guardian claimen de twee Russische eigenaars van de app al meer dan een half miljoen gebruikers te hebben. Die zouden tezamen in twee maanden tijd al meer dan drie miljoen foto’s hebben gecheckt, met een succesratio van ruim zeventig procent.

Het eveneens Russische VisionLabs, dat eerder samenwerkte met Google en Facebook, haalde in juli ruim vijf miljoen dollar risicokapitaal op voor verdere ontwikkeling van zijn Luna-softwareplatform, dat momenteel met name wordt gebruikt om (potentiële) zakenpartners real time te herkennen. Daarnaast werkt VisionLabs ook hard aan toepassingen voor onder meer de retail- en travelsector.

In beide sectoren is gezichtsherkenning bezig met een opmars. Zo worden bezoekers van de Amerikaanse luxeketen Saks Fifth Avenue tegenwoordig al nauwkeurig vastgelegd door een aantal discreet geplaatste HD-camera’s. Via de aangeschakelde gezichtsherkenningssoftware krijgt het winkelpersoneel direct een seintje zodra ‘high value customers’ de winkel binnen lopen. Mede daardoor kunnen ze hen persoonlijk begroeten en wijzen op relevante nieuwe producten en aanbiedingen. Aan de andere kant wordt het personeel ook gewaarschuwd bij bezoek van notoire winkeldieven.

Ondanks dat retailers niet zo open zijn over het gebruik van deze opmerkelijke toepassing, blijkt toch uit een in 2015 gehouden enquête dat meer dan de helft van alle Britse winkels voor luxekleding inmiddels een vorm van gezichtsherkenning in gebruik heeft.

Programmatic
En dat geldt ook voor steeds meer hotels. De ingang van de Hilton R&D-afdeling in Virginia wordt bijvoorbeeld bewaakt door ‘Connie’, de naar oprichter Conrad Hilton vernoemde robot die gezichtsherkenningssoftware aan de kunstmatige intelligentie van IBM’s Watson-computer koppelt. Connie weet wie er wel en niet naar binnen mag, en kan bezoekers zelfs persoonlijk relevante winkel- of restauranttips geven. In verreweg de meeste hotels en winkels verdwijnt Connie echter achter de balie, waar ze medewerkers helpt hun werk beter te doen. “Wij zien een duidelijke trend waarbij hotels het verblijf van hun klanten steeds verder proberen te personaliseren”, aldus Kees van Donk, director Hospitality EMEA van de Japanse gezichtsherkenningsspecialist NEC. “Het kunnen identificeren en profileren van gewaardeerde vip’s of andere doelgroepen is voor ons van grote waarde. Dat geldt overigens ook voor steeds meer pretparken, stations, vliegvelden en andere leisure- en reisgerelateerde omgevingen.”

En uiteraard wordt gezichtsherkenning online ingezet. Een van de spelers daar, de Nederlands-Israëlische startup Relevancy Data, draait daarbij echter de rollen om. Hun software analyseert namelijk niet de gezichten van consumenten, maar van hoofdrolspelers in door publishers en adverteerders getoonde video’s. Zijn dat bijvoorbeeld celebrities, wat is hun leeftijd en geslacht en wat voor merk kleding dragen zij? “Doordat je weet wie er in de video’s te zien zijn, weet je vaak ook veel nauwkeuriger welke doelgroepen ernaar kijken”, aldus Michal Hubschmann, die met haar startup inmiddels een pivot richting virtual reality heeft gemaakt.

“Door die kennis beschikbaar te maken bij het programmatic inkopen van vertoningen kun je de content effectiever koppelen aan pre-rolls of andere video advertising”, aldus de oprichter. Tijdens een proef op YouTube voor BMW behaalde Relevancy Data een uplift van 42 procent ten opzichte van zonder hun data vertoonde pre-rolls.

In het verlengde hiervan vroeg Snapchat overigens onlangs patent aan op software die het mogelijk maakt advertenties te plaatsen op basis van herkende gezichten of objecten in geüploade foto’s. Een soort visuele AdWords dus, maar dan met een paar aardige extra’s. Zo kunnen gebruikers straks bijvoorbeeld foto’s filteren op basis van steekwoorden als Empire State Building, en krijgen ze daarbij de mogelijkheid een gesponsorde overlay te plaatsen, zoals een klimmende King Kong.

Apple
Dergelijke services worden nog veel relevanter als de adverteerder erin slaagt om ook de gemoedstoestand van de gebruiker in te schatten. Bedrijven als Apple en Microsoft werken dan ook op meerdere fronten aan mogelijkheden om emoties uit digitaal beeldmateriaal te destilleren. Met Project Oxford introduceerde Microsoft vorig jaar al deep learning tools voor spraakherkenning en real time vertaling voor Cortana en Skype.

Tijdens het eigen Future Decoded-event demonstreerde toponderzoeker Chris Bishop de werking van de technologie. Met behulp van Bishops expressieve gelaat verschenen in totaal acht herkenbare emoties op het grote scherm: woede, minachting, angst, walging, blijheid, verdriet, verrassing en een neutrale pose. Voor developers is sindsdien een emotion detection API beschikbaar gesteld, in bèta. “Daarmee kunnen ze bijvoorbeeld apps maken om de reactie van gebruikers op store displays, films of eten te herleiden”, aldus de onderzoeker. “Of een messaging app die verschillende opties toont op basis van de overheersende emotie in geappte foto’s.” Verschillende multinationals, waaronder Unilever en Coca-Cola, maken inmiddels ook al gebruik van emotions analytics om hun marketingcampagnes te finetunen.

Het klaarblijkelijke succes van deze aanpak was begin dit jaar voor Apple zelfs dé reden om de in Denver gevestigde marktleider Emotient te kopen. Eerder kocht het bedrijf al het Zwitserse Faceshift, waarmee gezichtsuitdrukkingen van gebruikers in avatars kunnen worden geplaatst. En werd ook 3D-sensingbedrijf PrimeSense overgenomen. De software van deze Israëlische firma is zo gevoelig dat het zelfs de hartslag van gebruikers zegt te kunnen zien. Hiermee benadert PrimeSense de verregaande mogelijkheden die nu ook beschikbaar komen in het VR-domein. Het in Montreal gevestigde Retinad Analytics analyseert bijvoorbeeld oogbewegingen, hartslag en transpiratie reeds in virtual reality. Dankzij de zeer directe connectie tussen gebruiker en head mounted display kunnen maar liefst zestig metingen per seconde worden verricht.

Retinad gebruikt de data voor het personaliseren van advertenties, die het bedrijf overigens zelf in VR-format produceert. En deelt dezelfde data met contentmakers, die hun content zo scherper kunnen afstemmen op voorkeuren of gewenste reacties van consumenten. “Ons analyseplatform helpt VR-producenten en merken begrijpen hoe gebruikers met hun platform en content interacteren”, vertelt Samuel Poirier, de Canadese oprichter van Retinad. “Dat is extreem nuttige informatie voor elke applicatie. Als je als developer weet hoe een gebruiker reageert, en uiteindelijk dus ook hoe hij denkt, kun je hem letterlijk alles verkopen.” Een aanlokkelijk vooruitzicht dat de opmars van computer vision alleen maar verder zal aanwakkeren.

Vision-as-a-service
Steeds meer apps maken gebruik van gezichtsherkenning om diensten te autoriseren of personaliseren. Uitdaging voor de app-makers is de hiervoor benodigde rekenkracht. Die is doorgaans niet aanwezig op smartphones, waardoor een beroep moet worden gedaan op de cloud. AlchemyAPI biedt in dat kader een elegante ‘vision-as-a-service’-oplossing aan. Om het proces van beeldherkenning te versnellen, doorzoeken de algoritmes van de in Denver gevestigde startup geheel zelfstandig enorme hoeveelheden online beelden, om deze vervolgens vanuit voortschrijdend inzicht te labelen. Inmiddels heeft IBM AlchemyAPI overgenomen en aan de eigen Watson-supercomputer gekoppeld.

Perceptio, een startup van twee van Harvard en MIT afkomstige AI-experts, claimt dat door hen ontwikkelde software de zeer complexe berekeningen die nodig zijn voor gezichtsherkenning wél door een smartphone kan laten verrichten. Hoe de startup dat precies doet, is niet duidelijk, maar blijkbaar is het een goed verhaal: eerder dit jaar nam Apple Perceptio voor een onbekend bedrag over.

Privacy
Privacy-  en consumentenorganisaties maken zich steeds meer zorgen over de krachtiger wordende gezichtsherkenningstechnologie. In de Verenigde Staten werd hier afgelopen maanden al op hoog niveau over vergaderd. De privacyvoorvechters stapten onlangs echter uit het overleg, omdat bedrijven als Facebook en Google veel te eenzijdig naar de eigen (financiële) belangen zouden kijken. Eerstgenoemde kreeg hier inmiddels zelfs al een rechtszaak over aan de broek.

Volgens een recente enquête van First Insight onder ruim duizend Amerikaanse consumenten geeft 75 procent van alle respondenten overigens aan gezichtsherkenning in winkels bij voorkeur te mijden. Volgens hetzelfde onderzoek geeft 55 procent echter ook aan onder bepaalde voorwaarden open te staan voor de mogelijkheden ervan. Het gebruik moet hen dan wel een duidelijk voordeel opleveren, en betrokken bedrijven moeten helder en ondubbelzinnig over de precieze toepassing communiceren.

Campagne
In samenwerking met Expedia lanceerde Hawaï Tourism Authority onlangs een met name op millennials gerichte reclamecampagne. Geïnteresseerden die toestemming gaven, kregen een geheel gepersonaliseerde video van Hawaï’s voornaamste toeristische attracties aangeboden. Toestemming is vereist, omdat Expedia de getoonde videobeelden aanpast op basis van gezichtsuitdrukkingen en oogbewegingen.

In de openingsbeelden komt direct een serie uiteenlopende attracties voorbij, van een relaxte strandvakantie, de vele watersportmogelijkheden tot een jungle-tocht. De resterende content wordt op basis van de vastgelegde reacties uitgeserveerd. “Vanwege hun voorkeur voor gepersonaliseerde reizen en content verwachten we dat we met name millennials zullen bereiken met deze campagne”, stelt Leslie Dance, VP Marketing & Product Development van de toerismeorganisatie, die zeven miljoen dollar in de campagne investeerde.

Dance verwacht maximaal negentig miljoen kijkers in hun doelgroep te bereiken. “Het is zowel voor ons als voor Expedia de eerste keer dat we gebruikmaken van deze technologie. We hebben onderling wel afgesproken dat reacties van kijkers op content of andere persoonlijke gegevens op geen enkele wijze zullen worden bewaard of gedeeld.”

* Dit artikel verscheen eerder in het novembernummer van Emerce magazine (#153).

Illustratie: Annemarie Kleywegt (in opdracht van Emerce)

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond.

terug