-

Het einde van A/B-testen in Adwords

Moeten we standaard Google’s nieuwe ‘Optimize ad rotation’ gebruiken en A/B-testen laten varen? Ja. Waarschijnlijk dacht je dat deze testen de manier zijn om de beste advertenties te ontdekken en te tonen, SEA-icoon Martin Röttgerding gooit dat beeld overhoop.

Vorige maand vond in Londen de Europese variant van het PPC-congres Herconf plaats. SEA-specialisten lieten zich bijpraten over onder andere Google Shopping strategieën, de nieuwe Adwords interface, Adwords Tools en Ad Copy Testing.

Die laatste talk over het testen van je advertentieteksten was de terechte winnaar van de contest “beste presentatie van het event”. De spreker Martin Röttgerding zal voor veel SEA-specialisten geen onbekende zijn; hij werd bekend met zijn inmiddels legendarische presentatie over Google Shopping campaign segmentation. Ook tijdens Heroconf stelde hij niet teleur.

Martin stelt in zijn presentatie “Debunking Ad Testing” dat de manier waarop we traditioneel onze advertentieteksten optimaliseren niet werkt, en we deze taak beter aan Google over kunnen laten. Een gewaagd statement dat hij met sterke argumenten onderbouwd.

De hamvraag: Moeten we standaard Google’s nieuwe “Optimize ad rotation” gebruiken en A/B-testen laten varen? Ja, aldus Martin.

Argument 1: Statistische significantie is een farce

De manier waarop we traditioneel te werk gaan in het testen van advertenties is: zet 2 advertenties naast elkaar in een advertentiegroep op “rotate indefinitely” (A/B test) en wacht net zolang tot er één significant beter presteert dan de andere. Pak vervolgens de winnaar en test die tegen een nieuwe variant. Op die manier zouden we telkens betere advertenties krijgen. FOUT dus.

Martin laat zien dat als we maar lang genoeg wachten er altijd wel een “statistisch significante winnaar” naar voren komt, EN dat als we maar lang genoeg doorgaan met diezelfde test diezelfde “statistisch significante winnaar” weer verdwijnt. De grap is dat hij aantoont dat dit zelfs bij A/A tests optreedt, laat staan bij A/B tests.

Sterk punt, zeker als je je realiseert dat als je op deze traditionele manier van ad testing 11x achter elkaar een nieuwe advertentie tegen de winnaar tot dan toe zou testen. Er is dan een zeer grote kans is dat je niet met de beste advertentie eindigt. (Stel je gaat voor 95% betrouwbaarheid in je A/B-test en test elke maand een nieuwe advertentie, dan heb je na een jaar met een kans van 0.95^11=0.57 de beste advertentie. Meer dan 40% kans op niet de beste dus.)

Uiteraard kun je je A/B-tests ook doen met een veel hogere eis voor de betrouwbaarheid (bijv: 99.5%) en daarmee de kans dat er onterecht een “statistisch significante winnaar” optreedt enorm verkleinen. Maar dat maakt A/B-testen in de praktijk weer erg lastig vanwege de grote hoeveelheid data die je nodig hebt om dan conclusies te trekken. Dit argument van Martin blijft wat mij betreft dus staan.

Argument 2: Simpson’s Paradox en verborgen causale variabelen

De traditionele manier van A/B-testen voor onze advertenties heeft veel last van Simpson’s Paradox. Volgens Martin’s test treedt dit zelfs in meer dan 10% van de gevallen op. Simpson’s Paradox is misschien wat lastig te bevatten, maar deze video legt het prima uit. Het komt erop neer dat wij tijdens het opzetten van onze A/B-test last hebben van ‘verborgen’ variabelen die een causaal effect hebben op de uitkomst van onze test. Een deel van die variabelen kunnen we controleren in de test; bijvoorbeeld het device waarop de advertentie getoond wordt.  

Een ander deel van die variabelen kunnen we niet 100% controleren, maar het effect ervan wel verwerken in onze analyses; denk aan het deel van de impressies van een advertentie op het Search Partner network versus Google netwerk, of impressies met Sitelinks. En dan is er nog een heel aantal verborgen variabelen dat een causaal effect heeft op het gedrag van onze advertenties waar we geen controle over hebben én geen mogelijkheid om het effect te verwerken in onze analyse (omdat we de data niet hebben). Denk bij die laatsten bijvoorbeeld aan het aantal impressies met de Seller rating extension (grote invloed op CTR), of of de gebruiker je advertentie daadwerkelijk heeft gezien (naar beneden scrollde als deze onderaan de SERP staat).

Stel, je draait een A/B-test en advertentie A krijgt “toevallig” een disproportioneel grote hoeveelheid vertoningen met de Seller Ratings erbij. Hierdoor heeft A waarschijnlijk de beste CTR en wint je test, onafhankelijk van de kwaliteit van wat je wilde testen; de advertentietekst.

Het gaat dus mis als er een advertentie disproportioneel veel vertoningen krijgt die postief of negatief beinvloed worden door een voor onze verborgen variabele.  Als ik Martin’s test goed begrijp, treedt dit verschijnsel in zo’n 10% van de gevallen op.

Als je zelf secuur bent bij je A/B-tests en in de analyse onderscheid maakt tussen de prestaties op het Search Partner netwerk en het Google Netwerk, dan zul je de waarde van dit argument herkennen; de CTR verschilt enorm bij Search Partners en Google.

Dit punt is een sterk argument wat mij betreft. Toch voelt het voor mij nog niet af. Dit argument is iets wat ik eigenlijk verder wil uitzoeken. Wat zijn die verborgen variabelen, en hoe vaak treedt die disproportionele verdeling in vertoningen op?

Argument 3: Positie feedback

Als een advertentie een hogere CTR heeft, krijgt deze een hogere ‘auction quality score’. Die hogere hogere ‘auction quality score’ leidt tot een hogere positie, en die leidt weer tot een hogere CTR.

Dit zie je ook vaak in je A/B-tests; als je bijvoorbeeld een exact match keyword hebt met een gemiddelde positie van 1.3, dan kan het best zijn dat advertentie A een gemiddelde positie heeft van 1.2 en advertentie B een gemiddelde positie van 1.4. Die positie heeft effect op de CTR’s en de uitkomst van je test.

Dit argument staat als een huis wat mij bereft. Zelfs als je je bewust bent van de verschillende posities van je advertenties is het praktisch onmogelijk om het effect ervan in je analyse mee te nemen.

Argument 4: Je kunt niet op tegen Google’s algoritmen

Eigenlijk zegt Martin hier dat het in Google’s belang is om altijd de beste advertentie te tonen, en dat Google’s algoritmen beter zijn in het vinden van de beste advertentie dan jouw handmatige optimalisaties of je eigen algoritmen.

Dit argument voelt voor mij niet goed. Het is in Google’s belang om zoveel mogelijk kliks op advertenties te krijgen. De algoritmen zullen dus de CTR optimaliseren (iets wat Martin ook beaamt). Echter, een betere CTR wil niet zeggen dat het voor de adverteerder ook de beste advertentie is. Denk aan headline A (“Gratis Vuurwerk Afhalen”) versus headline B (“Vuurwerkpakket vanaf €150”). Het zal duidelijk zijn welke de meeste kliks krijgt en welke het meeste geld oplevert.

Daarnaast heb ik zelf niet zo veel vertrouwen in Google’s (AI) algoritmen. Het kost me veel moeite om Google’s Smart Bidding-algoritmen beter te laten presteren dan mijn eigen bid management oplossingen. Vaak legt Google het af. Iets wat ik ook terughoor van veel andere SEA specialisten. Dit vierde argument is naar mijn idee niet sterk.

Argument 5: we kunnen niet testen op variabelen buiten onze controle, Google wel

Tijdens de ad auction die bepaalt welke advertentie wordt getoond, gebruikt Google meerdere factoren (variabelen) die buiten ons zicht en controle zijn. Denk hierbij aan de zoekgeschiedenis van de gebruiker, het eerdere klikgedrag van de gebruiker, het type persoonlijkheid van de gebruiker (zijn het koopjesjagers, of luxepaarden? Lezen ze vaak reviews of beslissen ze snel. etc). Wij hebben geen inzicht in die factoren, Google wel. Google kan theoretisch gezien voorrang geven aan de headline A “…met 20% Korting” bij prijsgevoelige gebruikers, en headline B “…met 24/7 Support” bij mensen die service waarderen.

Eigenlijk maakt dit het idee dat er altijd één winnaar, één beste advertentie, moet zijn belachelijk. In verschillende situaties zijn verschillende advertenties de beste. Google gebruikt volgens Martin meerdere voor ons “ontargetbare” variabelen om te bepalen welke advertentie op dat moment de beste is.

Ik vroeg Martin om hard bewijs voor deze stelling, maar dat kon hij niet geven. Ondanks dat er geen hard bewijs is deel ik zijn vermoeden; wij kunnen targetten op “mobile device”, maar Google weet of het een dure grote iPhone is, of een een goedkope kleine Android. Hoe aannemelijk is het dat ze deze informatie niet gebruiken in de auction? Dit argument telt wat mij betreft.

Conclusie

Tja. Daar zit je dan, net als ik waarschijnlijk. Dacht je jarenlang dat A/B-testen de manier is om de beste advertenties te ontdekken en tonen, komt dit verhaal om de hoek. Martin heeft mij op zijn minst ernstig aan het twijfelen gezet over A/B-testen van advertenties, en eigenlijk al overtuigd dat dit voor de meeste klanten niet de weg voorwaarts is. Ik geef Google’s “Optimize ad rotation” vaker het voordeel van de twijfel en laat Google bepalen welke advertentie wordt vertoond.

Deel dit bericht

5 Reacties

Tom van den Berg - Online Dialogue

Hallo,

Goed dat je hierover blogt. De uitleg over “Statistische significantie” klopt alleen niet.

Het klopt inderdaad dat een groot deel van de testen (zowel A/B als A/A testen) een keer statistisch significant wordt gedurende de looptijd. In jou uitleg lijkt het nu alsof je de test dan ook mag uitzetten. Dit is NIET het geval. Je moet vooraf bepalen hoelang een test moet lopen en hem na die vastgezette looptijd uitzetten. Je mag niet tussendoor kijken en wachten totdat de test significant wordt.

Door je huidige uitleg, gaan andere bezoekers significantie verkeerd interpreteren en dat is geen goede ontwikkeling in de markt.

Wouter

Kan je dat uitleggen Tom? Je geeft aan dat statistische significantie verkeerd wordt uitgelegd en komt dan met een vuistregel. Maar waarom mogen we niet tussendoor naar een test kijken of deze statistisch sigificant is? En waarom mag je de test dan niet uitzetten? Valt er niet ook wat te zeggen voor het zsm doorvoeren van verbeteringen zodra het significant duidelijk wordt dat die er is?

Tom van den Berg - Online Dialogue

Dat kan ik zeker. Dit is een artikel wat het goed uitlegt: http://www.evanmiller.org/how-not-to-run-an-ab-test.html.

Je mag uiteraard wel kijken (dat kan je niet verbieden), je mag alleen niks met de tussentijdse resultaten doen. De looptijd bepaal je vooraf.

Ik snap dat het verleidelijk is om gelijk een variant door te voeren zodra die significant beter is, dit gebeurd alleen heel vaak in elke test (zoals je zelf al aangaf).

Het probleem is dat veel test tools zo zijn ingesteld of zo waren ingesteld. Het is onze taak om de CRO markt de juiste werkwijze bij te brengen en dan helpt een artikel zoals bovenstaande niet, dus lijkt mij goed om aan te passen.

Nils Rooijmans

@Tom: dank voor je bijdrage, met name de link!

Vanuit de statistische theorie heb je helemaal gelijk, en wil je bij een AB test eigenlijk vooraf de sample size (en daarmee doorlooptijd) bepalen. Daarmee verklein je de kans op “repeated significance testing errors”.

Echter het punt van Martin en mijzelf is dat de meeste SEA specialisten, waaronder ikzelf, zo niet te werk gaan. We nemen de statische theorie niet zo nauw, en houden van shortcuts die ons sneller meetbare verbeteringen in uiteindelijk rendement (ROAS/Winst) opleveren. De kosten van “zekerheid” in statische termen zijn we niet bereid te nemen; vaak is/lijkt er sneller meer te verdienen door een gokje te nemen.

Tom van den Berg - Online Dialogue

@nils het probleem is dat die twee niet samengaan. Om zekerheid te hebben over de verbetering in je rendement moet je juist de “regels” rondom statistiek volgen. Anders kan je er niks over zeggen. Dus ik vraag mij af hoe jullie dat doen.

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond