Best practice - 5 januari 2015 - 14:45

De zes grootste valkuilen bij A/B-testen van e-mailcampagnes

Als marketeer weet je dat je door middel van A/B-testen gemakkelijk kunt onderzoeken welke variant van je e-mailcampagnes het beste resultaat oplevert. Maar alleen als je deze A/B-testen goed uitvoert, krijg je informatie waar je ook daadwerkelijk mee uit de voeten kunt. Helaas zie ik in de praktijk nog dagelijks A/B-testen voorbij komen die verkeerd worden uitgevoerd of verkeerd worden geïnterpreteerd.

Zo vergeet men nogal eens de juiste instellingen of worden de successen tijdens een testfase overgewaardeerd, waardoor het succes op de langere termijn enkel maar zal tegenvallen. Zo verandert een valkuil ongemerkt in een vrije val. Wat zijn de zes gevaarlijkste valkuilen bij A/B-testen van e-mailcampagnes. En nog belangrijker: hoe omzeil je ze?

1) We selecteren de verkeerde controlegroepen

Om betrouwbare testresultaten te krijgen, is het van belang dat je een random geselecteerde controlegroep samenstelt. Dit is de groep waarmee je het resultaat van de A/B-testen kunt vergelijken. Veel e-mailmarketingtools bieden echter de mogelijkheid een controlegroep willekeurig op te splitsen.

Het lijkt dan ook heel gemakkelijk om A/B-testen uit voeren, maar het is toch lastiger dan je denkt. Iedere test die je uitvoert heeft namelijk een andere doelstelling en/of doelgroep. De testresultaten zijn dan ook niet altijd even representatief voor de totale database. Door gebruik te maken van een vaste controlegroep en daarnaast per campagne nieuwe en aparte controlegroepen samen te stellen krijg je veel nauwkeurigere informatie.

De nieuwe controlegroep kun je vervolgens het beste eerst nog een keer opsplitsen voor een A/A-test. De beste resultaten hiervan neem je vervolgens mee in de A/B-test met de vaste, random geselecteerde, controlegroep.

2) We meten de verkeerde zaken

Zodra de testvarianten zijn opgemaakt en uitgevoerd, analyseren marketeers de verschillen meestal in een singular performance indicator. Hoewel dit gemakkelijk laat zien hoe een enkele wijziging invloed heeft op een bepaald aspect van de nieuwsbrief, zegt het niks over tegenstrijdige trends of meer algemene wijzigingen.

Om een eventuele trend of groter patroon te ontdekken, is het dus verstandiger om op meerdere KPI’s te focussen zoals click-through-rate, een call-to-action button of een conversieratio in plaats van op één enkele indicator. Hoewel conversieratio vaak het belangrijkste ijkpunt is, geven andere indicatoren als bijvoorbeeld de tijd die iemand neemt om de e-mail te lezen een uitgebreider beeld.

Een voorbeeld: een ander font in een call-to-action knop kan de klikratio verhogen, maar als dit tegelijkertijd zorgt voor een hogere bounce rate, is deze wijziging niet verstandig. Hoe meer je weet over het gedrag van je lezers, des te makkelijker het wordt om de moeilijke marketingvraag ‘Hoe?’ te beantwoorden.

3) We testen te kort en in te kleine volumes

Door de testperiode en het volume van je controlegroep te beperken, ontstaat niet alleen de kans op verkeerde aannames, maar kun je je testresultaten ook niet voldoende onderbouwen. Marketeers stoppen regelmatig met testen zodra het lijkt dat er een aanzienlijke verbetering is opgetreden of een als een slecht scorende factor is uitgeschakeld, zonder er zeker van te zijn dat de statistieken laten zien dat een test is geslaagd. Het is daarom belangrijk om voor de start van de A/B-test de grootte van de controlegroep en de duur van de testperiode vast te stellen.

Zo is het belangrijk om een testperiode van minstens twee weken aan te houden zodat resultaten niet kunnen worden beïnvloed door een bepaalde dag in de week of door een afwijkende periode in het jaar. Let er bijvoorbeeld goed op of een testperiode in een vakantieperiode valt. In dat geval is het verstandig om de resultaten nog een keer te checken door een nieuwe test uit te voeren.

Tot slot is er een gouden regel die ik niet vaak genoeg kan herhalen: breek een test NOOIT vroegtijdig af. Het kan misschien lijken alsof je nieuwe design de gewenste resultaten oplevert, maar dit weet je pas echt zeker zodra de vooraf vastgestelde periode helemaal is doorlopen en als het afgesproken aantal versies is getest.

4) We vergeten onze statistische bril op te zetten

Het is uiterst belangrijk dat het volume van je controlegroep klopt zodat deze statistisch significant is en daarmee voor betrouwbare resultaten zorgt. Dit kun je doen door gebruik te maken van power analyse. Ik geef je hier een link naar een tool die je kunt gebruiken om de optimale grootte van je controlegroep te bepalen.

Ik weet uit ervaring dat de resultaten van een A/B-test soms verraderlijk positief kunnen zijn. In sommige gevallen overtreffen de testresultaten de beoogde conversieratio met wel 20 of 30 procent. Hoewel deze resultaten veelbelovend klinken, is het belangrijk om ze met een kritisch oog door een statistische bril te bekijken. Om er zeker van te zijn dat de beste testvariant ook daadwerkelijk het resultaat is van de doorgevoerde wijzigingen kun je een T-test uitvoeren. Zonder in details te treden: deze test geeft een Z-score (of standaardscore) die de betrouwbaarheidsinterval van je data meet en bepaalt of een verandering niet gewoon het resultaat is van een toevallige samenloop van omstandigheden.

Om vervolgens het betrouwbaarheidsniveau van je data te bepalen kun je een significantie calculator gebruiken of deze algemene uitleg lezen. Als je data een betrouwbaarheidsniveau van 95 procent of meer bereikt, mag je erop vertrouwen dat de testresultaten significant zijn. Je mag dan veilig stellen dat er een verband is tussen de aanpassing in je e-mailtemplate en de verhoogde conversieratio.

5) We nemen te snel genoegen met resultaten

Wat doe je als je maar nieuwe fonts, indelingen, afbeeldingsformaten, kleuren en thema’s blijft gebruiken terwijl je geen verandering ziet in de resultaten? Veel marketeers komen vroeg of laat op dit punt en denken daarmee het hoogst haalbare te hebben bereikt. Dit hoeft absoluut niet het geval te zijn! Dit is namelijk hoogstwaarschijnlijk een voorbeeld van de Local Maximum Theory. Deze theorie houdt simpel gezegd in dat je denkt het doel te hebben bereikt omdat je een lokaal maximum hebt bereikt, terwijl er in werkelijkheid nog genoeg ruimte is voor verbetering om een globaal maximum te bereiken.

Onderstaande afbeelding laat het basisprincipe van deze theorie zien. Om nu naar een volgende stap in verbetering te gaan, is het waarschijnlijk nodig om drastische veranderingen door te voeren. Dit betekent niet dat je je hele e-mailcampagne of basistemplate in de prullenbak moet gooien en opnieuw moet beginnen. Het betekent dat je ze moet bekijken vanuit een ander oogpunt en dat je de kernwaarden moet analyseren om zo je klantbetrokkenheid te vergroten. A/B-testen is een goede manier om te ontdekken welke richting je uit moet gaan. Denk eraan dat je de tijd neemt om te testen, want zoals de afbeelding laat zien kan een kleine dip in conversie uitmonden in een exponentiële groei.

6) Een verband is wat anders dan een oorzaak

A/B-testen is een geweldige statistische methode en levert een schat aan informatie. Statistieken geven echter alleen antwoord op de vraag wát er anders moet, niet waaróm. Met een A/B-test kun je data verzamelen, analyseren en samenvatten, maar je ontdekt er niet mee waarom de resultaten zijn zoals ze zijn. Je kunt valse oorzaken ontdekken door micro-KPI’s te gebruiken.

Stel, je neemt bijvoorbeeld in een e-mail een keurmerk op voor betrouwbaar gebruik van persoonsgegevens en vervolgens zie een directe stijging in de conversieratio. Je zou er nu van uit kunnen gaan dat dit keurmerk de oorzaak is. Het is daarentegen goed mogelijk dat mouse-tracking laat zien dat de lezers niet eens naar het keurmerk hebben gekeken. Dit maakt het moeilijk om te bepalen of hier echt een verband is of dat er gewoon iets mis is gegaan met de testapparatuur.

De vergroting van de conversieratio zou ook kunnen zijn ontstaan door een andere kleine wijziging of door een afwijkende testperiode. Het kan ook een voorbeeld zijn van slechte randomisatie waardoor een A/A-test noodzakelijk is. Er zijn nog honderden andere voorbeelden van niet-oorzakelijke relaties. Een van de meeste extreme voorbeelden is het verband tussen het aantal piraten en de gemiddelde globale temperatuur. Kijk maar:

De temperatuur is niet de oorzaak van het aantal piraten, maar toch is er een statistisch verband. Wees je bewust van dit soort beperkingen tijdens het testen van jouw e-mailcampagnes en onthoud dat A/B-testen een methode is die niet voor elk probleem een oplossing biedt.

Vanaf nu loop je om de valkuilen heen

Ik hoop dat je dankzij deze blog in de toekomst om deze valkuilen heenloopt. Je bespaart daarmee niet alleen tijd en geld, maar het verbetert ook de manier waarop je organisatie beslissingen maakt. En onthoud: blijf testen, testen en nog eens testen!

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond

Joost van der Ham

E-Village

Channel

E-mailmarketing

De zes grootste valkuilen bij A/B-testen van e-mailcampagnes

1) We selecteren de verkeerde controlegroepen

2) We meten de verkeerde zaken

3) We testen te kort en in te kleine volumes

4) We vergeten onze statistische bril op te zetten

5) We nemen te snel genoegen met resultaten

6) Een verband is wat anders dan een oorzaak

Vanaf nu loop je om de valkuilen heen

Plaats een reactie

De zes grootste valkuilen bij A/B-testen van e-mailcampagnes

1) We selecteren de verkeerde controlegroepen

2) We meten de verkeerde zaken

3) We testen te kort en in te kleine volumes

4) We vergeten onze statistische bril op te zetten

5) We nemen te snel genoegen met resultaten

6) Een verband is wat anders dan een oorzaak

Vanaf nu loop je om de valkuilen heen

Gerelateerd onderzoek

Wat verdienen digital agency-medewerkers in welke functie? En wat vinden zij eigenlijk belangrijk in hun werk?

Emerce Salaris- en werktevredenheidsonderzoek Digital Agencies 2025

Deel dit bericht

Plaats een reactie

Gerelateerde items

‘Helft van de A/B-testen klopt niet’

A/B-testing: Grote update VWO

Herhalen van oude A/B testen de moeite waard?

A/B-test: hoe Djoser 33 procent meer reizen verkocht