-

Waarom bij A/B-testen significantie zonder power zinloos is

Hoe vaak komt het voor dat je bij het runnen van een A/B-test na enkele koopcycli weer geen significant resultaat hebt gevonden? Dat is ook niet genoeg. Significantie is namelijk lang niet alles wat meespeelt in een A/B-test. Significantie zonder power is zinloos.

Significantie geeft aan of het verschil tussen de varianten van je A/B-test groot genoeg is zodat we het toeval buitenspel zetten. Vrijwel alle tools om A/B-testen uit te voeren geven aan of en wanneer je statistische significantie gaat bereiken. Dit doen ze onder andere door te kijken naar het huidige verschil tussen het origineel, de variant en de traffic die je tot dan toe hebt gehad in de looptijd van het experiment. Met een mooie wiskundige formule rekenen de tools vervolgens voor jou uit of het verschil groot genoeg is.

Zonder voldoende power kun je de business behoorlijk schaden

Vrijwel iedereen kijkt enkel en alleen naar significantie, maar er is nog een andere kant aan dit verhaal die de meeste tools niet meenemen bij het berekenen van significantie. Power is statistisch gezien een tweede begrip dat enorm belangrijk is bij het uitvoeren van een A/B-test. Wat dat is? Power is de kans op het zien van een effect, als het effect ook daadwerkelijk bestaat. Dit betekent dat als de power te laag is er een hele grote kans is dat de A/B-test geen effect vindt terwijl dit er in werkelijkheid wel is.

We hanteren vaak een power van minimaal 80% – dit is een geaccepteerde keuze net zoals dat een significantieniveau van 5% in sociaal-wetenschappelijk onderzoek gangbaar is. Dit betekent dat je het gewenste effect in 80% van de keren kunt meten. Hierdoor is power enorm belangrijk.

Stel dat je in een experiment een significant verschil bereikt, maar dat de power maar 20% is. Dat betekent dat je in een op de vijf van de experimenten ook daadwerkelijk een significant verschil zult vinden. Hierdoor wordt het meer gokken in plaats van gedegen onderzoek uitvoeren. De kans dat je een verschil ziet in een experiment met een te lage power kan veel eerder een toevalstreffer zijn. Dat betekent dus dat het verschil wel bestaat in je experiment, maar niet in de werkelijkheid. Hierdoor implementeer je straks een variant die helemaal geen positief effect heeft voor jouw bedrijf. Dat zou je business dus enorm kunnen schaden.

Power uitgelegd

Om het verschil tussen significantie en power verder te verduidelijken heb ik hieronder de twee begrippen in een figuur weergegeven. We vergelijken het met de rechtspraak. Als een rechter iemand schuldig bewezen acht, willen we uiteraard dat die persoon ook écht schuldig is. We sluiten niet graag een onschuldige op (type 1 fout). Dit zie je rechts in de figuur. Het significantieniveau van 95% is de kans dat we een schuldige achter de tralies zetten. Echter, de kans dat we een onschuldige opsluiten is nog altijd 5%. Dit is net zo bij het testen van varianten: we hebben 5% kans dat we een variant als winnaar aanmerken terwijl dit niet het geval is.

Links in de figuur wordt het begrip power verduidelijkt. Als de rechter het niet bewezen vindt dat iemand schuldig is, dan willen we graag dat die persoon ook daadwerkelijk onschuldig is. Een crimineel op vrije voeten (type 2 fout) zien we niet graag. Dankzij een hogere power is de kans kleiner dat we een crimineel op vrije voeten krijgen. Dat is precies wat we bij het testen van varianten ook willen. Dankzij een hogere power hebben we een kleinere kans dat een werkelijk verschil niet wordt opgemerkt.

Verhoog de power met je A/B-test

Op internet vind je diverse gratis tools om snel en gemakkelijk je power te berekenen Zoals deze bijvoorbeeld. De power die je berekent staat in relatie tot het significantieniveau, de effectgrootte en de steekproefomvang. Hoe die berekening precies in elkaar zit, laat ik voor nu buiten beschouwing. Wel wil ik graag één belangrijk aspect uitlichten: hoe bij een power van 80% en een significantieniveau van 5% de effectgrootte en de steekproefomvang met elkaar samenhangen.

Om de toename van een variant te bereken, berekenen we de procentuele toename ten opzichte van de huidige conversie ratio. Stel dat we rekenen met een verandering van 2%, dan hebben we bij verschillende conversie ratio’s de volgende aantallen nodig per variant:

Huidige conversieratio Aantal waarnemingen per variant
50% 39 242
20% 157 328
10% 354 139
5% 747 760
1% 3 896 727

Bij een conversieratio van 1% heb je dus honderd keer meer mensen nodig dan in je onderzoek bij een conversieratio van 50%. Een 2% toename is geen groot effect, maar als je slechts iets kleins wijzigt op je website kun je vaak niet meer verwachten. Het advies is daarom – zeker voor websites met minder verkeer – om grotere wijzigingen te maken om te testen op je website.

Wanneer bereken je de power?

Nu je dit weet is het misschien duidelijker waarom testen zo vaak vlak of negatief terugkomen; het had waarschijnlijk iets met de steekproefomvang en dus de power te maken. Haal dus de zinvolle testen eens terug uit de kast en bereken met een online tool of de steekproefomvang wel groot genoeg was. Zo niet, test het dan gerust opnieuw en laat de test doorlopen totdat je de steekproefomvang hebt behaald die je vooraf berekend hebt met behulp van het effect dat je vond in de oorspronkelijke test.

Bij nieuwe experimenten hoor je vooraf de benodigde steekproefomvang te berekenen waarbij je naast het significantieniveau ook de gewenste power meeneemt. Dat doen we om foute conclusies te voorkomen en natuurlijk om de benodigde steekproefomvang van je experiment te berekenen. Maar daarvoor heb je wel je huidige conversieratio nodig en de toename die je verwacht met behulp van de test. Ga ook dit niet zomaar gokken en hopen dat het werkelijkheid wordt. Laat je analist de data induiken en laat een expert schatten wat het minimaal te verwachten effect van je test zal zijn. Bereken vervolgens met een online tool de benodigde steekproef per variant.

Mocht er een ontzettend groot aantal waarnemingen uitkomen, probeer het effect van het experiment dan niet op aantal orders te berekenen, maar op een stap eerder in de funnel (waar de basisratio vaak een stuk hoger ligt). Dit kan voor e-commerce bedrijven bijvoorbeeld ook de stap van een productpagina naar het winkelmandje zijn. Let wel op dat dit het effect van het experiment op je winst minder zuiver maakt, omdat je verder van de werkelijke order af zit en het effect van het experiment verderop in de funnel weer kan uitvlakken.

tips om mee te nemen voor je CRO-programma

Vind je het begrip ‘power’ nog steeds vaag en ben je zelf degene die test? In dat geval adviseer ik je met klem om deze werkzaamheden uit te besteden aan CRO-experts of analisten. Klinkt overdreven? Vergis je niet. Een test fout interpreteren kan je business ontzettend schaden en dat kost uiteindelijk nog veel meer geld. Vergelijk het met een bezoek aan de arts. Zonder gedegen onderzoek laat je (hopelijk) geen enkele dokter een operatie bij je uitvoeren.

Tot slot: Komt er weer een negatieve test terug? Vraag dan gerust eens de onderzoeker binnen jouw bedrijf: ‘Hoe groot was de power bij deze test?’ Of: ‘Hebben we genoeg waarnemingen om iets te zeggen over dit effect?’ Of: ‘Hadden we dit experiment überhaupt wel moeten starten?’ Dat kan nu met een geruster hart. Jij weet immers dat significantie echt niet alles is.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond