-

Waarom Bayesiaans A/B-testen meer oplevert

De traditionele – en meest gebruikte – methode om A/B-testen te analyseren is met de zogenaamde frequentistische t-toets. Dit is een wetenschappelijk valide methode, maar deze methode heeft twee grote nadelen: de uitkomst van een A/B-test is lastig te begrijpen zonder gedegen statistische kennis en door te adviseren om enkel significante testresultaten te implementeren laat je een hoop geld liggen! Een Bayesiaanse testevaluatie biedt uitkomst in beide gevallen.

Wat zegt een frequentistische testuitslag?

Bij een frequentistische A/B-testevaluatie vergelijk je de gemiddelden van twee onafhankelijke groepen om te zien of deze significant van elkaar verschillen. Het uitgangspunt bij dit type toets is dat er geen verschil is tussen de conversiepercentages van groep A en B (de nulhypothese). Deze hypothese probeer je te verwerpen. Je wilt namelijk aantonen dat B beter werkt dan A. Met een vooraf vastgesteld significantieniveau (vaak 90 of 95 procent) wordt bepaald hoe onwaarschijnlijk het gevonden verschil in de test is tussen variant A en variant B. Dit beoordeel je op basis van de zogenaamde p-waarde.

Voorbeeld frequentistische testuitslag

Stel dat Bedrijf X een A/B-test heeft uitgevoerd. Elke variant heeft 25.000 bezoekers gehad en de B variant kende een gemeten conversiestijging van +4,17 procent. De p-waarde van deze test is dan 0,150.

Bayesiaans

Bovenstaande grafiek laat zien wat het gemeten verschil is in conversiepercentage tussen B en A en wat voor beide variaties het 90 procent betrouwbaarheidsinterval is. Dit wordt aangeduid met de stippellijntjes. Als het bolletje van variant B buiten het betrouwbaarheidsinterval ligt van A dan is er een significant verschil. Op basis van een significantieniveau van 90 procent is de uitslag dat de B variant niet significant verschilt van de A variant (immers 0,150 is groter dan de kritieke grens van 0,1).

Advies bij deze frequentistische testuitslag

De variant neigt wel naar de positieve kant, maar het verschil is niet groot genoeg om statistisch significant aan te kunnen tonen. Het advies op basis van deze uitslag is om de variant niet te implementeren. Er is onvoldoende bewijs gevonden dat het testidee significant bijdraagt aan omzetstijging. Het A/B-test team zal daarom een nieuwe testrichting inslaan.

Wat zegt een Bayesiaanse testuitslag?

Binnen de Bayesiaanse statistiek ligt een en ander meer genuanceerd. Op basis van een testuitslag wordt bepaald hoe groot de kans is dat de variant beter presteert dan de huidige situatie. Een testuitslag heeft daardoor geen binaire uitslag (winnaar of geen winnaar), maar een kans van 0 tot 100 procent. Dit is een stuk makkelijker te communiceren dan ‘hoe onwaarschijnlijk het gevonden verschil is als je ervan uitgaat dat er geen verschil is’ (de conclusie op basis van de frequentistische t-toets).

Voorbeeld Bayesiaanse testuitslag

Als we naar dezelfde voorbeeld case kijken en er een Bayesiaanse testevaluatie op los laten dan zien we het volgende: de kans dat variant B beter presteert dan het origineel is 85,1 procent. Als gekeken wordt naar de grafiek ‘difference in conversion rate between B and A’, dan is af te lezen dat het verschil in conversie in 85,1 procent van de gevallen groter is dan 0 procent, met de grootste kansen tussen +1 en +6 procent.

Bay 2

Advies bij deze Bayesiaanse testuitslag

De vraag of de variant geïmplementeerd moet worden bij een kans van 85,1 procent leidt tot een weloverwogen risico inschatting. Weegt een risico van 14,9 procent op tegen een kans op omzetstijging van 85,1 procent? Er kan beargumenteerd worden dat elke testuitslag met een kans groter dan 50 procent geïmplementeerd zou moeten worden, omdat de kans groter is dat B beter is dan A. Echter, de kosten voor testen (kosten voor testprogramma en implementatie van testen) worden dan niet meegenomen in de beslissing.

Als de gemiddelde orderwaarde bekend is en de minimaal gewenste opbrengst van een test (voor een goede ROI), kan ook de kans worden berekend dat de B variant dit daadwerkelijk zal opbrengen na implementatie. In dit voorbeeld is de gemiddelde orderwaarde €75,- en de minimale opbrengst van €25.000. Dit bedrag moet binnen zes maanden worden terugverdiend na implementatie.

Bay3

De kans hierop is in dit voorbeeld 77,9 procent (dit komt neer op een verschil in conversie van minimaal 1,08 procent). Deze cijfers bieden meer houvast bij het nemen van een beslissing voor het al dan niet doorvoeren van de variant. In dit geval zal de beslissing waarschijnlijk positief uitvallen om de variant te implementeren. Het testidee is weliswaar niet significant bewezen, maar deze uitslag wijst er wel op dat de testrichting de juiste was. In vervolgtesten kan verder worden geborduurd op dit idee.

Conclusie: stap over!

Door over te stappen naar een Bayesiaanse test evaluatie kunnen A/B-testconclusies en acties zonder statistisch jargon worden overgebracht. Een Bayesiaanse testevaluatie geeft een simpeler antwoord op de vraag of variant B beter is dan de huidige situatie, namelijk met een kans van 0 tot 100 procent. Dit is voor iedereen begrijpelijk.

Daarnaast  implementeer je met een Bayesiaanse testevaluatie niet alleen de overduidelijke winnaars (waar je ook echt iets van leert), maar ook varianten die indicatief de omzet verhogen (maar waar je geen harde gedragsinzichten uit haalt). Bij elke testuitslag doe je de afweging of de verwachte kans op extra omzet opweegt tegen het risico dat je loopt. Gevolg hiervan is dat er meer varianten zullen worden doorgevoerd, wat uiteindelijk zal zorgen voor een hogere omzetgroei.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond