-

Conversieoptimalisatie: de Bayesian vs Frequentist-methode

Momenteel zijn er twee stromingen in de statistiek die je impact testen: Frequentist en Bayesian​. Wat zijn de eigenschappen van deze twee stromingen binnen de teststatistiek? Bayesian líjkt beter geschikt voor conversieoptimalisatie vanwege de heldere communicatie, het gebruiksgemak en de flexibiliteit van deze methode. 

Het is een stuk simpeler en transparanter om via de Bayesian-methode een kans op succes te communiceren dan om de statistische aannames te delen die Frequentistische statistiek vereist (P-waardes, Confidence Intervals, nulhypothese en dergelijke). In de online marketing en conversieoptimalisatie heeft niet iedereen evenveel kaas gegeten van het onderwerp statistiek. Juist daarom is de mogelijkheid om gemakkelijk resultaten te delen erg belangrijk.

Vaak zijn de mensen waarmee je schakelt geïnteresseerd in hoe de adviezen tot stand komen en waar ze op zijn gebaseerd. Hierin heeft Bayesian zeker een voordeel ten opzichte van Frequentist. Direct hieraan gerelateerd is natuurlijk het gebruiksgemak van de statistische methode. Welke van de twee methoden is gemakkelijker te gebruiken?

Bayesian is gemakkelijker in gebruik

Er komen steeds meer tools online waarmee je gemakkelijk Bayesiaans kunt testen. Deze tools en de versimpelde vorm van interpretatie en communicatie van testresultaten maakt het steeds makkelijker om met Bayesiaanse statistiek bezig te zijn, zonder hier diepgaande kennis van te hebben. De meeste tools geven je namelijk een kans dat variant B beter zal presteren dan A, wanneer je enkel de bezoekers- en transactie-aantallen ingeeft.

Wat hier achter de schermen gebeurt is dus niet ‘nodig’ om uitspraken te kunnen doen over je data. Dit is uiteraard een enorm voordeel, aangezien het testen hierdoor erg laagdrempelig is. Het zorgt echter ook voor een grote valkuil wanneer mensen ook tests opzetten en uitspraken gaan doen over data die niet goed past bij Bayesian statistiek. Het foutief inzetten van A/B-testing en de statistiek leidt tot verkeerde business decisions en heeft daarmee zelfs impact op de omzet! Het is daarom sterk aan te raden om de juiste kennis in te schakelen van een conversiespecialist die hier uitgebreide ervaring mee heeft.

Kortom, Bayesian is gemakkelijker in gebruik en implementatie, maar laat vanwege de flexibiliteit wel ruimte over voor human errors. Deze kans op human errors kan dan wel weer gemakkelijk ondervangen worden door het inzetten van de juiste experts op dit gebied. Dit kenmerk waarin Bayesian flexibeler is dan Frequentist zien we ook in de test strengheid terug.

Frequentist test strenger, maar Bayesian is flexibeler

Frequentistische statistiek is erg streng in zijn eisen. Er zijn twee onfeilbare hypotheses, de nulhypothese die stelt dat er geen verschil is, en de experimentele hypothese die stelt dat er wel verschil is. Ook dien je voordat je begint met data verzamelen al verschillende zaken te hebben uitgezocht. Zo moet je op voorhand de power (gebaseerd op verwachte impact van uw testvariant) berekenen en je benodigde hoeveelheid datapunten (users, respondenten, etc.). De getallen die hieruit komen zijn absoluut en moeten hoe dan ook nageleefd worden, anders is je test niets meer waard.

Dit berekenen zorgt voor meer rigiditeit en is een lang proces voordat je überhaupt begint met data verzamelen, maar zorgt ook voor een streng eindoordeel. Mocht je dus het geduld hebben en de moeite er in willen steken om aan het einde van de rit (wat soms maanden kan duren) een significant resultaat te vinden, dan kun je er ook relatief zeker van zijn dat je de juiste beslissing aan het maken bent. Deze trage opzet van Frequentistische tests is vaak een erg lastig punt in de dynamische en snel veranderende online marketing wereld. Bayesian is flexibeler in zoverre dat er geen aannames van tevoren gesteld hoeven te worden.

Dit is een voordeel aangezien organisaties en de online omgeving natuurlijk behoefte hebben aan flexibiliteit. Echter is het ook een mogelijk nadeel wanneer er niet juist wordt omgegaan met deze flexibiliteit. Het is namelijk zo dat Bayesiaanse statistiek met evenveel ‘zekerheid’ kan spreken dat B beter zal zijn dan A na 10 observaties (conversies) als na 100 observaties. Het is hierbij dus erg belangrijk om de kwaliteit van je experimenten te bewaken en alsnog een soort benchmark te zetten voor hoeveel observaties nodig zijn om nuttige uitspraken over te kunnen doen.

We hanteren een minimale looptijd van twee businesscycles en een minimum aantal bezoekers en conversies, dit baseren wij op het gemiddelde online verkeer op de pagina. Een test op een website met weinig verkeer zal immers langer moeten lopen om nuttige uitspraken te kunnen doen over je data.

Conclusie: Bayesian is de beste keus, maar kwaliteitsbewaking is nodig

De ervaring leert dat Bayesian voor A/B-testing bij de meeste organisaties het prettigst werkt. Dit komt voornamelijk door de simpele manier om je resultaten te bespreken. Ook is de flexibiliteit die Bayesian statistiek toelaat een groot voordeel, waar Frequentist vaak te strikt is in haar eisen. De flexibiliteit van de Bayesian methode is een enorm voordeel, maar wel alleen wanneer de kwaliteit van de A/B-testing en statistiek wordt bewaakt door iemand met de juiste kennis van zowel A/B-testing als statistiek. Ons advies is dan ook om een goede kwaliteitsbewaker te betrekken bij je A/B-testing en zo samen tot de beste resultaten te komen voor je organisatie. Beide statistische methoden hebben immers kennis nodig om tot hun volle potentie gebruikt te worden.

Daarnaast is het grootste verschil dat je bij Bayesian zelf de kwaliteit moet waarborgen, wat wel meer flexibiliteit biedt, maar ook voor human errors kan zorgen. Het is op vrijwel alle fronten de statistische methode die de meeste werkbaarheid biedt door de flexibiliteit en de omgang met data. Het is echter niet zo dat de ene methode per definitie ‘beter’ is dan de ander. Het advies dat volgt uit een experiment met goede Bayesian statistische analyse en interpretatie zal vrijwel altijd hetzelfde advies geven als een experiment met goede Frequentistische statistiek analyse en interpretatie. Bayesian is in de context van de werkvloer en de dynamische online omgeving vaak sneller, werkbaarder en gemakkelijker, maar niet betrouwbaarder, beter of superieur ten opzichte van Frequentistische statistiek in een absolute zin.

Voor beide soorten statistiek is het sterk aan te raden om een specialist te hebben die de kwaliteit van je experimenten waarborgt door de juiste kennis over experimenteren en de bijbehorende statistiek. Enkel met de juiste kennis kun je de correcte data-driven business decisions maken, om grensverleggende resultaten te realiseren.

Deel dit bericht

3 Reacties

Ernst Bolle

Leuk artikel maar met sommige aspecten ben ik het behoorlijk oneens. Wellicht laat je details weg voor toegankelijkheid van het artikel maar desalniettemin kloppen enkele statements niet:

– Een goede Bayesiaanse test gebruikt ook power om de juiste sample size te berekenen, dat is niet voorbehouden aan frequentist methodes
– De power kan je interpreteren als de kans dat de highest density interval (HDI) volledig binnen of buiten de region of pratical equivalence (ROPE) valt voor bijv. het verschil in conversie tussen A en B
– Het is niet zo dat Bayesiaanse statistiek al na 10 observaties met dezelfde zekerheid een uitspraak kan doen als met 100 observaties. De breedte van de posterior hangt nauw samen met het aantal observaties. Alleen in het geval van sterke voorkennis is het mogelijk om met een kleine n een ‘zekere’ uitspraak te doen, maar dat is logisch 🙂
– De uitkomst van een test kan hetzelfde zijn maar de interpretatie zeker niet. Met Bayesiaanse statistiek kan je een uitspraak doen als ‘A heeft het 97% beter gedaan dan B’, met frequentist methodes kan dat per definitie niet. Je kan met die methode alleen stellen dat je een null hypothese verwerpt, verder niks. Een confidence interval is geen probability distributie, de posterior is dat wel!

Verder moge het duidelijk zijn waar mijn voorkeur ligt.

Mike van der Burgt - OrangeValley

Hoi Ernst.

Bedankt voor je reactie.
Je hebt inderdaad een aantal goede punten waar ik niet verder op in ben gegaan in dit artikel.
Hieronder zal ik verder ingaan op je punten.

1. In de ideale situatie is dit inderdaad het geval. Echter is het voor Conversie Optimalisatie erg lastig om op voorhand de impact van je testvariant te bepalen. Hierdoor wordt een power berekening ook lastiger. Mede hierdoor is het voor Conversie optimalisatie erg fijn om niet een power berekening te moeten maken voordat een test gestart wordt. Natuurlijk moet de looptijd van een test wel gewaarborgd worden, maar hier zijn ook andere betrouwbare methodes voor, zoals het bekijken van de cumulatieve stabiliteit van de testresultaten.
2. Dit is inderdaad waar en ook erg gemakkelijk nadat een test heeft plaatsgevonden. De kans op het vinden van een effect (power) is hetzelfde als de kans op een effect (HDI ligt buiten ROPE). Echter ben ik benieuwd hoe je hierover denkt op voordat een A/B-test heeft plaatsgevonden.
3. Hier heb ik inderdaad wat overdreven om het punt te maken. Ik bedoelde dat je wel degelijk een kans van 80% op verbetering kunt vinden met 10 observaties. Echter is hier het verschil (effect size) tussen de varianten dan natuurlijk wel veel groter dan wanneer we 80% kans op verbetering vinden gebaseerd op 100 observaties.
Zo heb je om 80% te krijgen met 10 observaties per variant ongeveer een uplift van 33% nodig, waar je slechts 7% nodig hebt bij 100 observaties om op 80% kans op verbetering te komen.
4. Hier bedoelde ik inderdaad dat de business decision niet zal verschillen. Het interpretatieverschil tussen de twee testmethoden is wellicht het meest fundamentele verschil. Waar Bayesian natuurlijk test op kans op verbetering test Frequentist slecht of er verschil is of niet.

Het punt achter dit artikel is dat Bayesian vaak gemakkelijker en flexibeler is voor de dynamische online omgeving. Waar flexibiliteit is, schuilt echter ook het gevaar op foutjes. Bayesian vraagt daarom naar mijn mening nog meer bewaking van data- en testkwaliteit vergeleken met Frequentist. Vandaar de eindconclusie dat het erg aan te raden is een specialist aan te haken bij het analyseren van je A/B-tests.
We willen immers allemaal de juiste datagedreven beslissingen maken, gebaseerd op correcte data en analyses.

Nogmaals bedankt voor je reactie!

Mike - OrangeValley

Hoi Ernst.

Bedankt voor je reactie.
Je hebt inderdaad een aantal goede punten waar ik niet verder op in ben gegaan in dit artikel.
Hieronder zal ik verder ingaan op je punten.

1. In de ideale situatie is dit inderdaad het geval. Echter is het voor Conversie Optimalisatie erg lastig om op voorhand de impact van je testvariant te bepalen. Hierdoor wordt een power berekening ook lastiger. Mede hierdoor is het voor Conversie optimalisatie erg fijn om niet een power berekening te moeten maken voordat een test gestart wordt. Natuurlijk moet de looptijd van een test wel gewaarborgd worden, maar hier zijn ook andere betrouwbare methodes voor, zoals het bekijken van de cumulatieve stabiliteit van de testresultaten.
2. Dit is inderdaad waar en ook erg gemakkelijk nadat een test heeft plaatsgevonden. De kans op het vinden van een effect (power) is hetzelfde als de kans op een effect (HDI ligt buiten ROPE). Echter ben ik benieuwd hoe je hierover denkt op voordat een A/B-test heeft plaatsgevonden.
3. Hier heb ik inderdaad wat overdreven om het punt te maken. Ik bedoelde dat je wel degelijk een kans van 80% op verbetering kunt vinden met 10 observaties. Echter is hier het verschil (effect size) tussen de varianten dan natuurlijk wel veel groter dan wanneer we 80% kans op verbetering vinden gebaseerd op 100 observaties.
Zo heb je om 80% te krijgen met 10 observaties per variant ongeveer een uplift van 33% nodig, waar je slechts 7% nodig hebt bij 100 observaties om op 80% kans op verbetering te komen.
4. Hier bedoelde ik inderdaad dat de business decision niet zal verschillen. Het interpretatieverschil tussen de twee testmethoden is wellicht het meest fundamentele verschil. Waar Bayesian natuurlijk test op kans op verbetering test Frequentist slecht of er verschil is of niet.

Het punt achter dit artikel is dat Bayesian vaak gemakkelijker en flexibeler is voor de dynamische online omgeving. Waar flexibiliteit is, schuilt echter ook het gevaar op foutjes. Bayesian vraagt daarom naar mijn mening nog meer bewaking van data- en testkwaliteit vergeleken met Frequentist. Vandaar de eindconclusie dat het erg aan te raden is een specialist aan te haken bij het analyseren van je A/B-tests.
We willen immers allemaal de juiste datagedreven beslissingen maken, gebaseerd op correcte data en analyses.

Nogmaals bedankt voor je reactie!

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond