Bij een A/B test, ook wel splittest genoemd, kijkt men of er een verschil is tussen een controle variabele en een variatie op de controle variabele. Er zijn altijd twee onafhankelijke groepen (A en B), die door middel van een t-toets met elkaar worden vergeleken. De gemiddelden van beide groepen worden berekend, en er wordt gekeken of deze significant van elkaar verschillen. Wanneer dit het geval is, is de beste optie de variabele met het hoogste gemiddelde. Kijk hier voor een theoretische uitleg van deze test; de onafhankelijke t-toets. Er zijn verschillende tools die deze informatie meten en berekenen. Voorbeelden zijn Optimizely, Unbounce en Visual Website Optimizer.
Om de uitkomsten van de A/B test effectief in te zetten in de website, moeten deze resultaten dus betrouwbaar zijn en goed afgelezen worden. Wanneer dit niet het geval is worden er op basis van verkeerde aannames veranderingen doorgevoerd in een website die niet altijd positief uitpakken. Het verkeerd uitvoeren of aflezen van een A/B test kan ervoor zorgen dat er een verschil wordt gemeten dat er eigenlijk niet is. In het ergste geval wordt er zelfs een positief effect gemeten voor A, terwijl B eigenlijk de beste optie is. Een A/B test uitvoeren zonder dat je precies weet welke metingen er gedaan worden, kan daarom geld kosten in plaats van opleveren. Wat zijn dan deze veelgemaakte fouten en hoe voorkom ik dit?
Allereerst is het belangrijk dat er voordat begonnen wordt met de test voormetingen gedaan zijn. Een goede A/B test bestaat uit 3 fasen: de pre-test, de test zelf, en het verwerken van de resultaten. Het overslaan van de eerste fase is een doodzonde, dit leidt er direct toe dat de A/B test niet betrouwbaar zal zijn.
Pre-test
Zoals met zoveel dingen moet er voordat er begonnen wordt met een A/B test informatie worden ingewonnen en een plan worden gemaakt. Een veelgemaakte fout is een A/B test uitvoeren op een website waar niet genoeg bezoekers komen voor een significant resultaat. Er moet dus allereerst gemeten worden hoeveel bezoekers er gemiddeld op de website komen en hoeveel conversies er gemiddeld per week worden gemaakt. Het conversiepercentage (conversies/bezoekers x 100%) is van belang bij het bepalen van de minimale steekproefgrootte. Het aantal bezoekers en het conversiepercentage kan per week en per maand fluctueren door allerlei externe factoren. Rond de decembermaand zal het bezoekersaantal en mogelijk het conversiepercentage bij veel webshops hoger zijn dan de rest van het jaar. Houd hier rekening mee bij de voormetingen én bij het starten van je test.
Het is dus van belang voldoende bezoekers en conversies te hebben om een betrouwbare A/B test uit te kunnen voeren. Als vuistregel hanteren wij 1000 bezoekers per conditie, en meer dan 100 conversies per conditie. Belangrijk is om in ieder geval uit te gaan van 95% betrouwbaarheid. Dus de test moet significant zijn met 95% betrouwbaarheid. Wanneer je niet zoveel bezoekers per week krijgt kun je de test iets langer door laten lopen. Zorg ervoor dat er minimaal 2 weken en maximaal 4 weken wordt getest. Test je korter dan mis je klanten, test je langer dan zullen er bezoekers zijn die hun cookies hebben verwijderd en twee keer in je resultaten voor kunnen komen.
Naast een vaste testperiode moet ook de probleemstelling vooraf bepaald worden. Wat is het probleem en wat gaat er exact getest worden? Let erop dat je bij een A/B test maar één element tegelijkertijd kunt testen. Een voorbeeld is de kleur van de conversieknop; rood of groen. Je kunt ook ineens een complete pagina testen; pagina A of pagina B. Een nadeel hierbij is dat je niet kunt zien welk verschil in deze pagina’s het uiteindelijke verschil in resultaten veroorzaakt. Wanneer je meer verschillen met elkaar wilt vergelijken moet er een multivariate test worden gedaan. Dit zal besproken worden in een volgend artikel. Met de probleemstelling wordt ook de nulhypothese ontwikkeld. In deze hypothese wordt gesteld dat er géén meetbaar verschil is tussen versie A en versie B. Wanneer er uiteindelijk wél een meetbaar verschil blijkt tussen de twee versie wordt de nulhypothese verworpen.
Voorbeeld:
- Probleem: welke kleur conversieknop zorgt voor de meeste conversies?
- Controle (A): rode conversieknop Variatie (B): groene conversieknop
- H0: Er is geen verschil tussen de conversies van groep A en B
- HA: Er is wel een verschil tussen de conversies van groep A en B
Meten is weten
Wanneer er een pre-test gedaan is, en de probleemstelling en hypothese zijn opgesteld, kan er getest gaan worden. Hier kan een aparte tool voor worden ingezet die speciaal is ontwikkeld voor A/B-testen, maar het kan ook met Google Analytics. Er zijn een paar belangrijke punten waar rekening mee moet worden gehouden om een betrouwbare test uit te voeren.
- Test het liefst op nieuwe klanten, vaste klanten hebben al een kooppatroon en zijn mogelijk minder vatbaar voor de punten waarop getest wordt.
- Conversie hoeft niet direct plaats te vinden, een klant kan bijvoorbeeld binnen een week terugkeren en alsnog de aankoop doen. Sla daarom cookies op en geef klanten minstens een week de tijd een conversie te doen.
- De tijd die gemeten gaat worden moet van tevoren vast liggen, dus meet niet enkel tot er een significant resultaat is. Let erop dat deze tijd minstens een volledige koopcyclus moet bedragen, maar ook niet te lang mag zijn.
- Klanten kunnen op een gegeven moment cookies verwijderen, meet dus niet te lang want dan komen er klanten twee keer in de resultaten
- Controleer externe factoren. Zorg ervoor dat je maar één ding tegelijk test, en dat externe invloeden zoveel mogelijk uitgesloten zijn. Test dus niet tijdens een WK of rond december. Voer het liefst meerdere keren dezelfde test uit en vergelijk de resultaten.
Resultaten verwerken en aflezen
Nadat de test is uitgevoerd zullen de resultaten binnenrollen. Een belangrijk moment! Neem de resultaten niet klakkeloos over, maar bekijk deze kritisch en controleer of alles logisch lijkt. Hoe het genoteerd wordt zal bij iedere tool anders zijn, maar belangrijk is wel dat de tool aangeeft of de resultaten significant zijn, op 95% betrouwbaarheid en 99% betrouwbaarheid. Wanneer een tool enkel een visualisatie van de resultaten weergeeft, maar niet de significantie moet je deze zelf uitrekenen. Ga bij voorkeur dus voor een tool die dit wel doet.
Wanneer er geen significante afwijking wordt gemeten tussen A en B, betekent dit dat het gemeten verschil tussen de twee valt onder de normale verdeling. Doordat een steekproef wordt genomen kunnen resultaten iets van elkaar afwijken, zonder dat ze een daadwerkelijk verschil aangeven. Wanneer dit het geval is kun je ervoor kiezen nogmaals een A/B test uit te voeren en de resultaten met elkaar vergelijken. Een andere mogelijkheid is om de keuze tussen A en B niet af te laten hangen van de A/B test, maar bijvoorbeeld van gebruiksgemak of visuele argumenten.
Wanneer er wél een significante afwijking wordt gemeten tussen A en B is de beste optie die met het hoogste conversiepercentage. Om er zeker van te zijn dat deze optie inderdaad voor meer conversies zorgt kan er vervolgonderzoek worden gedaan. Bijvoorbeeld nog een A/B test die vergeleken kan worden met de eerste, of kwalitatief onderzoek. Eén betrouwbare test verzekert je namelijk nog niet van een betrouwbaar resultaat. Om er zeker van te zijn dat een variabele inderdaad voor meer conversies zorgt, moet er meerdere keren getest worden zodat de resultaten van deze testen met elkaar kunnen worden vergeleken. Pas wanneer meerdere onderzoeken dezelfde optie als beste aanwijzen kan met zekerheid worden aangenomen dat het een betrouwbaar resultaat is.