Signifikanz von A/B-Tests – Dem Zufall auf der Spur

Wie schnell kann ich Ergebnisse im A/B- oder multivariaten Test erhalten und kann ich mich auf diese Ergebnisse verlassen? Diese grundlegenden Fragen stellen sich die meisten Seitenbetreiber, wenn sie mit der kontinuierlichen Optimierung ihrer Website beginnen.
Früher war die Verbesserung einer Website in weiten Teilen eine Frage des Geschmacks. Heute bestimmen Statistik und Mathematik, an welchen Stellschrauben einer Website gedreht wird.
A/B-Testing ist bereits etablierter Standard zur kontinuierlichen Optimierung von Websites. Dabei werden der ursprünglichen Version des zu testenden Elements eine oder mehrere Varianten gegenüber gestellt. Besucher sehen während des Testzeitraums entweder die Ursprungsversion oder eine Variante. Anhand ihres Verhaltens wird dann die bessere Version ausgewählt. Der multivariate Test betrachtet die gleichzeitige Veränderung mehrerer Elemente auf einer Seite.
Ursprungsversion und vier Varianten eines A/B-Tests für TUIfly.com
Diese Methode wird auf dem gesamten Weg des Konsumenten (Customer Journey) auf einer Website verwendet: von der Akquisition der Besucher über Landingpages bis hin zur detaillierten Optimierung. Insbesondere in der Akquisitionsstrecke sind dabei schnelle Ergebnisse gefragt, um mit hoher Sicherheit die beste Version auszuwählen.
Um das zu schaffen, wird vorab häufig kein fixer Test-Zeitraum bestimmt. Vielmehr wird durch kontinuierliches Monitoring der aktuellen Testergebnisse der Zeitpunkt abgewartet, an dem eine Variante vermeintlich besser funktioniert als die andere.
Zu Beginn des Tests ist ein Ziel festgelegt worden, z.B. der Kauf eines Produkts, die Anmeldung zum Newsletter oder einfach das Erreichen einer bestimmten Seite. Sind die Daten erst einmal gesammelt, ist die beste Version schnell bestimmt.
Viel wichtiger, als die bessere Version zu finden, ist allerdings, sicherzustellen, dass das Ergebnis statistisch signifikant ist, also nicht durch einen Zufall entstanden ist. Schlimmstenfalls könnte sonst ein Sieger gekürt werden, wo es keinen gibt, oder gar die falsche Seiten-Variante zum Sieger erklärt worden.
Statistische Signifikanz ist keine neue Methode, die spezifisch für den Bereich des A/B-Testings entwickelt wurde, sondern ist ein erprobtes Mittel, um den Zufall auszuschließen.
Für die Berechnung der Signifikanz gibt es verschiedene, etablierte Methoden, wie z.B. den T-Test Chi^2-Test. Diese Methoden prüfen anhand der Zahl der Testteilnehmer, der bisherigen und der im Test erzielten Zielerreichung (Conversion Rate) und der getesteten Varianten, ob die Verteilung der Ergebnisse zufällig ist oder nicht. Im Netz gibt es verschiedene Signifikanz- und Confidenz-Rechner, mit deren Hilfe man eigene Tests bewerten kann.
Noch einfacher werden Tests und die Berechnung der Signifikanz heute mit dem Einsatz entsprechender Tools, wie z.B. Google Website Optimizer oder Adobe Test & Target. Diese Tools helfen bei der Durchführung von A/B- und multivariaten Tests und werten diese statistisch aus.
In der kontinuierlichen Optimierung sollten sich Seitenbetreiber nicht zu schnellen Entscheidungen aufgrund vermeintlich klarer Testergebnisse verführen lassen. Vielmehr muss jedes Testergebnis auf statistisch signifikanten Daten aufbauen. Nur so kann sichergestellt werden, dass Entscheidungen auf relevanten Ergebnissen basieren und die Website mit jeder Optimierung besser wird.