Das Wichtigste in Kürze
- Conversion-Testing ist CRO gepaart mit Statistik – du passt nicht einfach nur eine Seite an, du misst, ob die Änderung auch wirklich einen Unterschied bewirkt hat.
- Jeder valide Test wird vor seinem Start durch vier Variablen definiert: Signifikanz, Power, Minimum Detectable Effect (MDE) und deine Basis-Conversion-Rate.
- Die Mathematik ist für kleine Shops unerbittlich: Bei einer Basis von 2 % erfordert die Erkennung eines Lifts von 10 % rund 80.000 Besucher pro Variante. Wenn du den angestrebten Effekt halbierst, vervierfacht sich in etwa die benötigte Sample Size.
- Der häufigste Fehler ist das Peeking (vorzeitiges Nachschauen) – den Test abzubrechen, sobald er signifikant aussieht. Das kann deine tatsächliche False-Positive-Rate auf über 25 % treiben.
- Shopifys natives Testing (Rollouts) kann Layouts testen, aber keine Preise, weist keine statistische Signifikanz aus und beschränkt die Experiment-Funktionen auf teurere Pläne.
Dies ist ein umfassender Guide zum Conversion-Testing auf Shopify. Er geht über eine allgemeine CRO-Übersicht hinaus und widmet sich den Mechanismen, die entscheiden, ob ein Testergebnis echt ist: Sample Size (Stichprobengröße), statistische Signifikanz, Testdauer und das ganz spezielle Problem von Shops mit eher wenig Traffic.
Wenn du dir erst einmal einen groben Überblick darüber verschaffen willst, was du an deinem Shop überhaupt ändern solltest, starte mit unserem Shopify CRO Guide und komm zurück, wenn du bereit bist, diese Änderungen auch richtig zu testen.
Warum du uns vertrauen kannst
Wir verbringen schon mehr als vier Jahre im Shopify-Ökosystem und haben Fudge entwickelt, einen KI-Page-Builder, der von Hunderten Händlern genutzt wird, um Shop-Seiten zu veröffentlichen und zu iterieren. Wir haben viele Shops dabei beobachtet, wie sie viele Tests durchgeführt haben, und der Grund für das Scheitern ist fast immer derselbe: Einen Gewinner aufgrund von Daten auszuwählen, die das eigentlich nie hergaben. Dieser Guide wurde geschrieben, um genau das zu verhindern.
Was Conversion-Testing eigentlich ist
Conversion-Testing ist die Praxis, eine Sache in deinem Shop zu ändern, diese Änderung einer zufälligen Hälfte deiner Besucher zu zeigen und mittels Statistik zu prüfen, ob sie einen echten Unterschied in der Conversion-Rate bewirkt hat. Die Statistik ist hierbei der entscheidende Punkt. Ohne sie schaust du dir nur zwei Zahlen an und rätst wild drauflos.
Diese Vorgehensweise trennt Conversion-Testing von allgemeiner Conversion Rate Optimization (CRO). CRO ist die gesamte Disziplin, deinen Shop zu verbessern. Conversion-Testing ist die Messmethode, die dir klipp und klar sagt, welche dieser Verbesserungen tatsächlich funktioniert haben.
Ein A/B-Test teilt den Traffic zwischen einer Kontrolle (A) und einer Variante (B) auf. A/B/n-Tests fügen weitere Varianten hinzu. Multivariate Tests (MVT) ändern gleich mehrere Elemente auf einmal. Für die meisten Shopify-Stores ist ein sauberer A/B-Test mit zwei Varianten exakt das richtige Werkzeug – zu viele Varianten dünnen deinen Traffic zu sehr aus und machen es unnötig schwer, Signifikanz zu erreichen.
Die Anatomie eines validen Tests
Ein Test, dem man vertrauen kann, wird definiert, bevor er startet. Lege die folgenden fünf Dinge im Vorfeld fest:
- Die Hypothese – eine spezifische, falsifizierbare Aussage. “Das Verschieben von Bewertungen in den Above-the-fold-Bereich wird die Add-to-Cart-Rate erhöhen”, nicht “Lass uns mal ein paar Sachen ausprobieren.”
- Die primäre Metrik – eine einzige Kennzahl, die über den Test entscheidet. Meistens ist das die Conversion-Rate oder der Revenue per Visitor (Umsatz pro Besucher).
- Der Minimum Detectable Effect (MDE) – die kleinste Verbesserung, für die es sich zu testen lohnt.
- Die Sample Size – wie viele Besucher du pro Variante benötigst, was sich aus den unten stehenden Variablen errechnet.
- Die Dauer – wie lange es dauern wird, diese Stichprobe zu sammeln, aufgerundet auf volle Wochen.
Die Sample Size und Testdauer schon im Voraus festzulegen, wird dich später daran hindern, dich selbst auszutricksen.
Die vier Variablen jeder Sample-Size-Berechnung
Jede berechnete Sample Size beruht auf vier Werten.1
Statistische Signifikanz (α). Das Risiko, das du bereit bist einzugehen, wenn du einen Gewinner deklarierst, der eigentlich nur Rauschen (Noise) ist. Üblich sind 5 %, was im Umkehrschluss “95 % Konfidenz” bedeutet. Ein False Positive (falsch-positives Ergebnis) ist in diesem Fall eine Änderung, die du einführst, die aber rein gar nichts bringt.
Statistische Power (1−β). Die Wahrscheinlichkeit, dass dein Test einen tatsächlich vorhandenen Effekt erkennt. Der Standard liegt bei 80 %, was bedeutet, dass ein echter Gewinner deiner angestrebten Zielgröße in 80 % der Fälle erkannt wird.2 Geringere Power bedeutet, dass unbemerkt echte Gewinner durch das Raster fallen.
Minimum Detectable Effect (MDE). Der kleinste Lift, den du sicher erkennen möchtest. Dies ist die Variable, bei der Händler am häufigsten falsch liegen. Ein kleiner MDE klingt zwar besser, lässt deinen Sample-Size-Bedarf allerdings explodieren.
Baseline-Conversion-Rate. Deine aktuelle Conversion-Rate für die gewählte Metrik. Niedrigere Baselines erfordern eine weitaus größere Sample Size, da jede Conversion ein selteneres, rauchbehafteteres Event darstellt.
Die Mathematik: Warum kleine Effekte riesige Samples erfordern
Hier ist der Zusammenhang, der im Testing alles bestimmt: Die benötigte Sample Size wächst im Quadrat dazu, wie klein der Effekt ist, den du erkennen willst. Halbierst du deinen MDE, vervierfacht sich in etwa die Anzahl der benötigten Besucher.3
Ein konkretes Rechenbeispiel: Angenommen, dein Shop hat eine Conversion-Rate von 2 % und du möchtest einen relativen Lift von 10 % erzielen – also eine Steigerung von 2 % auf 2,2 % – bei 95 % Konfidenz und 80 % Power. Unter Verwendung der Standardformel für zwei Anteile:1
Du brauchst rund 80.000 Besucher pro Variante, also insgesamt etwa 160.000, damit der Test valide und aussagekräftig ist.
Lass uns das Ziel nun etwas drosseln. Wenn du bereit bist, nur einen größeren Lift von 20 % zu messen (2 % auf 2,4 %), fällt der Bedarf etwa auf ein Viertel: ca. 20.000 pro Variante. Wenn du stattdessen einem minimalen Lift von 5 % nachjagst, steigt die Anforderung drastisch auf rund 320.000 Besucher pro Variante.3
Verschiedene A/B-Testing-Rechner werfen, je nach Annahmen, manchmal leicht abweichende Zahlen aus. Der ehrlichste Weg ist daher, deine eigenen Metriken durch einen Rechner wie den von Evan Miller zu jagen und deine Ergebnisse so offenzulegen. Fakt bleibt unabhängig von der finalen Zahl aber eine Sache: Kleine Shops können kleine Effekte einfach nicht in angemessener Zeit testen.
Das Low-Traffic-Problem jedes kleineren Shopify-Stores
Verbindest du diese Rechnungen mit echtem Traffic, wird das Problem offensichtlich. Ein Store mit 2 % Conversion-Rate und 30.000 monatlichen Besuchern bräuchte Monate, um diesen einzelnen Test auf einen 10%igen Lift zu beenden. Den meisten Shopify-Händlern fehlt schlicht der Traffic, um Nuancen zu testen.
Praktische Ratschläge für Shops mit weniger Traffic:
- Peile mindestens 1.000 Conversions pro Variante an für ein Resultat, dem du auch trauen kannst. Manche Experten verwerfen ohnehin jeden Test, der am Ende nicht mindestens 250 bis 400 Conversions pro Variante eingesammelt hat.4
- Lass jeden Test für mindestens eine volle Woche laufen, im Idealfall zwei oder mehr, damit du einen kompletten Verkaufszyklus abdeckst. Käufer an Wochentagen shoppen schließlich anders als welche am Wochenende.5
- Teste nur deine Seiten mit dem höchsten Traffic – Startseite, Top-Collections oder Bestseller-Produktseiten. Dein Test soll in diesem Quartal valide Ergebnisse liefern, nicht erst im nächsten Jahr.
- Gehe auf die großen Hebel. Stores mit wenig Traffic sollten mutige Änderungen testen (Bold Changes), von denen sie große Effekte erwarten – keine Nuancen wie die Textfarbe auf einem Button.
- Liegen deine Besucher unter etwa 5.000 im Monat, fährst du mit qualitativer Forschung besser – Session-Recordings, Umfragen, Kundeninterviews – statt blindes Split-Testing zu betreiben. Die Insights daraus verschmelzen fantastisch mit unserem Shopify CRO Taktiken Guide.
Das Peeking-Problem
Der mit Abstand gefährlichste Testing-Fehler ist es, den Test einfach abzubrechen, wenn er signifikant “aussieht”. Im Affekt wirkt das oft logisch, doch es macht deine ganzen Ergebnisse im Nachhinein zunichte.
Der Grund ist rein statistischer Natur. Überprüfst du einen laufenden Test immer wieder neu und drückst auf Stop, sobald er eine Konfidenz von 95 % meldet, zwingst du das Glück gewissermaßen über die Schwelle. Eine Analyse von Evan Miller beweist es: Kontinuierliches Checken – oft Peeking genannt – treibt die echte False-Positive-Rate auf fast 26 %. Das ist das Fünffache der 5 %, mit denen du eigentlich geplant hattest.6
Die Lösung liegt in der zuvor erwähnten Disziplin: Kläre deine Sample Size und die gewünschte Dauer schon vorher, und deklariere keinen Gewinner, bevor die Ziele nicht erreicht sind. Kein Peeking, keine vorzeitigen Abbrüche, weil eine der Varianten gerade „wie der sichere Sieger aussieht“.
Häufige Conversion-Testing-Fehler
- Peeking und vorzeitiger Abbruch, was, wie oben erläutert, False-Positives extrem anheizt.6
- Triviale Anpassungen testen. Sehr kleine Anpassungen bringen fast immer Lifts unter 7 %. Für schwächere Shops bedeutet das, sie können den Uplift am Ende überhaupt nicht als solchen messen.7
- Zu viele Varianten gleichzeitig live nehmen, was den Traffic ausdünnt und die Risiken für False-Positives noch weiter multipliziert.
- Sample Ratio Mismatch (SRM). Ein angedachter 50/50-Split, der nach sehr langer Laufzeit auf einmal stark verzerrte Zahlen zum Vorschein bringt. Das Tracking oder die Randomisierung des Tools funktioniert in so einem Fall nicht richtig – und Ergebnisse sind somit wertlos.7
- Saisonalität völlig ignorieren. Machst du einen Test während einer laufenden Rabattaktion (oder über Weihnachten), misst du Traffic, der in seiner Natur rein gar nichts mit deiner eigentlichen Zielgruppe gemeinsam hat.
- Die Signifikanz mit der eigentlichen Validität verwechseln. Im Tool 95 % Signifikanz gemeldet zu bekommen, sagt überhaupt nichts aus, wenn die Sample Size ein Bruchteil deines Setups war oder der Test am Ende nach nur drei Tagen beendet wurde.4
Was du 2026 bei Shopify testen kannst (und was nicht)
Shopify hat seine eigenen A/B-Testing-Wege kürzlich maßgeblich überarbeitet. Informiere dich daher über den aktuellen Status Quo, ehe du dich verbissen auf eine einzige Option festnagelst.
Shopify Rollouts (nativ). Shopify führte nativerseits ein serverseitiges A/B-Testing ein, welches über 2026 auf Themes, Layouts und Sektionen ausgeweitet wurde und bei teureren Plänen inzwischen den Checkout und auch Kundenansichten berücksichtigt.8 Genau zwei Limits musst du jedoch dringend kennen: Einerseits testet die Umgebung keine Preise und erst recht nicht automatische Rabatte, da sie schließlich logikbasiert funktionieren – zudem sind Resultate zwar da, sie melden jedoch nicht die tatsächliche statistische Signifikanz. Es krönt dich für deinen Test also nie eigenständig zu einem Sieger. Außerdem sind Split-Testing-Experimente ohnehin ein exklusives Festmahl für Nutzer in höheren Tarifen, oft erst ab dem „Grow“-Plan.
Checkout ist weiterhin meist „Plus“-exklusiv. Vernünftiges Checkout-Testing und tiefe Customizations bleiben real praktisch nur für Shopify Plus Nutzer, die mit Checkout Extensibility versorgt sind. Skript-Eingriffe von außerhalb der Box blockt das Checkout-Design vehement.9
Google Optimize ist tot. Schon am 30. September 2023 schickte Google Optimize in die ewigen Jagdgründe. Taucht ein Tutorial bei YouTube oder im Netz auf, welches jenes Tool referenziert, ist das Tutorial schlichtweg nicht mehr up to date.10
Testing-Tools von Drittanbietern
| Tool | Was es testet | Angegebene Preise |
|---|---|---|
| Shopify Rollouts | Themes, Layout, Sections; Checkout Config ab höheren Plänen. Keine Preise. | Inklusive; Split-Tests ab Grow+ |
| Intelligems | Preise, Versand, Rabatte, Angebote, Content | Content ab ~$74/Monat; Pricing-Tests ab ~$499/Monat |
| Shoplift | Themes, Templates, Produkt- und Landingpages, Preise | Ab ~$74/Monat, skaliert nach Besuchern |
| VWO / Optimizely | Volles clientseitiges A/B- und MVT-Testing | Plattform-Pricing, aktuelle Tarife prüfen |
Überprüfe die aktuellen Preise immer direkt auf der Seite des jeweiligen Anbieters, bevor du dich festlegst – diese Tarife ändern sich ständig. Für einen detaillierteren Vergleich haben wir eine Übersicht der besten Shopify A/B-Testing-Tools sowie der besten Shopify-Apps für CRO erstellt.
Realistische Erwartungen: Benchmarks
Zwei Zahlen helfen dir dabei, deinen MDE zu definieren und deine Ergebnisse auch mit einem kühlen, objektivem Kopf zu werten.
Baseline-Conversion-Rate. Die offiziellen Benchmarks bei Shopify rücken den klassischen Online-Shop gerne auf eine Conversion-Rate von 1,4 % bis 3 %, mit Abweichungen je nach Branche – im Segment Schmuck oder Möbel liegen Raten deutlich unter 1,5 %, bei Kosmetik, Essen oder Konsumgütern oftmals weitaus höher.11 Kenne deinen fixen Wert, bevor du in eine Sample-Size-Berechnung abtauchst, und gleiche diese dann mit den Erfahrungswerten unserer eigenen Shopify Conversion Rate Benchmarks ab.
Realistischer Uplift. Meta-Analysen realer Markttests listen die durchschnittliche Steigerung durch klassische A/B-Testings im Bereich 4 bis 5 % auf. Man testet hier faktisch die Details.12 Plane also eher mit bescheideneren Wins. Erwartet ein Store-Betreiber hier durchweg eine Verkaufssteigerung von 30 %, springt er auf jedes Rauschen (Noise) an und kappt seinen Test deutlich vor seiner eigentlichen Validität.
Wie man einen Test von Anfang bis Ende durchführt
Zusammenfassend sieht ein vertrauenswürdiger Test so aus:
- Schreibe eine spezifische Hypothese, die an eine primäre Metrik gekoppelt ist.
- Finde deine Baseline-Conversion-Rate für eben diese Metrik heraus.
- Wähle den kleinsten Lift, dessen Messung für dich überhaupt relevant ist (MDE). Gehe dabei tendenziell auf größere Effekte, wenn dein Traffic stark limitiert ist.
- Berechne deine Sample Size und dann die Testdauer. Runde auf volle Wochen auf.
- Erstelle die Variante. Du kannst die Änderung schnell im Shopify Store Editor nachbauen, dann dein Setup überleiten und den Rest von deinem Testing-Tool überwachen lassen.
- Lasse den Test so lange unberührt ruhen, bis deine kalkulierte Sample Size oder Wunsch-Dauer abgelaufen ist. Kein Peeking.
- Verifiziere das Ergebnis der ersten Messmetrik. Betrachte auch die Error-Meldungen wie SRM (Sample Ratio Mismatch).
- Egal, ob am Ende gewonnen oder verloren: Nutze die Zahlen als Learnings für den nächsten Testlauf. Speziell für Artikel geht unser Guide zum A/B-Testing auf Shopify-Produktseiten intensiv auf diese Thematik ein.
Conversion-Testing ist eine dauerhafte Schleife (Loop), kein einmaliges Projekt. Online-Stores erarbeiten hier erst durch konstante Geduld und ein absolut vertrauensvolles Testing-Verfahren eine sich am Ende auch immer aufbauende Verkaufsspanne (Compound Gains).
FAQ
Das hängt von deiner Baseline-Conversion-Rate und dem Effekt ab, den du messen willst. Bei einer Basis von 2 % erfordert das Erkennen eines 10 %-Lifts rund 80.000 Besucher pro Variante. Eine gängige Faustregel sind etwa 1.000 Conversions pro Variante. Bei unter ca. 5.000 Besuchern im Monat ist qualitative Forschung meist deutlich sinnvoller als ein Split-Test.
Der MDE ist die kleinste Verbesserung, die dein Test erkennen können soll. Er ist eine Schlüsselvariable für die Sample Size und die Beziehung ist quadratisch: Eine Halbierung deines MDEs vervierfacht in etwa die benötigten Besucher. Kleine Shops sollten einen größeren MDE ansetzen und mutige Design-Änderungen testen, da kleine Effekte gigantische Stichproben erfordern.
Mindestens eine volle Woche, am besten zwei oder mehr, damit der Test einen kompletten Geschäftszyklus (also auch das Verhalten unter der Woche und am Wochenende) abbildet. Noch wichtiger: Lass ihn so lange laufen, bis du die zuvor berechnete Sample Size erreichst. Stoppe ihn nicht frühzeitig, nur weil eine Variante so aussieht, als würde sie gewinnen.
Weil das wiederholte Checken und sofortige Stoppen beim ersten signifikanten Wert deine False-Positive-Rate dramatisch erhöht. Analysen haben gezeigt, dass ständiges 'Peeking' die echte False-Positive-Rate auf rund 26 % treiben kann – mehr als das Fünffache der angestrebten 5 %. Bestimme die Sample Size und Testdauer vorab und warte einfach ab.
Nicht mit Shopifys nativer Rollouts-Funktion. Sie testet Theme- und Layout-Änderungen, aber keine Preise oder Rabattlogiken. Um Preise zu testen, benötigst du ein Drittanbieter-Tool wie Intelligems oder Shoplift. Preis-Testing-Pläne sind in der Regel teurer und oftmals auf Shopify Plus Stores ausgerichtet.
Nein. Shopify Rollouts liefert Performance-Metriken wie Conversion Rate, Average Order Value (AOV) und Sitzungen, führt aber keinen statistischen Signifikanztest durch und deklariert keinen Gewinner. Du musst die Signifikanz mit einem Rechner selbst bewerten oder ein Tool von einem Drittanbieter nutzen, welches die Statistik direkt für dich übernimmt.
Footnotes
-
VWO, “How to Calculate A/B Test Sample Size”. Über die vier Input-Variablen und die “Two-Proportion”-Formel. https://vwo.com/blog/how-to-calculate-ab-test-sample-size/ ↩ ↩2
-
CXL, “Statistical Power”: 80 % Power ist der übliche Standardwert, der das Risiko von Falsch-Positiven und Falsch-Negativen abwägt. https://cxl.com/blog/statistical-power/ ↩
-
Über die quadratische Beziehung zwischen Minimum Detectable Effect und Sample Size. Berechnete Zahlen (ca. 80.000 pro Variante für eine 2 % Baseline und 10 % relativen Lift bei 95 % / 80 %) basierend auf der Standard-Two-Proportion-Formel; Rechner variieren je nach Annahmen. https://splitmetrics.com/resources/minimum-detectable-effect-mde/ ↩ ↩2
-
CXL, “Stopping A/B Tests: How Many Conversions Do I Need?”: Richtwert von ca. 1.000 Conversions – und der Fakt, dass statistische Signifikanz nicht gleich Validität ist. https://cxl.com/blog/stopping-ab-tests-how-many-conversions-do-i-need/ ↩ ↩2
-
VWO, “Understanding Minimum Test Duration”: Ein Minimum von 7 Tagen, um einen ganzen Wochenzyklus zu erfassen, oft sogar länger. https://help.vwo.com/hc/en-us/articles/37026733636121-Understanding-Minimum-Test-Duration ↩
-
Evan Miller, “How Not to Run an A/B Test”: Kontinuierliches “Peeking” und rechtzeitiges Stoppen bei Erreichen der Signifikanz kann die tatsächliche False-Positive-Rate auf etwa 26 % anheben. https://www.evanmiller.org/how-not-to-run-an-ab-test.html ↩ ↩2
-
Über häufige A/B-Testing-Fehler, einschließlich trivialer Änderungen, zu vieler Varianten und Sample Ratio Mismatch (SRM). https://posthog.com/product-engineers/ab-testing-mistakes ↩ ↩2
-
Zu Shopifys nativen Rollouts (A/B-Testing): Was getestet werden kann, dass keine Preise getestet werden können, dass Metriken ohne Signifikanztest gemeldet werden und dass Experimente auf höhere Pläne beschränkt sind. https://www.usestorepilot.com/blog/shopify-rollouts-ab-testing/ ↩
-
Darüber, dass Checkout-Customizing und Testing faktisch auf Shopify Plus (via Checkout Extensibility) beschränkt sind. https://www.intelligems.io/resources/blog/the-evolution-of-checkout-customization-is-here ↩
-
Google Optimize und Optimize 360 wurden am 30. September 2023 eingestellt. https://www.optimizely.com/optimize/ ↩
-
Shopify, “How to Improve Ecommerce Conversion Rates”: Eine typische Shop-Conversion liegt zwischen 1,4 % und 3 %, variiert aber stark je nach Kategorie. https://www.shopify.com/blog/ecommerce-conversion-rate ↩
-
Eine Analyse von Analytics-Toolkit über 115 A/B-Tests ergab einen durchschnittlichen Lift von ca. 4 %, wobei den meisten Tests die Power fehlte; die GoodUI-Meta-Analyse meldet einen Median-Lift um die 5 %. https://blog.analytics-toolkit.com/2018/analysis-of-115-a-b-tests-average-lift-statistical-power/ ↩


