Der komplette Guide zum Conversion-Testing auf Shopify

Veröffentlicht
Von Experten geprüft
5 Min. Lesezeit
Simeon Mantel
Simeon Mantel
CEO bei Fudge.
Simeon ist CEO bei Fudge und verfügt über 12 Jahre Erfahrung in den Bereichen Produkt und E-Commerce, unter anderem als Head of Product bei einem YC-finanzierten Start-up. Er hat mit Tausenden von Shopify-Gründern, Agenturen und E-Commerce-Managern darüber gesprochen, wie sie Shops aufbauen und launchen – Recherchen, die Fudge direkt prägen, ein Tool, das heute über 22.000 Seiten bei mehr als 400 Händlern antreibt. Er schreibt über angewandte KI für E-Commerce, die sich verändernde Rolle von Page-Buildern und darüber, was es braucht, um umsatzstarke Seiten ohne Templates oder Entwickler zu launchen.

Das Wichtigste in Kürze

  • Conversion-Testing ist CRO gepaart mit Statistik – du passt nicht einfach nur eine Seite an, du misst, ob die Änderung auch wirklich einen Unterschied bewirkt hat.
  • Jeder valide Test wird vor seinem Start durch vier Variablen definiert: Signifikanz, Power, Minimum Detectable Effect (MDE) und deine Basis-Conversion-Rate.
  • Die Mathematik ist für kleine Shops unerbittlich: Bei einer Basis von 2 % erfordert die Erkennung eines Lifts von 10 % rund 80.000 Besucher pro Variante. Wenn du den angestrebten Effekt halbierst, vervierfacht sich in etwa die benötigte Sample Size.
  • Der häufigste Fehler ist das Peeking (vorzeitiges Nachschauen) – den Test abzubrechen, sobald er signifikant aussieht. Das kann deine tatsächliche False-Positive-Rate auf über 25 % treiben.
  • Shopifys natives Testing (Rollouts) kann Layouts testen, aber keine Preise, weist keine statistische Signifikanz aus und beschränkt die Experiment-Funktionen auf teurere Pläne.

Dies ist ein umfassender Guide zum Conversion-Testing auf Shopify. Er geht über eine allgemeine CRO-Übersicht hinaus und widmet sich den Mechanismen, die entscheiden, ob ein Testergebnis echt ist: Sample Size (Stichprobengröße), statistische Signifikanz, Testdauer und das ganz spezielle Problem von Shops mit eher wenig Traffic.

Wenn du dir erst einmal einen groben Überblick darüber verschaffen willst, was du an deinem Shop überhaupt ändern solltest, starte mit unserem Shopify CRO Guide und komm zurück, wenn du bereit bist, diese Änderungen auch richtig zu testen.

Warum du uns vertrauen kannst

Wir verbringen schon mehr als vier Jahre im Shopify-Ökosystem und haben Fudge entwickelt, einen KI-Page-Builder, der von Hunderten Händlern genutzt wird, um Shop-Seiten zu veröffentlichen und zu iterieren. Wir haben viele Shops dabei beobachtet, wie sie viele Tests durchgeführt haben, und der Grund für das Scheitern ist fast immer derselbe: Einen Gewinner aufgrund von Daten auszuwählen, die das eigentlich nie hergaben. Dieser Guide wurde geschrieben, um genau das zu verhindern.

Was Conversion-Testing eigentlich ist

Conversion-Testing ist die Praxis, eine Sache in deinem Shop zu ändern, diese Änderung einer zufälligen Hälfte deiner Besucher zu zeigen und mittels Statistik zu prüfen, ob sie einen echten Unterschied in der Conversion-Rate bewirkt hat. Die Statistik ist hierbei der entscheidende Punkt. Ohne sie schaust du dir nur zwei Zahlen an und rätst wild drauflos.

Diese Vorgehensweise trennt Conversion-Testing von allgemeiner Conversion Rate Optimization (CRO). CRO ist die gesamte Disziplin, deinen Shop zu verbessern. Conversion-Testing ist die Messmethode, die dir klipp und klar sagt, welche dieser Verbesserungen tatsächlich funktioniert haben.

Ein A/B-Test teilt den Traffic zwischen einer Kontrolle (A) und einer Variante (B) auf. A/B/n-Tests fügen weitere Varianten hinzu. Multivariate Tests (MVT) ändern gleich mehrere Elemente auf einmal. Für die meisten Shopify-Stores ist ein sauberer A/B-Test mit zwei Varianten exakt das richtige Werkzeug – zu viele Varianten dünnen deinen Traffic zu sehr aus und machen es unnötig schwer, Signifikanz zu erreichen.

Die Anatomie eines validen Tests

Ein Test, dem man vertrauen kann, wird definiert, bevor er startet. Lege die folgenden fünf Dinge im Vorfeld fest:

  1. Die Hypothese – eine spezifische, falsifizierbare Aussage. “Das Verschieben von Bewertungen in den Above-the-fold-Bereich wird die Add-to-Cart-Rate erhöhen”, nicht “Lass uns mal ein paar Sachen ausprobieren.”
  2. Die primäre Metrik – eine einzige Kennzahl, die über den Test entscheidet. Meistens ist das die Conversion-Rate oder der Revenue per Visitor (Umsatz pro Besucher).
  3. Der Minimum Detectable Effect (MDE) – die kleinste Verbesserung, für die es sich zu testen lohnt.
  4. Die Sample Size – wie viele Besucher du pro Variante benötigst, was sich aus den unten stehenden Variablen errechnet.
  5. Die Dauer – wie lange es dauern wird, diese Stichprobe zu sammeln, aufgerundet auf volle Wochen.

Die Sample Size und Testdauer schon im Voraus festzulegen, wird dich später daran hindern, dich selbst auszutricksen.

Die vier Variablen jeder Sample-Size-Berechnung

Jede berechnete Sample Size beruht auf vier Werten.1

Statistische Signifikanz (α). Das Risiko, das du bereit bist einzugehen, wenn du einen Gewinner deklarierst, der eigentlich nur Rauschen (Noise) ist. Üblich sind 5 %, was im Umkehrschluss “95 % Konfidenz” bedeutet. Ein False Positive (falsch-positives Ergebnis) ist in diesem Fall eine Änderung, die du einführst, die aber rein gar nichts bringt.

Statistische Power (1−β). Die Wahrscheinlichkeit, dass dein Test einen tatsächlich vorhandenen Effekt erkennt. Der Standard liegt bei 80 %, was bedeutet, dass ein echter Gewinner deiner angestrebten Zielgröße in 80 % der Fälle erkannt wird.2 Geringere Power bedeutet, dass unbemerkt echte Gewinner durch das Raster fallen.

Minimum Detectable Effect (MDE). Der kleinste Lift, den du sicher erkennen möchtest. Dies ist die Variable, bei der Händler am häufigsten falsch liegen. Ein kleiner MDE klingt zwar besser, lässt deinen Sample-Size-Bedarf allerdings explodieren.

Baseline-Conversion-Rate. Deine aktuelle Conversion-Rate für die gewählte Metrik. Niedrigere Baselines erfordern eine weitaus größere Sample Size, da jede Conversion ein selteneres, rauchbehafteteres Event darstellt.

Die Mathematik: Warum kleine Effekte riesige Samples erfordern

Hier ist der Zusammenhang, der im Testing alles bestimmt: Die benötigte Sample Size wächst im Quadrat dazu, wie klein der Effekt ist, den du erkennen willst. Halbierst du deinen MDE, vervierfacht sich in etwa die Anzahl der benötigten Besucher.3

Ein konkretes Rechenbeispiel: Angenommen, dein Shop hat eine Conversion-Rate von 2 % und du möchtest einen relativen Lift von 10 % erzielen – also eine Steigerung von 2 % auf 2,2 % – bei 95 % Konfidenz und 80 % Power. Unter Verwendung der Standardformel für zwei Anteile:1

Du brauchst rund 80.000 Besucher pro Variante, also insgesamt etwa 160.000, damit der Test valide und aussagekräftig ist.

Lass uns das Ziel nun etwas drosseln. Wenn du bereit bist, nur einen größeren Lift von 20 % zu messen (2 % auf 2,4 %), fällt der Bedarf etwa auf ein Viertel: ca. 20.000 pro Variante. Wenn du stattdessen einem minimalen Lift von 5 % nachjagst, steigt die Anforderung drastisch auf rund 320.000 Besucher pro Variante.3

Verschiedene A/B-Testing-Rechner werfen, je nach Annahmen, manchmal leicht abweichende Zahlen aus. Der ehrlichste Weg ist daher, deine eigenen Metriken durch einen Rechner wie den von Evan Miller zu jagen und deine Ergebnisse so offenzulegen. Fakt bleibt unabhängig von der finalen Zahl aber eine Sache: Kleine Shops können kleine Effekte einfach nicht in angemessener Zeit testen.

Shippe die Variante, die du testen willst, in Minuten, nicht in Sprints.
Try Fudge for Free

Das Low-Traffic-Problem jedes kleineren Shopify-Stores

Verbindest du diese Rechnungen mit echtem Traffic, wird das Problem offensichtlich. Ein Store mit 2 % Conversion-Rate und 30.000 monatlichen Besuchern bräuchte Monate, um diesen einzelnen Test auf einen 10%igen Lift zu beenden. Den meisten Shopify-Händlern fehlt schlicht der Traffic, um Nuancen zu testen.

Praktische Ratschläge für Shops mit weniger Traffic:

Das Peeking-Problem

Der mit Abstand gefährlichste Testing-Fehler ist es, den Test einfach abzubrechen, wenn er signifikant “aussieht”. Im Affekt wirkt das oft logisch, doch es macht deine ganzen Ergebnisse im Nachhinein zunichte.

Der Grund ist rein statistischer Natur. Überprüfst du einen laufenden Test immer wieder neu und drückst auf Stop, sobald er eine Konfidenz von 95 % meldet, zwingst du das Glück gewissermaßen über die Schwelle. Eine Analyse von Evan Miller beweist es: Kontinuierliches Checken – oft Peeking genannt – treibt die echte False-Positive-Rate auf fast 26 %. Das ist das Fünffache der 5 %, mit denen du eigentlich geplant hattest.6

Die Lösung liegt in der zuvor erwähnten Disziplin: Kläre deine Sample Size und die gewünschte Dauer schon vorher, und deklariere keinen Gewinner, bevor die Ziele nicht erreicht sind. Kein Peeking, keine vorzeitigen Abbrüche, weil eine der Varianten gerade „wie der sichere Sieger aussieht“.

Häufige Conversion-Testing-Fehler

Was du 2026 bei Shopify testen kannst (und was nicht)

Shopify hat seine eigenen A/B-Testing-Wege kürzlich maßgeblich überarbeitet. Informiere dich daher über den aktuellen Status Quo, ehe du dich verbissen auf eine einzige Option festnagelst.

Shopify Rollouts (nativ). Shopify führte nativerseits ein serverseitiges A/B-Testing ein, welches über 2026 auf Themes, Layouts und Sektionen ausgeweitet wurde und bei teureren Plänen inzwischen den Checkout und auch Kundenansichten berücksichtigt.8 Genau zwei Limits musst du jedoch dringend kennen: Einerseits testet die Umgebung keine Preise und erst recht nicht automatische Rabatte, da sie schließlich logikbasiert funktionieren – zudem sind Resultate zwar da, sie melden jedoch nicht die tatsächliche statistische Signifikanz. Es krönt dich für deinen Test also nie eigenständig zu einem Sieger. Außerdem sind Split-Testing-Experimente ohnehin ein exklusives Festmahl für Nutzer in höheren Tarifen, oft erst ab dem „Grow“-Plan.

Checkout ist weiterhin meist „Plus“-exklusiv. Vernünftiges Checkout-Testing und tiefe Customizations bleiben real praktisch nur für Shopify Plus Nutzer, die mit Checkout Extensibility versorgt sind. Skript-Eingriffe von außerhalb der Box blockt das Checkout-Design vehement.9

Google Optimize ist tot. Schon am 30. September 2023 schickte Google Optimize in die ewigen Jagdgründe. Taucht ein Tutorial bei YouTube oder im Netz auf, welches jenes Tool referenziert, ist das Tutorial schlichtweg nicht mehr up to date.10

Testing-Tools von Drittanbietern

ToolWas es testetAngegebene Preise
Shopify RolloutsThemes, Layout, Sections; Checkout Config ab höheren Plänen. Keine Preise.Inklusive; Split-Tests ab Grow+
IntelligemsPreise, Versand, Rabatte, Angebote, ContentContent ab ~$74/Monat; Pricing-Tests ab ~$499/Monat
ShopliftThemes, Templates, Produkt- und Landingpages, PreiseAb ~$74/Monat, skaliert nach Besuchern
VWO / OptimizelyVolles clientseitiges A/B- und MVT-TestingPlattform-Pricing, aktuelle Tarife prüfen

Überprüfe die aktuellen Preise immer direkt auf der Seite des jeweiligen Anbieters, bevor du dich festlegst – diese Tarife ändern sich ständig. Für einen detaillierteren Vergleich haben wir eine Übersicht der besten Shopify A/B-Testing-Tools sowie der besten Shopify-Apps für CRO erstellt.

Realistische Erwartungen: Benchmarks

Zwei Zahlen helfen dir dabei, deinen MDE zu definieren und deine Ergebnisse auch mit einem kühlen, objektivem Kopf zu werten.

Baseline-Conversion-Rate. Die offiziellen Benchmarks bei Shopify rücken den klassischen Online-Shop gerne auf eine Conversion-Rate von 1,4 % bis 3 %, mit Abweichungen je nach Branche – im Segment Schmuck oder Möbel liegen Raten deutlich unter 1,5 %, bei Kosmetik, Essen oder Konsumgütern oftmals weitaus höher.11 Kenne deinen fixen Wert, bevor du in eine Sample-Size-Berechnung abtauchst, und gleiche diese dann mit den Erfahrungswerten unserer eigenen Shopify Conversion Rate Benchmarks ab.

Realistischer Uplift. Meta-Analysen realer Markttests listen die durchschnittliche Steigerung durch klassische A/B-Testings im Bereich 4 bis 5 % auf. Man testet hier faktisch die Details.12 Plane also eher mit bescheideneren Wins. Erwartet ein Store-Betreiber hier durchweg eine Verkaufssteigerung von 30 %, springt er auf jedes Rauschen (Noise) an und kappt seinen Test deutlich vor seiner eigentlichen Validität.

Wie man einen Test von Anfang bis Ende durchführt

Zusammenfassend sieht ein vertrauenswürdiger Test so aus:

  1. Schreibe eine spezifische Hypothese, die an eine primäre Metrik gekoppelt ist.
  2. Finde deine Baseline-Conversion-Rate für eben diese Metrik heraus.
  3. Wähle den kleinsten Lift, dessen Messung für dich überhaupt relevant ist (MDE). Gehe dabei tendenziell auf größere Effekte, wenn dein Traffic stark limitiert ist.
  4. Berechne deine Sample Size und dann die Testdauer. Runde auf volle Wochen auf.
  5. Erstelle die Variante. Du kannst die Änderung schnell im Shopify Store Editor nachbauen, dann dein Setup überleiten und den Rest von deinem Testing-Tool überwachen lassen.
  6. Lasse den Test so lange unberührt ruhen, bis deine kalkulierte Sample Size oder Wunsch-Dauer abgelaufen ist. Kein Peeking.
  7. Verifiziere das Ergebnis der ersten Messmetrik. Betrachte auch die Error-Meldungen wie SRM (Sample Ratio Mismatch).
  8. Egal, ob am Ende gewonnen oder verloren: Nutze die Zahlen als Learnings für den nächsten Testlauf. Speziell für Artikel geht unser Guide zum A/B-Testing auf Shopify-Produktseiten intensiv auf diese Thematik ein.

Conversion-Testing ist eine dauerhafte Schleife (Loop), kein einmaliges Projekt. Online-Stores erarbeiten hier erst durch konstante Geduld und ein absolut vertrauensvolles Testing-Verfahren eine sich am Ende auch immer aufbauende Verkaufsspanne (Compound Gains).

FAQ

Wie viel Traffic brauche ich für A/B-Tests auf Shopify?

Das hängt von deiner Baseline-Conversion-Rate und dem Effekt ab, den du messen willst. Bei einer Basis von 2 % erfordert das Erkennen eines 10 %-Lifts rund 80.000 Besucher pro Variante. Eine gängige Faustregel sind etwa 1.000 Conversions pro Variante. Bei unter ca. 5.000 Besuchern im Monat ist qualitative Forschung meist deutlich sinnvoller als ein Split-Test.

Was ist der Minimum Detectable Effect (MDE)?

Der MDE ist die kleinste Verbesserung, die dein Test erkennen können soll. Er ist eine Schlüsselvariable für die Sample Size und die Beziehung ist quadratisch: Eine Halbierung deines MDEs vervierfacht in etwa die benötigten Besucher. Kleine Shops sollten einen größeren MDE ansetzen und mutige Design-Änderungen testen, da kleine Effekte gigantische Stichproben erfordern.

Wie lange sollte ein Shopify A/B-Test laufen?

Mindestens eine volle Woche, am besten zwei oder mehr, damit der Test einen kompletten Geschäftszyklus (also auch das Verhalten unter der Woche und am Wochenende) abbildet. Noch wichtiger: Lass ihn so lange laufen, bis du die zuvor berechnete Sample Size erreichst. Stoppe ihn nicht frühzeitig, nur weil eine Variante so aussieht, als würde sie gewinnen.

Warum sollte ich einen Test nicht stoppen, sobald er Signifikanz erreicht?

Weil das wiederholte Checken und sofortige Stoppen beim ersten signifikanten Wert deine False-Positive-Rate dramatisch erhöht. Analysen haben gezeigt, dass ständiges 'Peeking' die echte False-Positive-Rate auf rund 26 % treiben kann – mehr als das Fünffache der angestrebten 5 %. Bestimme die Sample Size und Testdauer vorab und warte einfach ab.

Kann ich Preise auf Shopify per A/B-Test testen?

Nicht mit Shopifys nativer Rollouts-Funktion. Sie testet Theme- und Layout-Änderungen, aber keine Preise oder Rabattlogiken. Um Preise zu testen, benötigst du ein Drittanbieter-Tool wie Intelligems oder Shoplift. Preis-Testing-Pläne sind in der Regel teurer und oftmals auf Shopify Plus Stores ausgerichtet.

Sagt mir das native A/B-Testing von Shopify, ob ein Ergebnis signifikant ist?

Nein. Shopify Rollouts liefert Performance-Metriken wie Conversion Rate, Average Order Value (AOV) und Sitzungen, führt aber keinen statistischen Signifikanztest durch und deklariert keinen Gewinner. Du musst die Signifikanz mit einem Rechner selbst bewerten oder ein Tool von einem Drittanbieter nutzen, welches die Statistik direkt für dich übernimmt.

Simeon's signature
Bereit, dich zu einem Shop mit höheren Conversions zu testen?

Footnotes

  1. VWO, “How to Calculate A/B Test Sample Size”. Über die vier Input-Variablen und die “Two-Proportion”-Formel. https://vwo.com/blog/how-to-calculate-ab-test-sample-size/ 2

  2. CXL, “Statistical Power”: 80 % Power ist der übliche Standardwert, der das Risiko von Falsch-Positiven und Falsch-Negativen abwägt. https://cxl.com/blog/statistical-power/

  3. Über die quadratische Beziehung zwischen Minimum Detectable Effect und Sample Size. Berechnete Zahlen (ca. 80.000 pro Variante für eine 2 % Baseline und 10 % relativen Lift bei 95 % / 80 %) basierend auf der Standard-Two-Proportion-Formel; Rechner variieren je nach Annahmen. https://splitmetrics.com/resources/minimum-detectable-effect-mde/ 2

  4. CXL, “Stopping A/B Tests: How Many Conversions Do I Need?”: Richtwert von ca. 1.000 Conversions – und der Fakt, dass statistische Signifikanz nicht gleich Validität ist. https://cxl.com/blog/stopping-ab-tests-how-many-conversions-do-i-need/ 2

  5. VWO, “Understanding Minimum Test Duration”: Ein Minimum von 7 Tagen, um einen ganzen Wochenzyklus zu erfassen, oft sogar länger. https://help.vwo.com/hc/en-us/articles/37026733636121-Understanding-Minimum-Test-Duration

  6. Evan Miller, “How Not to Run an A/B Test”: Kontinuierliches “Peeking” und rechtzeitiges Stoppen bei Erreichen der Signifikanz kann die tatsächliche False-Positive-Rate auf etwa 26 % anheben. https://www.evanmiller.org/how-not-to-run-an-ab-test.html 2

  7. Über häufige A/B-Testing-Fehler, einschließlich trivialer Änderungen, zu vieler Varianten und Sample Ratio Mismatch (SRM). https://posthog.com/product-engineers/ab-testing-mistakes 2

  8. Zu Shopifys nativen Rollouts (A/B-Testing): Was getestet werden kann, dass keine Preise getestet werden können, dass Metriken ohne Signifikanztest gemeldet werden und dass Experimente auf höhere Pläne beschränkt sind. https://www.usestorepilot.com/blog/shopify-rollouts-ab-testing/

  9. Darüber, dass Checkout-Customizing und Testing faktisch auf Shopify Plus (via Checkout Extensibility) beschränkt sind. https://www.intelligems.io/resources/blog/the-evolution-of-checkout-customization-is-here

  10. Google Optimize und Optimize 360 wurden am 30. September 2023 eingestellt. https://www.optimizely.com/optimize/

  11. Shopify, “How to Improve Ecommerce Conversion Rates”: Eine typische Shop-Conversion liegt zwischen 1,4 % und 3 %, variiert aber stark je nach Kategorie. https://www.shopify.com/blog/ecommerce-conversion-rate

  12. Eine Analyse von Analytics-Toolkit über 115 A/B-Tests ergab einen durchschnittlichen Lift von ca. 4 %, wobei den meisten Tests die Power fehlte; die GoodUI-Meta-Analyse meldet einen Median-Lift um die 5 %. https://blog.analytics-toolkit.com/2018/analysis-of-115-a-b-tests-average-lift-statistical-power/

Ähnliche Beiträge