Was ist ein t-Test? Ihr Leitfaden zur Auswertung von Umfrageergebnissen

Erfahren Sie, wie Sie mit einem einfachen t-Test statistisch signifikante Differenzen bei Gruppenmittelwerten, Befragungsergebnissen und A/B-Tests identifizieren können.

Eine Frau arbeitet an t-Test-Diagrammen.

Einfach nur zwei Zahlen zu vergleichen, ist einfach, aber herauszufinden, ob die Differenz auch statistisch signifikant ist, ist nicht so leicht.

Angenommen, Sie haben eine Kundenzufriedenheitsumfrage durchgeführt. Ihre Chefin oder Ihr Chef möchte wissen, ob Männer Ihrem Unternehmen einen niedrigeren Net Promoter Score® (NPS) geben als Frauen. 

In den Daten sehen Sie, dass der Durchschnittswert bei männlichen Teilnehmenden 9 beträgt, während Frauen im Schnitt 12 vergeben haben. Wie lässt sich feststellen, ob 9 tatsächlich signifikant niedriger als 12 ist? Zur Beantwortung dieser Frage kommen t-Tests ins Spiel.

In diesem Artikel erklären wir, was t-Tests sind und wofür sie eingesetzt werden, zeigen Beispiele und erläutern, wie Sie Befragungsergebnisse interpretieren können. 

Ein t-Test ist ein statistisches Verfahren, das prüft, ob die Differenz zwischen zwei Mittelwerten signifikant ist, und dabei die t-Verteilung nutzt. So können Sie feststellen, ob ein beobachteter Unterschied zwischen Gruppen tatsächlich besteht oder nur zufällig entstanden ist.

Das Testen auf statistische Signifikanz ist üblich bei Konzepttests und Produkttests. Bei Konzepttests werden oft A/B-Tests eingesetzt, um herauszufinden, ob ein Werbekonzept besser ist als ein anderes. Und in Produkttests kann geprüft werden, ob sich ein Produkt nach der Markteinführung behaupten kann. 

Bei t-Tests werden spezielle Formeln verwendet, um Mittelwerte zu vergleichen und festzustellen, ob eine Differenz statistisch signifikant ist. In der Umfrageanalyse ist der Zweistichproben-t-Test am gebräuchlichsten:

t-Test-Formel.

Dies sind die Formeln für den Einstichproben-t-Test und den t-Differenzentest:

Formeln für Einstichproben-t-Test und t-Differenzentest.

Sowohl beim Einstichproben-t-Test als auch beim t-Differenzentest wird der berechnete t-Wert mit einem kritischen Wert aus der t-Verteilung verglichen, um die Signifikanz zu beurteilen.

Verwenden Sie einen t-Test, wenn Sie wissen möchten, ob sich zwei Durchschnittswerte in Ihren Befragungsergebnissen aus relevanten Gründen unterscheiden und nicht einfach nur numerisch voneinander abweichen. t-Tests helfen Ihnen, Gruppenmittelwerte zu vergleichen, Stichprobendifferenzen zu bewerten und anhand von p-Wert und Konfidenzniveau zu entscheiden, ob ein Unterschied statistisch signifikant ist.

Typische Szenarien in Umfragen:

  • Vergleichen von zwei Gruppen. Verwenden Sie einen Zweistichproben-t-Test (unabhängige Stichproben), um zu prüfen, ob Segmente wie Männer/Frauen, neue/wiederkehrende Kund:innen oder verschiedene Mitarbeitergruppen unterschiedlich antworten.
  • Vergleich von Konzepten oder zwischen Experimentalgruppe und Kontrollgruppe. Beim A/B-Test oder Konzepttest zeigt ein t-Test, ob eine Version besser abschneidet als eine andere.
  • Bewerten von Kennzahlen-Differenzen. Vergleichen Sie Kennzahlen wie den Net Promoter Score (NPS), den Customer Satisfaction Score (CSAT) oder den Customer Effort Score (CES), um festzustellen, ob der Durchschnittswert einer Gruppe statistisch signifikant höher oder niedriger ist.
  • Prüfen von Veränderungen im zeitlichen Verlauf. Ein t-Differenzentest zeigt, ob sich die vergebenen Scores bei den Befragten nach einem Event, Feature-Launch oder einer Kampagne verändern.

Verwenden Sie einen t-Test, wenn Sie eine Mittelwertdifferenz bewerten, einen Benchmark-Vergleich testen oder eine Hypothese mit kleinen Stichproben absichern möchten. Er ist ideal für die Analyse von Erhebungen, A/B-Tests und überall dort, wo Sie Belege dafür brauchen, dass tatsächlich eine signifikante Differenz in den Daten besteht.

Bevor Sie einen t-Test durchführen, müssen Sie prüfen, ob Ihre Daten grundlegende Voraussetzungen erfüllen, damit die Ergebnisse zuverlässig sind.

  • Unabhängige Beantwortungen. Jede Antwort sollte von einer anderen Person stammen und keine andere Beantwortung beeinflussen. Vermeiden Sie Duplikate, gemeinsam genutzte Geräte oder eine unerkannte Gruppenbildung.
  • Ungefähr normalverteilte Mittelwerte. Ein t-Test funktioniert am besten, wenn die Stichprobenverteilung des Mittelwerts annähernd normal ist. Das ist in der Regel gegeben, wenn jede Stichprobe etwa 30 oder mehr Teilnehmende umfasst.
  • Angemessene Varianz. Unterscheiden sich die Varianzen der beiden Gruppen stark oder sind die Stichprobengrößen sehr unterschiedlich, verwenden Sie statt des klassischen Zweistichproben-t-Tests lieber den Welch-t-Test.

Eine kurze Überprüfung dieser Voraussetzungen sorgt dafür, dass eine gefundene Differenz tatsächlich ein echtes Signal ist und kein Rauschen in den Daten.

Es gibt drei t-Test-Arten, die von Forschenden häufig verwendet werden. Sie haben jeweils unterschiedliche Einsatzzwecke, die wir im Folgenden erläutern.

Beim Einstichproben-t-Test wird ermittelt, ob der Mittelwert (bzw. Durchschnitt) von Daten aus einer Gruppe (in diesem Fall der Gesamt-CES) sich von einem für Sie relevanten Wert unterscheidet.

Beispiel: Der durchschnittliche Customer Effort Score (CES) Ihres Unternehmens liegt bei 4,2. Ist der Wert 4,2 signifikant schlechter als der Branchenstandard von 5,0?

Mit Zweistichproben-t-Tests wird geprüft, ob sich die Mittelwerte zweier unabhängiger Gruppen signifikant voneinander unterscheiden. Falls die Varianzen der Gruppen ungleich sind oder die Stichprobengrößen stark abweichen, empfiehlt sich der Welch-t-Test (in den meistens Tools verfügbar), da er keine gleichen Varianzen voraussetzt.

Beispiel: Ihre Hypothese ist, dass Männer Ihrem Unternehmen einen niedrigeren NPS vergeben als Frauen. Der durchschnittliche NPS von männlichen Befragten liegt bei 9, während die durchschnittliche Bewertung von Frauen bei 12 liegt. Unterscheidet sich 9 signifikant von 12?

Dieser Test wird eingesetzt, wenn Sie derselben Gruppe zweimal dieselbe Befragung vorlegen. Mit einem t-Differenzentest erkennen Sie, ob sich der Mittelwert zwischen der ersten und zweiten Befragung verändert hat.

Beispiel: Sie haben derselben Kundengruppe zweimal eine Erhebung geschickt: einmal im April und ein zweites Mal im Mai, nachdem sie eine Werbung für Ihr Unternehmen gesehen hat. Hat sich der NPS Ihres Unternehmens verändert, nachdem die Befragten die Werbung gesehen haben?

Frau, die sich an einem Laptop Grafiken ansieht.

Für die Durchführung eines t-Tests sind vier Schritte notwendig.

In diesem Abschnitt werden die vier Schritte anhand des NPS-Beispiels vom Anfang durchgespielt: 

Ihre Hypothese lautet, dass Männer Ihrem Unternehmen einen niedrigeren NPS geben als Frauen. Der durchschnittliche NPS von Männern beträgt 9, während er bei Frauen bei 12 liegt. Ist die Differenz zwischen 9 und 12 signifikant? Dies ist ein Beispiel für einen Zweistichproben-t-Test.

Schauen wir uns die einzelnen Schritte und das t-Test-Beispiel genauer an.

Jede t-Test-Variante nutzt eine eigene Formel zur Berechnung der t-Statistik. In unserem Beispiel verwenden wir die Formel für den Zweistichproben-t-Test, bei der gilt: 

  • t ist die t-Statistik
  • x₁ ist der durchschnittliche NPS für Männer → 9
  • x₂ ist der Durchschnittswert für Frauen → 12
  • n₁ ist die Anzahl der Männer, die die NPS-Frage beantwortet haben → hier gehen wir davon aus, dass 20 Männer an der Erhebung teilgenommen haben
  • n₂ ist die Anzahl der Frauen → 23 Frauen haben geantwortet
  • s₁ ist die Standardabweichung des NPS für Männer → nehmen wir an, die berechnete Standardabweichung beträgt 12,48
  • s₂ ist die Standardabweichung des NPS für Frauen → hier verwenden wir als berechnete Standardabweichung 10,51
Formel des Zweistichproben-t-Tests.

Wahrscheinlich führen Sie die t-Tests in einer Tabellenkalkulation oder einem Statistikprogramm (wie Excel oder SPSS) durch. Möchten Sie die Berechnung aber manuell machen, finden Sie unten die Formeln für die anderen beiden t-Test-Typen.

Formeln für Einstichproben-t-Test und t-Differenzentest.

Die Freiheitsgrade sind die Anzahl der Möglichkeiten, die der Mittelwert variieren kann. In diesem Fall sind die Freiheitsgrade die Anzahl der NPS-Bewertungen, die in einer gegebenen Gruppe von Befragten vorkommen kann. Ähnlich wie die t-Statistik unterscheidet sich die Formel für die Freiheitsgrade abhängig von der Art des t-Tests, den Sie durchführen.

Bei Zweistichproben-t-Tests muss zur Bestimmung der Freiheitsgrade diese Formel verwendet werden:

Formel für Freiheitsgrade.

Der kritische Wert ist die Schwelle, ab der die Differenzen zwischen zwei Zahlen als statistisch signifikant gilt. 

Nach dieser Tabelle liegt der kritische Wert bei einem zweiseitigen t-Test mit einem Alpha-Niveau von 0,05 mit 41 Freiheitsgraden bei 2,02. Beachten Sie, dass die meisten Analysten statt eines einseitigen t-Tests einen zweiseitigen t-Test verwenden, da dieser konservativer ist.

Weitere Informationen zu den Unterschieden zwischen einseitigen und zweiseitigen Tests finden Sie in diesem Video von der Khan Academy.

Ist Ihre t-Statistik größer als der kritische Wert, ist die Differenz signifikant. Ist sie kleiner, sind die beiden Zahlen aus statistischer Sicht nicht unterschiedlich.

In unserem Beispiel beträgt der absolute Wert der t-Statistik 0,86. Dieser liegt unter dem kritischen Wert von 2,02. Daraus können Sie schließen, dass Männer keinen signifikant niedrigeren NPS vergeben als Frauen.

Die Interpretation von t-Test-Ergebnissen umfasst die Auswertung von t-Wert, p-Wert und Konfidenzintervall. Damit lässt sich erkennen, ob die Differenz zwischen Ihren Gruppen auf einen echten Effekt oder auf Zufall zurückzuführen ist. Diese Messgrößen zeigen die Größe des Unterschieds, die Stärke der Evidenz und das Konfidenzniveau für Ihr Ergebnis. In den folgenden Fragen und Antworten lesen Sie, was diese Werte bedeuten und wie Sie t-Test-Ergebnisse analysieren können.

Der t-Wert zeigt, wie groß die Differenz zwischen den Gruppenmittelwerten im Verhältnis zur Streuung Ihrer Daten ist. Ein hoher absoluter t-Wert bedeutet, dass das Signal wesentlich mehr als ein Rauschen ist, während ein niedriger Wert darauf hinweist, dass der Unterschied eher zufällig sein könnte.

Der p-Wert zeigt, wie wahrscheinlich es ist, dass die beobachteten Ergebnisse nur zufällig sind, sofern die Nullhypothese (kein echter Unterschied) zutrifft. Oft wird ein Schwellenwert von 0,05 verwendet: p ≤ 0,05 spricht für eine signifikante Differenz, p > 0,05 deutet auf keine bedeutsame Differenz in dieser Stichprobe hin.

Ein Konfidenzintervall gibt einen wahrscheinlichen Bereich für die tatsächliche Mittelwertdifferenz an und liefert somit mehr Kontext als nur ein Ja/Nein zur Signifikanz. Schneidet das Intervall den Nullwert, ist der Effekt nicht eindeutig, liegt es über oder unter Null, ist das Ergebnis bei dem gewählten Konfidenzniveau signifikant.

Eine bedeutsame Differenz ist sowohl statistisch signifikant als auch praktisch relevant. Schauen Sie sich die geschätzte Effektgröße und das Konfidenzintervall an, um zu verstehen, wie groß der Unterschied sein könnte und ob er für Ihre Entscheidung eine Rolle spielt.

Größere Stichproben verringern die Streuung, engen die Konfidenzintervalle ein und erleichtern das Erkennen tatsächlicher Differenzen. Kleinere Stichproben führen zu mehr Unsicherheit, wodurch sich grenzwertige Effekte schwerer interpretieren lassen.

Eine aussagekräftige Zusammenfassung der t-Test-Ergebnisse erklärt, warum Sie den Vergleich durchgeführt haben, was der Test ergeben hat und wie sicher Sie sich bezüglich der Differenz zwischen den Gruppen sein können. Ihre Aufgabe ist es, die statistischen Resultate verständlich zu machen, sie mit der Ursprungsfrage zu verknüpfen und zu verdeutlichen, welche Schlüsse sich daraus für weitere Entscheidungen ziehen lassen.

Nehmen Sie diese Kernelemente in Ihre Zusammenfassung der t-Test-Ergebnisse auf:

  1. Definieren Sie den Zweck. Erläutern Sie zunächst, warum Sie einen t-Test durchgeführt haben und welches Ziel Sie verfolgt haben. Zum Beispiel könnten Sie angeben, dass Sie mithilfe des t-Tests zeigen wollten, ob es eine statistisch signifikante Differenz zwischen den Mittelwerten zweier Gruppen in Ihren Befragungsergebnissen gibt.  
  2. Geben Sie die deskriptiven Statistiken weiter. Nennen Sie als Nächstes den Mittelwert und die Standardabweichung für jede untersuchte Gruppe. So erhalten die Beteiligten den nötigen Kontext, um die beobachteten Differenzen einordnen zu können. Auch die Stichprobengröße jeder Gruppe sollten Sie als weiteren Kontext anführen. 
  3. Präsentieren Sie die t-Test-Ergebnisse. Geben Sie dann den t-Wert, die Freiheitsgrade (df), den p-Wert sowie die Analyse des Konfidenzintervalls an (falls durchgeführt). 
  4. Teilen Sie Ihre Erkenntnisse mit. Zuletzt stellen Sie Ihre Insights den Stakeholdern vor. Erläutern Sie kurz, ob die Differenz statistisch signifikant war und was das für Ihre Hypothese oder Forschungsfrage bedeutet.
  5. Nennen Sie die nächsten Schritte. Erklären Sie den Stakeholdern, welche Bedeutung Ihre Forschungsergebnisse für das Unternehmen haben. Benennen Sie, wie Ihre Resultate zukünftige Geschäftsentscheidungen beeinflussen könnten.

Wenn Sie einige einfache Fehler vermeiden, erhalten Sie sauberere und verlässlichere t-Test-Ergebnisse aus Ihren Erhebungsdaten.

  • Zu sehr auf kleine p-Werte achten, ohne die tatsächliche Differenz zu überprüfen: Ein Ergebnis kann „statistisch signifikant“ sein, auch wenn der Unterschied zwischen den Gruppen zu klein ist, um wirklich relevant zu sein. Berücksichtigen Sie immer die Größe der Differenz und das Konfidenzintervall, um zu beurteilen, ob die Differenz wirklich von Bedeutung ist.
  • Viele Gruppen vergleichen, ohne die Herangehensweise anzupassen: Testen Sie viele Segmente oder Fragen, steigt die Wahrscheinlichkeit, zufällig eine Differenz zu finden. Beginnen Sie mit einem übergeordneten Test wie ANOVA oder wenden Sie einfache Korrekturen an, wenn Sie mehrere t-Tests durchführen.
  • A/B-Tests zu früh beenden: Kontrollieren Sie die Ergebnisse zu häufig und beenden den Test, sobald etwas vielversprechend aussieht, kann das zu falschen Schlussfolgerungen führen. Legen Sie vorab eine Stichprobengröße oder einen festen Zeitraum für den Test fest.
  • t-Tests auf ungeeignete Datentypen anwenden: Bei Fragen mit Rankings oder Bewertungsskalen, die zu stark verzerrten Daten führen, ist ein t-Test oft ungeeignet, da die Durchschnittswerte in diesen Fällen irreführend sein können. Achten Sie darauf, dass die Daten gleichmäßig verteilt sind und keine starken Verzerrungen haben.
  • Grundlegende Voraussetzungen nicht beachten: t-Tests liefern die besten Ergebnisse, wenn die Beantwortungen unabhängig sind und die Gruppen eine vergleichbare Streuung haben. Weichen die Varianzen der Gruppen stark voneinander ab, verwenden Sie besser den Welch-t-Test, um zuverlässigere Ergebnisse zu erzielen.
  • t-Tests im Vergleich zu ANOVA
  • z-Tests im Vergleich zu t-Tests

t-Tests werden eingesetzt, um festzustellen, ob die Differenz zwischen den Mittelwerten zweier Stichprobengruppen statistisch signifikant ist. Sie können t-Tests bei der Analyse von Befragungsergebnissen nutzen, um die Aussagekraft Ihrer Daten zu validieren. 

Dank SurveyMonkey können Sie den gesamten Prozess der Erstellung und Versendung von Befragungen an Stichprobengruppen für die Forschungsbedürfnisse Ihres Unternehmens effizient gestalten. Sie haben die Möglichkeit, Marktforschungserhebungen und Fragebögen ganz neu zu erstellen oder auf unsere große Auswahl von hunderten Umfragevorlagen zurückzugreifen.

Beginnen auch Sie noch heute mit der Datenerhebung und Analyse, um bessere Wachstumsentscheidungen für Ihre Firma zu treffen. Erstellen Sie jetzt kostenlos ein Konto.

NPS, Net Promoter und Net Promoter Score sind eingetragene Marken von Satmetrix Systems, Inc., Bain & Company und Fred Reichheld.

Женщина в хиджабе рассматривает результаты исследований на ноутбуке

Kommen Sie in Ihrem Job voran: Erfahren Sie wie SurveyMonkey Sie bei der Entwicklung überzeugender Strategien, Produkte und Erlebnissen unterstützt.

Мужчина и женщина просматривают статью на ноутбуке и записывают информацию на стикеры

Erfahren Sie, wie Sie Fragen für qualitative Forschung formulieren, um fundiertere Erkenntnisse zu gewinnen. Mit Fragetypen, Beispielen und Tipps.

Улыбающийся мужчина в очках за ноутбуком

Erfahren Sie, wie Hornblower SurveyMonkey und die KI nutzt, um das Beste aus NPS-Daten herauszuholen und die Kundenerfahrung zu verbessern.

Женщина просматривает информацию на ноутбуке

Studien zu Trends am Arbeitsplatz und dazu, wie Mitarbeitende ihre private Zeit einteilen, im Homeoffice arbeiten und zur Kombination Homeoffice und Büro