Mann-Whitney-U-Test: Der umfassende Leitfaden zum Vergleich zweier Stichproben

Onlineredaktion Digitale Pädagogik und Bildungsforschung 26. October 2025 | 0

Der Mann-Whitney-U-Test, auch bekannt als der U-Test nach Mann und Whitney, ist eines der wichtigsten Werkzeuge der nichtparametrischen Statistik. Er dient dem Vergleich zweier unabhängiger Stichproben, wenn die Voraussetzungen für den klassischen t-Test nicht erfüllt sind. In diesem Blog-Artikel erfahren Sie, wie der Mann-Whitney-U-Test funktioniert, wann er eingesetzt wird, welche Annahmen eine Rolle spielen und wie Sie ihn praktisch anwenden – inklusive Schritt-für-Schritt-Anleitung, Beispielrechnung und Implementierung in gängiger Software.

Was ist der Mann-Whitney-U-Test? Eine klare Einführung in den U-Test

Der Mann-Whitney-U-Test, auch als U-Test bezeichnet, prüft, ob zwei unabhängige Stichproben aus Populationen stammen, deren Verteilungen sich in der Regel in der Lage unterscheiden. Im Kern geht es darum, ob die Werte aus der einen Gruppe systematisch größer oder kleiner sind als die Werte aus der anderen Gruppe. Im Gegensatz zum t-Test setzt der Mann-Whitney-U-Test keine Normalverteilung der Daten voraus. Dadurch ist er robuster gegenüber Ausreißern und skewed Verteilungen.

Wichtig zu verstehen ist: Der Mann-Whitney-U-Test behandelt ordinal skalierte Daten ebenso gut wie metrische Skalen. Er testet die Gleichheit der Verteilungen, nicht zwingend den Unterschied der Mittelwerte. Unter der Nullhypothese H0 geht man davon aus, dass die Verteilungen der beiden Gruppen gleich sind, während die alternative Hypothese H1 eine Verschiebung zugunsten einer Gruppe behauptet.

Wann verwendet man den Mann-Whitney-U-Test?

Der U-Test eignet sich besonders in folgenden Situationen:

Unabhängige Stichproben: Die Messwerte in Gruppe A unterscheiden sich unabhängig von den Messwerten in Gruppe B.
Ordinal- oder Intervallskalen mit Nicht-Normalverteilung: Die Verteilung weicht von der Glockenkurve ab oder es liegen Ausreißer vor.
Kleine Stichprobengrößen: Wenn n klein ist, liefert der exakte U-Test verlässlichere Ergebnisse als der t-Test mit Normalapproximation.
Robuste Vergleiche: Der Mann-Whitney-U-Test ist weniger empfindlich gegenüber Extremwerten als der parametrische Test.

Es gibt auch Fälle, in denen eine einseitige Hypothese sinnvoll ist, etwa wenn vorherige Studien klar darauf hindeuten, dass eine Gruppe tendenziell höhere Werte aufweist. In solchen Fällen spricht man vom einseitigen Mann-Whitney-U-Test, ansonsten von einem zweiseitigen Test.

Mathematische Grundlagen des Mann-Whitney-U-Tests

Der Kern des Verfahrens besteht darin, die Daten beider Gruppen zu kombinieren, ihnen gemeinsame Ränge zuzuweisen und dann die Rangsumme der einzelnen Gruppen zu berechnen. Daraus folgt die U-Statistik, deren Verteilung unter der Nullhypothese bekannt ist. Für kleine Stichproben lässt sich der exakte p-Wert bestimmen; für größere Stichproben erfolgt oft eine Normalapproximation mit einer Korrektur bei Bindungen (ties).

U-Statistik und Rangsumme

Gegeben zwei unabhängige Stichproben A und B mit Größen n1 bzw. n2. Man kombiniert alle Beobachtungen, ordnet ihnen Rangplätze zu (1, 2, 3, …, n1+n2), und berechnet die Summe der Ränge R1 der Gruppe A (oder alternativ R2 der Gruppe B).

Die U-Statistik einer Gruppe lässt sich aus der Rangsumme berechnen:

U1 = n1·n2 + n1·(n1 + 1)/2 − R1

U2 = n1·n2 − U1

Der zu testende Wert ist in der Regel der kleinere der beiden U-Werte: U = min(U1, U2). Unter der Nullhypothese folgen U1 und U2 einer gemeinsamen Verteilung von U, aus der sich der p-Wert ableiten lässt. Wichtig: Bei vielen praktischen Anwendungen wird der kleinere U-Wert herangezogen, da er die stärkste Abweichung von der Null widerspiegelt.

Normalapproximation und Korrekturen bei Bindungen

Für größere Stichproben genügt oft die Normalapproximation. Man berechnet den Mittelwert μU und die Standardabweichung σU der U-Verteilung unter H0:

μU = n1·n2 / 2
σU = sqrt[ n1·n2·(n1 + n2 + 1) / 12 ]

Der standardisierte Z-Wert ergibt sich als Z = (U − μU) / σU. Aus diesem Z-Wert lässt sich der p-Wert ableiten (zweiseitig oder einseitig, je nach Hypothese). Bei vielen Praxisfällen treten außerdem Bindungen (ties) auf, die die Verteilung von U beeinflussen. Diese werden durch Korrekturen berücksichtigt, um die Varianz zu schätzen.

Beispielrechnung: Mann-Whitney-U-Test Schritt für Schritt

Stellen wir uns zwei unabhängige Gruppen vor, A und B, mit jeweils 3 Beobachtungen (n1 = n2 = 3):

Gruppe A: 1, 3, 5
Gruppe B: 2, 4, 6

Schritt 1: Kombinieren und Ränge zuweisen

Alle Beobachtungen zusammengefasst: 1(A), 2(B), 3(A), 4(B), 5(A), 6(B). Die Ränge sind entsprechend der Größe: 1, 2, 3, 4, 5, 6.

Schritt 2: Rangsumme R1 der Gruppe A berechnen

Ränge in Gruppe A: 1, 3, 5 → R1 = 1 + 3 + 5 = 9

Schritt 3: U-Statistik berechnen

U1 = n1·n2 + n1·(n1 + 1)/2 − R1 = 3·3 + 3·4/2 − 9 = 9 + 6 − 9 = 6

U2 = n1·n2 − U1 = 9 − 6 = 3

Der zu testende Wert ist U = min(U1, U2) = 3.

Schritt 4: Normalapproximation anwenden (optional hier, da n1 = n2 = 3, aber demonstrativ)

μU = n1·n2 / 2 = 9/2 = 4.5

σU = sqrt[ n1·n2·(n1 + n2 + 1) / 12 ] = sqrt[ 9·7 / 12 ] ≈ sqrt(5.25) ≈ 2.291

Z = (U − μU) / σU = (3 − 4.5) / 2.291 ≈ −0.654

Z-Wert ≈ −0.65. Zwei-tailed p-Wert liegt ungefähr bei 0.51. Damit ist der Unterschied zwischen den Gruppen in diesem Beispiel nicht signifikant.

Hinweis: Bei kleineren Stichproben ist der exakte p-Wert oft besser als die Normalapproximation. In vielen Statistik-Programmen werden beide Ansätze unterstützt, weshalb Sie je nach Kontext wählen können.

Voraussetzungen, Annahmen und Grenzen des Mann-Whitney-U-Tests

Obwohl der Mann-Whitney-U-Test robust ist, gibt es klare Voraussetzungen, die erfüllt sein sollten, um zuverlässige Ergebnisse zu erzielen:

Unabhängigkeit der Beobachtungen: Jedes Messwertpaar in den Gruppen sollte unabhängig voneinander sein.
Ordinal- oder Intervallskala: Die Messwerte sollten sinnvoll geordnet werden können; bei nominalen Daten ist der Test nicht geeignet.
Vergleich zweier unabhängiger Gruppen: Der Test erfasst Unterschiede in der Verteilung, nicht notwendigerweise Unterschiede der Mittelwerte.
Gleichverteilungen unter H0: Unter der Nullhypothese sollten die Verteilungen der beiden Gruppen identisch sein. Eine starke Verschiebung oder unterschiedliche Form der Verteilungen kann das Testergebnis beeinflussen.

Zu beachten ist, dass der Mann-Whitney-U-Test sensible Unterschiede in der Verteilungsform erkennen kann. Wenn sich die Formen der Verteilungen stark unterscheiden, kann dies zu einer signifikanten Testergebnis führen, auch wenn die zentralen Tendenzen ähnlich erscheinen. In solchen Fällen lohnt sich eine vertiefte grafische Analyse (z. B. Boxplots, Violinplots) sowie alternative nichtparametrische Verfahren, je nach Fragestellung.

Alternativen, Erweiterungen und Varianten des Mann-Whitney-U-Tests

Je nach Fragestellung und Datenlage können verschiedene Varianten sinnvoll sein:

Zweiseitiger vs. einseitiger Test: Je nach Hypothese kann man einseitig oder zweiseitig testen. Der einseitige Test hat oft höhere Power in der spezifizierten Richtung.
Gleichbehandlung von Bindungen (ties): Falls identische Werte in den Stichproben auftreten, müssen Korrekturen vorgenommen werden, damit die Varianz korrekt geschätzt wird.
Kontingenzanalyse oder Rangkorrelationsformen: Wenn mehr als zwei Gruppen oder Rang-abhängige Strukturen vorliegen, können verwandte Methoden wie der Kruskal-Wallis-Test oder Rangkorrelationsmaße (Spearman) sinnvoll sein.
Walsh- oder Wilcoxon-Variante: Obwohl der Wilcoxon-Test häufig als Alternative verwendet wird, entsprechen Wilcoxon-Rangsummen-Tests dem Mann-Whitney-U-Ansatz im Wesentlichen in vielen Anwendungen, besonders bei gleich großen Stichproben.

Effektgröße und praktische Interpretation

Neben dem p-Wert ist eine adäquate Interpretation der Effektgröße entscheidend. Eine gängige Maßzahl ist das sogenannte r-Koeffizient-Äquivalent:

r = Z / sqrt(N), wobei Z der standardisierte U-Wert ist (aus der Normalapproximation), und N = n1 + n2 die Gesamthäufigkeit der Beobachtungen darstellt.
Richtwerte für die Interpretation von r (allgemein): r ≈ 0.1 kleiner Effekt, r ≈ 0.3 mittlerer Effekt, r ≥ 0.5 starker Effekt. Diese Werte variieren je nach Fachgebiet, sind aber eine nützliche Orientierung.

Die Effektgröße hilft dabei, die praktische Relevanz eines erkannten Unterschieds zu beurteilen. Selbst ein statistisch signifikanter Test kann eine sehr kleine, kaum relevante Verschiebung aufzeigen, insbesondere bei großen Stichproben. Daher ist die Berücksichtigung der Effektgröße unerlässlich in einem vollständigen Befund.

Durchführung des Mann-Whitney-U-Tests in gängiger Software

Die praktische Umsetzung des Mann-Whitney-U-Tests ist in vielen Statistikpaketen einfach. Hier sind kompakte Praxisbeispiele für R, Python (SciPy), SPSS und Excel:

R

R verwendet standardmäßig den Wilcoxon Score Test, der dem Mann-Whitney-U-Test entspricht. Beispiel:

# Zwei unabhängige Stichproben
x <- c(1, 3, 5)
y <- c(2, 4, 6)

# Mann-Whitney-U-Test (Wilcoxon rank-sum test)
wilcox.test(x, y, exact = FALSE, correct = TRUE)

Hinweis: Setzen Sie exact = TRUE, wenn Sie kleine Stichproben verwenden möchten. Für größere Stichproben ist die exakte Berechnung oft nicht praktikabel, daher wird häufig die Normalapproximation verwendet.

Python (SciPy)

In Python unterstützt SciPy den Mann-Whitney-U-Test offiziell als “mannwhitneyu” Funktion. Beispiel:

from scipy.stats import mannwhitneyu

x = [1, 3, 5]
y = [2, 4, 6]

stat, p = mannwhitneyu(x, y, alternative='two-sided')
print('U-Statistik =', stat, ', p-Wert =', p)

Beachten Sie: Der Name der Funktion ist exakt man-Whitney-U-Test gerecht. Die Option alternative kann auf ‘two-sided’, ‘less’ oder ‘greater’ gesetzt werden, je nach Hypothese.

SPSS

In SPSS finden Sie den Test unter Analysieren > Nichtparametrische Tests > Unabhängige Stichproben. Wählen Sie die Gruppenvariablen aus, und SPSS liefert U-Werte, Z-Werte und p-Werte sowie die Rangsummen.

Excel/LibreOffice

Excel bietet standardmäßig keine direkte Funktion für den Mann-Whitney-U-Test. Sie können aber die Rangsumme manuell berechnen oder auf Add-Ins zurückgreifen. Es gibt auch frei verfügbare MATLAB-/Python-Skripte, die den Test in Excel-nahe Workflows integrieren.

Typische Stolpersteine und wie Sie sie vermeiden

Wie bei jedem statistischen Verfahren gibt es Fallstricke, die vor einer Interpretation beachtet werden sollten:

Unabhängigkeit sicherstellen: Wenn die Stichproben nicht unabhängig sind (z. B. gepaarte Messwerte), ist der Mann-Whitney-U-Test keine passende Methode. Hier wären gepaarte Alternativen wie der Wilcoxon-Vorzeichen-Rang-Test sinnvoll.
Tie-Benachrichtigungen beachten: Wiederholte Werte (Ties) beeinflussen die Varianz. Moderne Software korrigiert automatisch, aber es lohnt sich, die Ausgaben daraufhin zu prüfen.
Verteilungen prüfen: Der Test prüft Verschiebungen in der Verteilung, nicht zwingend Unterschiede der Mittelwerte. Ein visuelles Diagnosewerkzeug wie Boxplots schafft Klarheit.
Stichprobengrößen: Sehr kleine Stichproben können zu einer großen Bandbreite an möglichen U-Werten führen. Die exakte Berechnung des p-Werts ist in solchen Fällen sinnvoll.
One-sided vs two-sided: Wählen Sie die Hypothese konsistent mit der Fragestellung. Einseitige Tests erhöhen die Power in der vordefinierten Richtung, aber erhöhen das Risiko, falsche Hypothesen zu bestätigen.

Zusammenfassung: Warum der Mann-Whitney-U-Test oft die beste Wahl ist

Der Mann-Whitney-U-Test gehört zu den robustesten Werkzeugen, wenn es um den Vergleich zweier unabhängiger Stichproben geht. Er benötigt keine Normalverteilung der Daten, ist relativ unempfindlich gegenüber Ausreißern und liefert klare Rangbasierte Aussagen über Unterschiede in den Verteilungen. Durch die Möglichkeit, exakte p-Werte für kleine Stichproben zu berechnen, und durch die Standardisierung mittels Z-Transformation bei größeren Stichproben, bleibt der U-Test eine flexible und vielseitige Methode der nichtparametrischen Statistik.

Hinweise zur Berichterstattung der Ergebnisse

Eine verständliche Berichterstattung der Ergebnisse umfasst mehrere Schlüsselelemente:

Art des Tests: Mann-Whitney-U-Test (oder Wilcoxon Rangsum Test) – betonen Sie, dass es sich um einen nichtparametrischen Test handelt.
Stichprobe und Gruppen: Größe und Zugehörigkeit der Gruppen (n1, n2) sowie Art der Messwerte.
Teststatistik und p-Wert: Geben Sie U, ggf. Z, und p-Wert an sowie die Richtung der Hypothese (zweiseitig oder einseitig).
Effektgröße: Zusätzlich den r-Wert (oder eine andere passende Effektgröße) berichten, um die praktische Relevanz zu verdeutlichen.
Grafische Darstellung: Ergänzen Sie die numerischen Ergebnisse durch Boxplots oder Violinplots, um die Verteilungen zu veranschaulichen.

Häufige Missverständnisse rund um den mann-whitney-u-test

Um eine fundierte Interpretation zu ermöglichen, hier zwei häufige Missverständnisse aufgeklärt:

Missverständnis: Der Mann-Whitney-U-Test prüft, ob die Mittelwerte unterschiedlich sind. Korrekt: Er testet Verschiebungen in den Verteilungen, was Mittelwertunterschiede einschließt, aber nicht zwingend ausschließt, dass die Verteilungen identisch sind, wenn sich andere Merkmale unterscheiden.
Missverständnis: Ein signifikanter Test bedeutet immer praktische Relevanz. Korrekt: Signifikanz bezieht sich auf die Wahrscheinlichkeit, dass ein beobachteter Unterschied unter H0 zufällig entstanden ist; die praktische Relevanz wird durch die Effektgröße und Kontext bewertet.

Schlussgedanken: Der U-Test als solides Fundament statistischer Vergleiche

Der Mann-Whitney-U-Test bleibt eine der zentralen Methoden der nichtparametrischen Statistik für den Vergleich zweier unabhängiger Stichproben. Sein edukativer Wert liegt nicht nur in der praktischen Umsetzung, sondern auch in der klaren Interpretation der Ranginformationen, die Respekt vor der Vielfalt der Verteilungen verlangt. Wer sich mit dem Mann-Whitney-U-Test beschäftigt, erhält ein zeitloses Werkzeug, das in vielen Forschungskontexten zuverlässig operiert und sich flexibel in moderne Data-Science-Workflows integrieren lässt.

Weitere Ressourcen zum mann-whitney-u-test

Wenn Sie tiefer in die Materie eintauchen möchten, finden Sie weiterführende Informationen zu Begriffen wie U-Statistik, Rangsumme, Rangsummen-Tests und Alternativhypothesen in Fachbüchern zur Nichtparametrischen Statistik, in Online-Tachbüchern, Tutorials und in den Dokumentationen der gängigen Statistik-Software. Praktische Übungen mit eigenen Datensätzen helfen dabei, Sicherheit im Umgang mit dem mann-whitney-u-test zu gewinnen und die Ergebnisse souverän zu interpretieren.