Log-Rank-Test: Ein umfassender Leitfaden zur Überlebensanalyse

Onlineredaktion Misc 23. May 2025 | 0

Der Log-Rank-Test ist einer der zentralen Bausteine der nicht-parametrischen Überlebensanalyse. Mit ihm lassen sich Unterschiede zwischen Überlebenskurven zweier oder mehrerer Gruppen prüfen, auch wenn die Daten zensiert sind. In diesem Leitfaden erfahren Sie, wie der Log-Rank-Test funktioniert, welche Annahmen dahinterstehen, wann er sinnvoll eingesetzt wird und wie Sie ihn praktisch in Statistik-Software wie R oder Python anwenden. Wer sich heute mit Überlebenszeiträumen in medizinischen Studien beschäftigt, kommt am Log-Rank-Test kaum vorbei. Der Begriff log rank test taucht in Fachartikeln häufig auf, doch dahinter verbergen sich klare Prinzipien, die auch non-parametricen Charakter bewahren. Wer gezielt nach dem Log-Rank-Test sucht, erhält hier eine fundierte Orientierung und zahlreiche Anwendungsbeispiele.

Was ist der Log-Rank-Test?

Der Log-Rank-Test (Log-Rank-Test) vergleicht die Überlebensverläufe von Gruppen anhand der beobachteten Ereignisse im Verlauf der Zeit. Er basiert auf dem Vergleich der beobachteten Ereignisse mit den erwarteten Ereignissen unter der Nullhypothese, dass keine Gruppe eine andere Überlebensverteilung hat. Die Stärke des Tests liegt darin, dass er zensierte Daten sauber einbezieht: Wenn Teilnehmende bis Studienende nicht gestorben oder eingetretene Ereignisse nicht beobachtet wurden, bleiben diese Fälle in der Risikogruppe berücksichtigt.

Der Kern des Verfahrens besteht darin, zu jedem Zeitpunkt, an dem ein Ereignis eintritt (z. B. Tod, Krankheitswiederauftreten), die Risikobasis zu definieren und dann die Divergenz zwischen beobachteten und erwarteten Ereignissen zu summieren. Die resultierende Teststatistik folgt unter der Nullhypothese einer Chi-Quadrat-Verteilung (bei mehreren Gruppen) bzw. einer Normalverteilung (bei zwei Gruppen) mit Freiheitsgrad k−1, wobei k die Zahl der Gruppen ist. In der Praxis bedeutet das: Je größer die Abweichung zwischen beobachteten und erwarteten Ereignissen über die Zeit hinweg, desto wahrscheinlicher ist ein signifikantes Ergebnis.

Wichtig ist, dass der log rank test in seiner Grundform auf Rangstatistiken basiert und keine Annahme über die Form der Hazard-Funktion nötig ist. Dennoch ist der Test besonders leistungsstark, wenn die Hazard-Raten der Gruppen über die Zeit hinweg proportional sind (proportional hazards). In solchen Fällen liefert der Log-Rank-Test die stärkste Trennschärfe zwischen den Gruppen.

Grundlagen der Überlebensanalyse und Kaplan-Meier-Kurven

Um den Log-Rank-Test zu verstehen, lohnt ein kurzer Blick auf die zentrale Idee der Überlebensanalyse. Man modelliert die Wahrscheinlichkeit, ein Ereignis (z. B. Tod, Schlaganfall, Rezidiv) bis zu einem bestimmten Zeitpunkt zu vermeiden. Die Überlebensfunktion S(t) beschreibt die Wahrscheinlichkeit, bis Zeit t noch am Leben bzw. frei von dem interessierenden Ereignis zu sein. In vielen Studien verschaffen Kaplan-Meier-Kurven visuelle Eindrücke davon, wie sich S(t) in unterschiedlichen Gruppen entwickelt. Die Kurve bleibt oft flach, wenn viele Ereignisse auftreten, und steigt sprunghaft an, wenn nur noch wenige Teilnehmer in der Risikogruppe verbleiben.

Der Log-Rank-Test vergleicht genau diese Kurvenformen zwischen Gruppen. An jedem Ereigniszeitpunkt wird die Differenz zwischen beobachteten und erwarteten Ereignissen gewichtet und aufsummiert. Das Ergebnis gibt Aufschluss darüber, ob die Gruppen dieselbe zugrundeliegende Überlebensverteilung teilen oder ob signifikante Unterschiede bestehen.

Wichtige Konzepte: Risikogruppen, Zensierung und Ereignisse

Bei der praktischen Anwendung des Log-Rank-Tests spielen mehrere Konzepte eine zentrale Rolle:

Risikogruppen: Zu jedem Zeitpunkt t bilden sich Risikogruppen aus denjenigen Probanden, die bis zu diesem Zeitpunkt noch kein Ereignis hatten und noch in der Studie sind. Für zwei Gruppen addieren sich die Risikogruppen entsprechend der Gruppenzugehörigkeit.
Ereignisse: Ein Ereignis kann Tod, Therapieversagen oder ein anderes definiertes Endereignis sein. Zum Zeitpunkt t_j zählt man, wie viele dieser Ereignisse in jeder Gruppe auftreten.
Zensierung: Teilnehmende, bei denen das Ereignis nicht beobachtet wurde (z. B. Studienende, Verlust aus der Studie), tragen zur Risikografsphäre bei, können aber kein Ereignis beitragen. Der Log-Rank-Test berücksichtigt Zensierung durch die Risikogruppenbildung und die gewichtete Summe der Ereignisse.
Gewichtete Formeln: Die klassische Form des Log-Rank-Tests setzt gleiche Gewichte an allen Ereigniszeiten. Es gibt jedoch gewichtete Varianten (z. B. Breslow-Peto-Gewichte), die Unterschiede zu bestimmten Zeitabschnitten stärker betonen.

Berechnung des Log-Rank-Tests: Statistik, Nullhypothese und p-Wert

Die Kernschritte der Berechnung lassen sich wie folgt zusammenfassen:

Für jedes Auftreten eines Ereignisses j wird die Risikogruppe definiert: Wer war noch riskant zum Zeitpunkt t_j?
Für jede Gruppe wird die Anzahl der beobachteten Ereignisse O_i,j und die erwarteten Ereignisse E_i,j berechnet. Die erwarteten Werte ergeben sich aus dem Anteil der Risikopfgröße der Gruppe an der Gesamt-Risikomenge zum jeweiligen Zeitpunkt.
Die Abweichung D_i,j = O_i,j − E_i,j wird aufsummiert über alle Ereignisse und Gruppen. Die Varianz V_i,j wird entsprechend der Risikostruktur geschätzt.
Die Teststatistik ergibt sich als Z = (Summe_j D_i,j) / sqrt(Summe_j V_i,j). Unter der Nullhypothese, dass alle Gruppen dieselbe Überlebensverteilung teilen, konvergiert Z gegen eine Standardnormalverteilung (bei zwei Gruppen) bzw. Chi-Quadrat mit df = k−1 (bei k Gruppen).
Aus Z oder dem entsprechenden Chi-Quadrat-Wert erhält man den p-Wert. Ein kleiner p-Wert spricht dafür, dass die Nullhypothese verworfen wird und signifikante Unterschiede in den Überlebenskurven vorliegen.

In der Praxis zeigt sich der Zusammenhang oft in der Berichterstattung als Teststatistik und p-Wert, zum Beispiel: „Log-Rank-Test χ²(1) = 6,85, p = 0,009“. Dabei steht χ² für die Chi-Quadrat-Verteilung, 1 df für zwei Gruppen, und der p-Wert gibt die Wahrscheinlichkeit an, unter der Annahme der Nullhypothese ein so extentsiv großes oder größeres Abweichungsmaß zu beobachten.

Formelübersicht und Interpretation

Eine knappe, praxisnahe Zusammenstellung der Kern-Formeln:

O_i: beobachtete Ereignisse in Gruppe i (i = 1, 2, …, k) über alle Zeitpunkte.
E_i: erwartete Ereignisse in Gruppe i unter H0, basierend auf der gemeinsamen Risikogruppe.
V_i: Varianz der Abweichung O_i − E_i (zusammengefasst über alle Zeitpunkte).
Teststatistik: χ² = (Summe_i (O_i − E_i))² / Summe_i V_i. Unter H0 folgt χ² eine Chi-Quadrat-Verteilung mit k−1 Freiheitsgraden.

Interpretation in der Praxis: Ein signifikanter Log-Rank-Test zeigt, dass die Überlebenskurven der Gruppen unterschiedlich sind. Er sagt jedoch nichts über die Richtung der Unterschiede aus (welche Gruppe besser, welche schlechter ist). Dazu dient eine visuelle Inspektion der Kaplan-Meier-Kurven oder zusätzliche Analysen wie das Hazard-Ratio-Bewertung mittels Cox-Modell.

Annäherungen, Annahmen und Grenzen

Der Log-Rank-Test beruht auf bestimmten Annahmen, deren Beachtung wichtig ist:

Unabhängigkeit der Beobachtungen: Die Individuen in den Gruppen sollten unabhängig voneinander beobachtet werden.
Gleiche Hazard-Verläufe unter H0: Der Test prüft, ob die Verteilungen identisch sind, nicht, ob sie exakt gleich sind. Unterschiede in der Hazard-Funktion, sofern proportional, führen typischerweise zu signifikanten Ergebnissen.
Zensierung unkorreliert mit dem Ereignis: Zensierte Fälle sollten zufällig auftreten und nicht durch ein System bedingt sein, das mit der Gruppe verknüpft ist.
Proportionalität der Hazards als ideale Situation: Der Test ist besonders leistungsstark, wenn Hazards proportional sind. Abweichungen von Proportionalität können die Interpretierbarkeit einschränken und die teststatistische Power beeinflussen.

Grenzen des Log-Rank-Tests liegen vor allem in Situationen, in denen Unterschiede zwischen Gruppen nur in bestimmten Zeitabschnitten auftreten oder in Fällen, in denen die Zensierung stark unterschiedlich verteilt ist. In solchen Fällen können gewichtete Versionen des Tests (z. B. Breslow, Tarone-Ware) sinnvoller sein, da sie der zeitlichen Struktur der Unterschiede Rechnung tragen.

Beispiele aus der Praxis: Anwendungsfälle des Log-Rank-Tests

Der Log-Rank-Test kommt in vielen Bereichen der medizinischen Forschung zum Einsatz. Typische Fragestellungen umfassen:

Unterscheidet sich das Überleben zwischen Patientinnen mit einer neuen versus einer Standardbehandlung?
Gibt es Unterschiede in der Progressionsfreiheit zwischen zwei Therapien?
Beobachtet man Divergenzen in der Überlebenszeit bei unterschiedlichen Biomarkern oder Risikogruppen?

In klinischen Studien wird der Log-Rank-Test oft als primärer oder sekundärer Endpunkt genutzt, wenn die primäre Fragestellung die Gesamtdauer bis zum Ereignis ist. Die grafische Begleitung durch Kaplan-Meier-Kurven unterstützt die Interpretation und macht die Ergebnisse verständlich. Ein signifikanter Log-Rank-Test in einer randomisierten Studie liefert starken Hinweis darauf, dass die Gruppen unterschiedliche Überlebensverläufe aufweisen, während die Größe des p-Werts und die visuelle Trennung der Kurven weitere Orientierung geben.

Alternativen und Erweiterungen zum Log-Rank-Test

Für bestimmte Fragestellungen gibt es Alternativen oder gewichtete Varianten des Log-Rank-Tests, die je nach zeitlicher Verteilung der Unterschiede mehr Sensitivität bieten:

Tarone-Ware- und Breslow-Gewichte: Gewichtung der Ereignisse zu unterschiedlichen Zeiten, z. B. stärkere Betonung früherer oder späterer Ereignisse.
Fleming-Harrington-Tests: Spezielle Gewichtungsfunktionen, um bestimmte Zeitbereiche gezielt zu prüfen.
Peto-Peto-Überlegungen: Variation von Test-Statistiken, die robust gegen bestimmte Zensierungsmuster sind.

Wenn die PH-Annahme (Proportional Hazards) nicht erfüllt ist oder wenn man mehr über die zeitliche Struktur der Unterschiede erfahren möchte, können sich deren Alternativen lohnen. In solchen Fällen empfiehlt sich eine ergänzende Analyse mit Cox-Regression oder zeitabhängigen Hazard-Modellen, um Hazard Ratios über die Zeit zu schätzen und zu interpretieren.

Praxis-Tipps für Forscher: Wie man den Log-Rank-Test richtig anwendet

Für eine sichere Anwendung des Log-Rank-Tests beachten Sie folgende Praxis-Tipps:

Stellen Sie sicher, dass Ihre Studiendaten korrekte Zeitangaben enthalten (times-to-event) einschließlich eines Status-Indikators für Ereignisse vs. Zensierung.
Wählen Sie die passende Gruppierung. Bei vielen Gruppen wird der Chi-Quadrat-Test mit df = k−1 verwendet. Bei zwei Gruppen genügt df = 1.
Visualisieren Sie Kaplan-Meier-Kurven unmittelbar vor und nach dem Test, um die Richtung der Unterschiede abzuschätzen.
Berücksichtigen Sie alternative Tests, falls zeitliche Muster vermuten lassen, dass die Unterschiede nicht proportional sind.
Dokumentieren Sie die Art der Zensierung und den Anteil der zensierten Beobachtungen pro Gruppe, da dies die Interpretation beeinflusst.
Nutzen Sie Softwarefunktionen, die standardisierte Fehlerrechnungen und robuste p-Werte liefern, um Reproduzierbarkeit sicherzustellen.

Software-Implementierung: R, Python, SPSS

In der Praxis werden Log-Rank-Tests in gängiger Statistik-Software durchgeführt. Hier sind kompakte Beispiele, wie Sie den Log-Rank-Test in R und Python durchführen können. Passen Sie die Bezeichner an Ihre Daten an.

R: Log-Rank-Test mit survdiff

# Beispiel in R
library(survival)

# df ist der Datensatz, Spalten: time (Überlebenszeit), status (0=censored, 1=Ereignis), group (Gruppenzugehörigkeit)
fit <- survdiff(Surv(time, status) ~ group, data = df)
print(fit)

Hinweis: In R entspricht log rank test dem klassischen Log-Rank-Test. Die Ausgabe zeigt Chi-Quadrat-Wert und Freiheitsgrade sowie den p-Wert. Bei zwei Gruppen ist df = 1.

Python: Lifelines-Bibliothek

# Beispiel in Python (lifelines)
from lifelines import KaplanMeierFitter, statistics
# T, E und Gruppe vorbereiten: T=time, E=event_observed, G=group
results = statistics.logrank_test(T1, T2, E1, E2)
print(results.p_value)
print(results.test_statistic)

Alternativ verwenden Sie die Funktion logrank_test für zwei oder mehrere Gruppen, oder erstellen Sie ein Cox-Modell, um Hazard Ratios zu schätzen, falls dies sinnvoll ist.

SPSS, SAS und andere Tools

In SPSS, SAS oder Stata finden sich ebenfalls robuste Implementierungen des Log-Rank-Tests. Die Grundidee bleibt gleich: Sie spezifizieren die Zeit bis zum Ereignis, den Zensierungsstatus und ggf. die Gruppenzugehörigkeit und interpretieren anschließend Chi-Quadrat bzw. p-Wert. Die grafische Unterstützung durch Kaplan-Meier-Kurven erleichtert die Interpretation zusätzlich.

Zusammenfassung und Ausblick

Der Log-Rank-Test ist ein bewährter, robuster und weit verbreiteter Test zur Überlebensanalyse. Er ermöglicht den direkten Vergleich von Überlebenskurven zwischen Gruppen unter Berücksichtigung zensierter Daten. Seine Stärke liegt in der Unabhängigkeit von strengen Modellannahmen und der klaren Interpretation von Signifikanz in Bezug auf Unterschiede der Verteilung der Überlebenszeit. Gleichzeitig ist es sinnvoll, sich der Annahmen bewusst zu bleiben und bei Abweichungen von Proportionalität oder bei zeitabhängigen Unterschieden auf gewichtete Varianten oder ergänzende Modelle (z. B. Cox-Regression) auszuweichen.

Für die Praxis bedeutet das: Verwenden Sie den Log-Rank-Test als Teil eines umfassenden Analyse-Pakets. Ergänzen Sie ihn mit grafischer Visualisierung, prüfen Sie Proportionalität, ziehen Sie ggf. gewichtete Varianten in Betracht, und nutzen Sie zeitnahe Modelle, um ein vollständiges Bild der Überlebensdynamik zu erhalten. So wird der log rank test zu einem aussagekräftigen Werkzeug in der klinischen Forschung, der evidenzbasierte Entscheidungen unterstützt und transparente Ergebnisse liefert.