de Kaplan-Meier-Curve uitgelegd / wat is de Kaplan-Meier-Curve?

Delen

Facebook
Twitter
WhatsApp

Bijgedragen door: Patrick

In ons dagelijks leven komen we veel time-to-event voorbeelden. Wat betekent time-to-event?, Het is een cursusduur variabele voor elk geval/onderwerp van belang met een begin en een einde overal langs de tijdlijn van de volledige studie. Enkele veel voorkomende voorbeelden zijn klinische studie voor een medicijn, wickets vallen in een innings van een cricketwedstrijd, revisie van een machine voordat het wordt ontmanteld, enz., Heb je gemerkt dat er iets gemeen is tussen de voorbeelden? Ja, Het is de studie van overleven.

een effectieve manier om de overlevingsfunctie te schatten is door KM-analyse te gebruiken. De Kaplan Meier-Curve is een schatter die wordt gebruikt om de overlevingsfunctie te schatten., De Kaplan Meier-Curve is de visuele representatie van deze functie die de waarschijnlijkheid van een gebeurtenis met een respectieve tijdsinterval toont. De curve moet de werkelijke overlevingsfunctie voor de onderzochte populatie benaderen, mits de steekproefgrootte groot genoeg is.

in dit artikel, laten we in detail kijken wat KM analyse is, hoe de Kaplan-Meier Curve is opgebouwd, de wiskunde achter het berekenen van de overlevingskansen. Maar voordat we direct in de KM-analyse duiken, zullen we een snelle en korte wandeling maken over wat overlevingsanalyse is en basisnotaties die in de analyse worden gebruikt.,

Survival Analysis

Survival analysis is een statistische procedure voor gegevensanalyse waarbij de uitkomstvariabele van belang is de tijd tot een gebeurtenis optreedt. De tijd kan elke kalendertijd zijn, zoals jaren, maanden, weken of dagen vanaf het begin van de follow-up tot een gebeurtenis plaatsvindt. Met gebeurtenis bedoelen we herstel, dood, het uitvallen van een machine, wickets in een innings of een aangewezen ervaring van belang die kan gebeuren met de zaak/onderwerp.,

doelen van Survival Analysis

Overlevingsanalyse heeft drie doelen:

  1. schatting en interpretatie van overlevings-en/of gevarenfuncties uit overlevingsdata
  2. vergelijken overlevings-en/of gevarenfunctie
  3. om de relatie tussen verklarende variabelen en overlevingstijd

te beoordelen Ik hoop dat u een beeld hebt van wat overlevingsanalyse is en de doelen ervan. Vervolgens zullen we de notaties die worden gebruikt in de analyse en een basisinterpretatie van KM curve begrijpen (een gedetailleerde uitleg die moet worden gevolgd).,

Basis van de Kaplan-Meier curve

Bij het gebruik van Kaplan-Meier analyse, moeten we ons concentreren op drie variabelen:

  1. Serieel tijd van het onderwerp
  2. Hun status aan het eind van hun serienummer tijd (gebeurtenis of gecensureerd)
  3. De groep van de studie die zij behoren tot

De seriële tijd voor de individuele onderwerpen moeten worden geregeld van de kortste tot de langste, ongeacht wanneer ze in de studie. De seriële duur van de bekende overleving wordt beëindigd door de gebeurtenis van belang. Dit staat bekend als een interval., Alleen het voorkomen van de gebeurtenis definieert bekende overlevingsintervallen. Terwijl gecensureerde onderwerpen het interval niet beëindigen. Hier is er een mogelijkheid van twee dingen te gebeuren.

1. Een onderwerp kan de gebeurtenis van belang hebben.

2. Ze worden gecensureerd. Zoals we besproken welke gebeurtenis net boven, deze keer zullen we definiëren wat gecensureerde gegevens is.

Lees ook: multinomiale naïeve Bayes Explained

Gecensureerde gegevens

De rechte definitie van gecensureerde gegevens is dat de informatie over de overlevingstijd van een persoon onvolledig is. Dit is een probleem waar de meeste overlevingsanalyses last van hebben., Dit kan gebeuren als er iets negatiefs voor het onderzoek gebeurt, zoals:

  1. een persoon ervaart de gebeurtenis niet voordat het onderzoek wordt beëindigd
  2. een persoon wordt tijdens de studieperiode niet meer gevolgd
  3. een persoon trekt zich terug uit het onderzoek om een of andere reden

begrip van de KM-analyse

na zoveel theorie en uitleg over de KM-analyse, gaan we over op de creatie en interpretatie van de km-curve.

voor dit, laten we eens kijken naar een voorbeeld waar een geneesmiddel wordt getest op twee groepen mensen (mannen en vrouwen)., Er zijn zes onderwerpen in elke groep (voor het gemak van begrip). De seriële tijd en de status op de seriële tijd worden gegeven in de onderstaande tabel. Status op de seriële tijd van 1 betekent het optreden van een gebeurtenis, en 0 betekent dat het onderwerp wordt gecensureerd. Het doel is om de cumulatieve overlevingskans te vinden en is er een significant verschil in de drug tussen de groepen.,

Table 1 – Initial sorted table for KM analysis

zoals eerder besproken, zijn de basiselementen voor de analyse 1. Seriële tijd, 2. Status op het seriële tijdstip en de groep waartoe het onderwerp behoort. De gegevens worden ingevoerd in een tabel en worden gesorteerd op oplopende serietijden beginnend met de kortste tijden voor elke groep. Let op, elke groep heeft een gecensureerd onderwerp., In een groep met mannelijke proefpersonen is het aan het einde van het onderzoek en in de andere groep werd het onderwerp gecensureerd binnen de studietijdlijn.

na het maken van de tabel, kunnen we statistische hulpmiddelen gebruiken zoals SPSS, Sigmaplot, R, Excel om de km-curve te tekenen. Laten we eerst kijken hoe we de KM-curve kunnen plotten en de resultaten kunnen analyseren met R-software, dan laten we een snelle wandeling maken door de statistieken en berekeningen achter de berekening van overlevingskansen.

KM-analyse met behulp van R

Step1: de voor de analyse gebruikte pakketten zijn survival en survminer. Gebruik install.,packages () om deze libraries te installeren voor het geval ze niet voorgeïnstalleerd zijn in je R werkruimte.

Step2: de volgende stap is om de dataset te laden en de structuur ervan te onderzoeken. De gegevens die we zullen gebruiken voor deze analyse zijn dezelfde als hierboven weergegeven. De gegevens worden opgeslagen als een csv-bestand en hetzelfde wordt geïmporteerd voor de analyse in R.,

stap 3: hierna zijn we klaar om het Survival object te maken met behulp van de functie Surv van het Survival Pakket. Het object wordt opgeslagen in het surv_object als bestemming. Survival object is in principe een gecompileerde versie van de seriële tijd en status. Een + teken achter de overlevingstijd geeft gecensureerde datapunten aan.,

Stap 4: de volgende stap is om de Kaplan-Meier curves aan te passen. Om dit te doen moeten we de overlevingsfunctie afstemmen op het overlevingsobject en de groep van belang. Deze aanpassing kan worden gedaan met behulp van de survfit-functie van de survminer-bibliotheek. Het in de vorige stap gecreëerde overlevingsobject wordt gegeven als functie van de groep die we voor de analyse hebben overwogen.,

de samenvatting van het resulterende fit_1-object toont onder andere de overlevingstijden, het percentage overlevende patiënten op elk tijdstip.

onderstaande tabel is de tabel-uitvoer van de overlevingsanalyse., Het toont het tijdstip waarop de gebeurtenis heeft plaatsgevonden, het aantal proefpersonen in gevaar na elke gebeurtenis, cumulatieve overlevingskansen, standaardfout geassocieerd met elke waarschijnlijkheid en het is bovenste en onderste 95% betrouwbaarheidsintervallen voor beide groepen (de berekening achter de tabel en de statistieken worden later in dit artikel besproken).

Table 2 – survival analysis output

Stap 5: Na de bovenstaande stap is het nu tijd om de KM-curve uit te tekenen., De corresponderende overlevingscurve kan worden onderzocht door het overlevingsobject door te geven aan de functie ggurvplot() met PVAL = TRUE. Dit argument is erg handig, omdat het ook de p-waarde van een log rank test in kaart brengt, wat ons zal helpen om een idee te krijgen of de groepen significant verschillend zijn of niet.

in Tabel 2 kan worden gezien dat de laatste proefpersoon van de vrouwelijke groep geen cumulatieve overlevingskans heeft toegewezen, en er is een plotselinge daling van de waarschijnlijkheid voor de derde proefpersoon., Terwijl in de andere groep, het laatste onderwerp heeft een waarschijnlijkheid geassocieerd met het en de daling van de waarschijnlijkheid is weinig kleiner dan de eerste groep. Het is omdat er in de vrouwelijke groep een subject is dat in het midden (na de tweede gebeurtenis) gecensureerd werd en er dus geen subject meer over is aan het einde om de waarschijnlijkheidsscores te berekenen. Het is vanwege dat de kans is sterk gedaald na de tweede gebeurtenis. In het geval van de mannelijke groep, het onderwerp dat werd gecensureerd is alleen aan het einde, en dus zal de kans niet nul benaderen.,

Ik weet dat dit een beetje verwarrend is, maar maak je geen zorgen dat we het in de komende pagina ‘ s zullen opruimen.

decodering van de KM-curve en analyse

Kijk naar de KM-curve in de figuur. De overlevingsduur van een proefpersoon wordt weergegeven door de lengte van de horizontale lijnen langs de x-as van seriële tijden. Het optreden van de gebeurtenis beëindigt het interval. De verticale lijnen zijn de gebeurtenis van belang, en de verticale afstanden tussen horizontaal zijn belangrijk omdat zij de verandering in de cumulatieve waarschijnlijkheid van het overleven van een bepaalde tijd zoals gezien in de Y-as illustreren., Bijvoorbeeld, als je tot een groep man behoort, is de kans dat je 11 maanden overleeft 100% ( x-as in jaren); omgekeerd, als je in de andere groep zit, is de kans dat je dezelfde tijd overleeft iets meer dan 66%. De steilheid van de curve wordt bepaald door de overlevingsduur.

kijkend naar de gecensureerde objecten, verminderde het enige onderwerp dat gecensureerd werd in groep female materieel de cumulatieve overleving tussen de intervallen. Terwijl het terminaal gecensureerde onderwerp in de mannelijke groep de overlevingskans niet veranderde en het interval niet werd beëindigd door een gebeurtenis.,

Table 3 – calculation table

bovenstaande tabel laat zien wat er gebeurt achter de productie van de KM-curve. Wanneer de bovenstaande tabel wordt vergeleken met de KM curve, is het duidelijk dat intervallen en de bijbehorende waarschijnlijkheden alleen worden geconstrueerd voor gebeurtenissen van belang en niet voor gecensureerde onderwerpen. Omdat een gebeurtenis een interval eindigt en een ander interval begint, moeten er meer intervallen zijn dan gebeurtenissen.

in de tabel wordt uitgelegd hoe de curves eindigen., In groep Mannelijk, de curve eindigt zonder het creëren van een ander interval hieronder. De cumulatieve overlevingskans wordt bepaald door het laatste horizontale, zesde interval en is 0,166. In de andere groep daalt de kromme naar nul na het vijfde interval om ervoor te zorgen dat het zesde interval horizontaal op de X-as staat.

kijkend naar de waarschijnlijkheid van overleving, kan het een beetje verwarrend zijn dat er twee waarschijnlijkheden zijn 1. Cumulatieve waarschijnlijkheid 2. Interval waarschijnlijkheid. De cumulatieve waarschijnlijkheid definieert de waarschijnlijkheid aan het begin en gedurende het interval., Dit wordt weergegeven langs de Y-as van de curve. Het interval overlevingspercentage definieert de kans om te overleven voorbij het interval. dat wil zeggen nog steeds overleven na het interval en het begin van de volgende.

censuur beïnvloedt de overlevingskansen. Gecensureerde observaties die samenvallen met een gebeurtenis worden meestal geacht onmiddellijk na de gebeurtenis te vallen. Censuur verwijdert het subject van de noemer, dat wil zeggen individuen die nog steeds in gevaar zijn. Bijvoorbeeld, in groep 2, waren er drie overlevende intervallen vier en beschikbaar om in interval vijf in gevaar te zijn., Tijdens interval vier werd er echter één gecensureerd; daarom bleven er slechts twee over om in interval vijf in gevaar te zijn, dat wil zeggen, zoals blijkt uit tabel II ging de noemer van vier in interval vier naar twee in interval vijf.

conclusie

zo berekenden we de overlevingskansen van elk subject van twee verschillende groepen. Hoewel het lijkt alsof de mannelijke groep een grotere overlevingskans heeft dan de vrouwelijke groep, vertelt de p-waarde van de log-rank test ons dat er geen significant verschil is tussen de groepen., De nulhypothese is dat er geen verschil is, en de alternatieve hypothese is dat de groepen significant verschillend zijn. Omdat de p-waarde groter is dan 0,05, kunnen we de nulhypothese niet afwijzen. Dit brengt ons bij het einde van de blog op Kaplan Meier Curve. We hopen dat je ervan genoten hebt. Als u meer van dergelijke concepten wilt leren, sluit u vandaag nog aan bij de gratis cursussen van Great Learning Academy.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *