Overlevelsesanalyse

Overlevelsesanalyse er en  klasse af statistiske modeller , der gør det muligt at estimere sandsynligheden for, at en begivenhed indtræffer.

Beskrivelse

Denne gruppe af statistiske metoder fik det passende navn på grund af deres oprindeligt udbredte brug i medicinsk forskning til at estimere forventet levetid i undersøgelsen af ​​effektiviteten af ​​behandlingsmetoder. Senere begyndte disse metoder at blive anvendt i forsikringsbranchen såvel som i samfundsvidenskaberne. [en]

Overlevelsesanalyse beskæftiger sig med modellering af processerne for indtræden af ​​terminale (kritiske) begivenheder for elementer af en bestemt befolkning (i første omgang "død" for elementer af en population af levende væsener). Inden for rammerne af medicinsk forskning kan overlevelsesanalyse således besvare spørgsmål som "hvad vil andelen af ​​overlevende blandt patienter være nogen tid efter de anvendte behandlingsteknikker?", "hvilke dødelighedsrater vil blive observeret blandt overlevende?", " hvilke faktorer påvirker øget eller faldende chancer for overlevelse? etc.

For at besvare de relevante spørgsmål er det nødvendigt klart at kunne definere elementets "levetid" (perioden for elementets ophold i aggregatet før starten af ​​den terminale hændelse). I tilfælde af biologisk overlevelse er "død" utvetydig, men i andre tilfælde er starten på en terminal begivenhed ikke altid mulig at lokalisere på et separat tidspunkt.

Generelt er overlevelsesanalyse konstruktionen af ​​modeller, der beskriver data om tidspunktet for forekomsten af ​​en begivenhed. Da en levende organisme kun kan dø én gang, betragtes traditionelt kun enkeltstående og engangsterminale hændelser inden for rammerne af denne tilgang.

Variabel censur

Dataanalyse ved hjælp af overlevelsesanalysemetoder kan kun udføres for censurerede data. Observationer siges at være censureret, hvis den afhængige variabel af interesse repræsenterer tidspunktet for forekomsten af ​​den terminale begivenhed, og varigheden af ​​undersøgelsen er begrænset i tid.

Censurmekanismer

Rettet censur

Med fast censur observeres en prøve af objekter i et fast tidsrum. Antallet af objekter, for hvilke en terminal hændelse opstår, eller antallet af dødsfald, er tilfældigt, men den samlede varighed af undersøgelsen er fast. Hvert objekt har en maksimalt mulig observationsperiode , , som kan variere fra et objekt til et andet, men som er fastsat på forhånd. Sandsynligheden for, at et objekt vil være i live i slutningen af ​​dets observationsperiode er , og det samlede antal dødsfald er tilfældigt.

Tilfældig censur

Ved tilfældig censur observeres en stikprøve af objekter, så længe det er nødvendigt, for at objekterne kan opleve begivenheden. I denne ordning er antallet af dødsfald , som bestemmer undersøgelsens nøjagtighed, fastsat på forhånd og kan bruges som en parameter. Ulempen ved denne tilgang er, at i dette tilfælde er den samlede varighed af undersøgelsen tilfældig og ikke kan kendes præcist på forhånd.

Retninger til censurering

Når du censurerer, kan du angive, i hvilken retning censureringen finder sted.

Højrehåndscensur

Højre censur opstår, hvis forskeren ved, på hvilket tidspunkt eksperimentet blev startet, og at det slutter på tidspunktet til højre for forsøgets startpunkt.

Venstrehåndscensur

Hvis forskeren ikke har information om, hvornår forsøget blev startet (f.eks. i biomedicinsk forskning kan det vides, hvornår patienten blev indlagt på hospitalet, og at han overlevede i en vis tid, men der er muligvis ingen information om, hvornår symptomerne af hans sygdom først dukkede op). Derefter finder venstre censur sted.

Enkelt og multipel censur

Engangscensur finder sted på et tidspunkt (eksperimentet slutter efter et bestemt tidspunkt). På den anden side forekommer multipel censur naturligt i biomedicinsk forskning , for eksempel når patienter udskrives fra hospitalet efter at have gennemgået behandling af varierende mængder (eller varigheder), og forskeren ved, at patienten lige har levet til det relevante censureringspunkt.

Analyse af livstabeller

Disse tabeller kan betragtes som "udvidede" frekvenstabeller. Området med mulige tidspunkter for forekomst af kritiske hændelser (dødsfald, fejl osv.) er opdelt i et vist antal tidsintervaller (tidspunkter). I et øjeblik var antallet og andelen af ​​objekter, der i begyndelsen af ​​det betragtede interval en del af elementerne i den undersøgte befolkning (var "levende"), antallet og andelen af ​​elementer, som befolkningen efterlod ("døde" ), samt antallet og andelen af ​​elementer, der blev trukket tilbage eller censureret i hvert interval.

Beregnede parametre

Overlevelsesfunktion

Det analyserede objekt i overlevelsesfunktionen betegnes konventionelt som ; det er beskrevet af følgende funktion :

hvor  er et stykke tid, hvor populationen blev observeret, er en tilfældig variabel , der angiver tidspunktet for "død" (forlader populationen af ​​objektet), og betyder sandsynligheden for "død" i et givet tidsinterval. Det vil sige, at overlevelsesfunktionen beskriver sandsynligheden for "død" noget tid efter øjeblikket .

Det antages normalt, at selvom denne værdi kan være mindre end 1, hvis der er mulighed for øjeblikkelig død eller fiasko.

Hvis , så skal overlevelsesfunktionen se ud . Denne ejendom følger af, at betingelsen indebærer, at . Det, der i det væsentlige menes her, er, at overlevelse for den senere periode kun er mulig efter overlevelse i den tidligere periode.

Normalt antages det, at overlevelsesfunktionen har en tendens til nul med en uendelig stigning i tidsvariablen: kl .

Når man analyserer overlevelse, bruges den kumulative fordelingsfunktion og dens afledte, fordelingsdensitetsfunktionen .

Den kumulative fordelingsfunktion har formen

og beskriver sandsynligheden for, at den terminale hændelse har fundet sted efter tid .

Fordelingstæthedsfunktionen (PDF) har formen

denne funktion viser hyppigheden af ​​forekomsten af ​​terminalhændelsen på tidspunktet .

Sandsynlighedstæthed

Dette er et estimat af sandsynligheden for at falde ud af befolkningen ("død") i det tilsvarende interval, defineret som følger:

hvor  er estimatet af sandsynligheden for fejl i det th interval,  er den kumulative brøkdel af overlevende objekter (overlevelsesfunktion) ved begyndelsen af ​​th interval,  er bredden af ​​th interval.

Risikofunktion (fejlrate)

Risikofunktionen er defineret som sandsynligheden for, at et element, der forbliver i populationen i begyndelsen af ​​det tilsvarende interval, vil forlade populationen ("dø") i løbet af dette interval. Intensitetsfunktionsestimatet beregnes som følger:

Tælleren for dette udtryk er den betingede sandsynlighed for, at hændelsen vil forekomme i intervallet, hvis den ikke er sket før, og nævneren er intervallets bredde.

Median forventet levealder

Dette er det punkt på tidsaksen, hvor den kumulative overlevelsesfunktion er 0,5. Andre percentiler (såsom 25. og 75. percentil eller kvartiler) af den kumulative overlevelsesfunktion beregnes på samme måde.

Modeltilpasning

Overlevelsesmodeller kan være meningsfuldt repræsenteret som lineære regressionsmodeller , da alle familierne af distributioner anført ovenfor kan reduceres til lineære med passende transformationer. I dette tilfælde vil levetiden være den afhængige variabel.

Ved at kende den parametriske familie af fordelinger kan man beregne sandsynlighedsfunktionen ud fra de tilgængelige data og finde dens maksimum. Sådanne estimater kaldes maksimale sandsynlighedsestimater. Under meget generelle antagelser falder disse estimater sammen med mindste kvadraters estimater. Tilsvarende findes maksimum af sandsynlighedsfunktionen under nulhypotesen, det vil sige for en model, der tillader forskellige intensiteter med forskellige intervaller. Den formulerede hypotese kan testes, for eksempel ved hjælp af likelihood ratio-testen, hvis statistik har en asymptotisk chi-kvadratfordeling .

Distributionsfamilier brugt

Generelt giver levetidstabellen en god idé om fordelingen af ​​fejl eller dødsfald af objekter over tid. Men for at kunne lave en forudsigelse er det ofte nødvendigt at kende formen på den overlevelsesfunktion, der overvejes.

I forbindelse med overlevelsesanalyse bruges følgende distributionsfamilier oftest til at bygge modeller:

Multiplikator Kaplan-Meier estimater

For censurerede, men ugrupperede livstidsobservationer, kan overlevelsesfunktionen estimeres direkte (uden en levetidstabel). Lad os sige, at der er en database, hvor hver observation indeholder præcis et tidsinterval. Ved at multiplicere sandsynligheden for overlevelse i hvert interval får vi følgende formel for overlevelsesfunktionen:

I dette udtryk  er estimatet af overlevelsesfunktionen,  er det samlede antal hændelser (sluttider),  er det ordinære (kronologisk) tal for en enkelt hændelse, lig med 1, hvis den -th hændelse betyder fiasko (død), og 0, hvis den -th hændelse betyder tab af observation (censur), betyder produktet over alle observationer , der er afsluttet på tidspunktet .

Dette estimat af overlevelsesfunktionen, kaldet multiplikationsestimatet, blev først foreslået af Kaplan og Meyer (1958).

Noter

  1. Overlevelsesanalyse. StatSoft elektronisk vejledning . Hentet 25. november 2012. Arkiveret fra originalen 23. januar 2013.

Litteratur