Forvirrende variabel

En forvekslende variabel, en forvirrende faktor, en forvekslingsfaktor,  er en variabel i statistik, der påvirker både de afhængige og uafhængige variable , hvilket resulterer i en falsk sammenhæng . Entanglement er et kausalt begreb, et element i kausalmodellen , og som sådan kan det ikke beskrives i form af sammenhænge eller associationer [1] [2] [3] . Konfoundere er en af ​​typerne af variabler i kausalanalyse sammen med moderatorer , mediatorer og kolliderere [4] [5] [6].

Definition

Entanglement kan defineres i form af datagenerering (som i figuren ovenfor). Lad X  være en uafhængig variabel og Y  en afhængig variabel . For at estimere effekten af ​​X på Y , skal statistikeren eliminere effekten af ​​uvedkommende variable , der påvirker både X og Y. Vi siger, at X og Y er viklet sammen med en eller anden variabel Z , når Z kausalt påvirker både X og Y. til Y.

Lad være  sandsynligheden for hændelsen Y = y under en hypotetisk intervention X = x . X og Y er ikke sammenfiltrede, hvis og kun hvis følgende betingelse er sand:

for alle hændelsessandsynligheder X = x og hændelse Y = y , hvor  er den betingede sandsynlighed X = x . Intuitivt siger denne lighed, at X og Y ikke er viklet ind, hvis det observerede forhold mellem dem er det samme som det forhold, der ville blive målt i et kontrolleret eksperiment med randomiseret x .

I princippet kan den definerende lighed testes mod datagenereringsmodellen, forudsat at vi har alle ligninger og sandsynligheder forbundet med modellen. Dette gøres ved at modellere interventionen (se Bayesiansk netværk ) og kontrollere, om den resulterende sandsynlighed Y er lig med den betingede sandsynlighed . Det viser sig, at grafens egenskaber er tilstrækkelige til at kontrollere ligheden .

Kontrol

Overvej en forsker, der forsøger at evaluere effektiviteten af ​​lægemiddel X baseret på befolkningsdata, hvor patienterne selv vælger det anvendte lægemiddel. Dataene viser, at køn ( Z ) påvirker en patients valg af lægemiddel såvel som deres chancer for helbredelse ( Y ). I dette scenarie bryder Z 's køn forholdet mellem X og Y, da Z er årsagen til både X og Y  :

Vi har ulighed

,

fordi den observerede mængde indeholder information om sammenhængen mellem X og Z , men det gør den konfunderende størrelse ikke (fordi X ikke korrelerer med Z i et randomiseret eksperiment). En statistiker har brug for et upartisk estimat , men i tilfælde, hvor kun observationsdata er tilgængelige, kan et upartisk estimat kun opnås ved at tage højde for alle de forstyrrende faktorer, nemlig at tage hensyn til deres forskellige værdier og gennemsnitsresultatet. I tilfælde af en enkelt konfunderende faktor Z fører dette til en "justeringsformel":

,

hvilket giver et upartisk estimat af den kausale indvirkning af X på Y. Den samme formel virker i nærvær af flere forvirrende faktorer, bortset fra at i dette tilfælde skal valget af Z-sættet, der garanterer et upartisk estimat, foretages med omhu. Kriteriet for korrekt valg af forstyrrende variable kaldes en bagdør [7] [8] og kræver, at det valgte sæt Z "blokerer" (eller opsnapper) hver vej fra X til Y , der ender med en pil i X. Sådanne sæt kaldes en "gyldig bagdør" og kan omfatte variabler, der ikke er almindelige årsager til X og Y , men deres erstatninger.

For at vende tilbage til lægemiddeleksemplet, da Z opfylder bagdørskravet (dvs. opsnapper én sti ), så er "justeringsformlen" gyldig:

.

Forskeren kan således forudsige den sandsynlige effekt af at bruge et lægemiddel baseret på observationsstudier , hvor de betingede sandsynligheder, der optræder i højre side af ligningen, kan estimeres ved hjælp af regression.

I modsætning til populær tro kan tilføjelse af kovariater til Z- sættet føre til forvrængning. Et typisk modeksempel opstår, når Z er det fælles resultat af X og Y , [9] i hvilket tilfælde Z ikke er en forvirrende faktor (dvs. det tomme sæt er en gyldig bagdør), og at tage Z i betragtning, ville skabe en forvrængning kendt som kollideren eller Berksons paradoks .

Generelt kan sammenfiltring kontrolleres ved justering, hvis og kun hvis der er et sæt observerbare kovariater, der opfylder bagdørstilstanden. Desuden, hvis Z er et sådant sæt, så er tuningformlen i ligning (3) faktisk <4,5>. Jude Pearls Do-calculus giver yderligere betingelser, hvorunder P ( y  | do ( x )) kan estimeres uden at ty til justering [10] .

Historie

Ifølge Morabia (2011) [11] kommer begrebet confounder fra det middelalderlige latinske verbum "confudere" (fra latin: con = med + fusus = at sætte eller smelte sammen), der betyder "at blande", og blev sandsynligvis valgt til at betegne forvirring mellem årsag, der skal vurderes, og andre årsager, der kan påvirke resultatet og dermed forvirre eller forstyrre den ønskede evaluering. Fisher brugte ordet "entanglement" i sin bog fra 1935 Design of Experiments [12] for at henvise til fejlkilden i beskrivelsen af ​​et ideelt randomiseret eksperiment. Ifølge Vandenbroucke (2004) [13] brugte Leslie Kish [14] først ordet "entanglement" i ordets moderne betydning for at henvise til "inkompatibiliteten" af to eller flere sæt (f.eks. eksponeret og ueksponeret ) under en observationsundersøgelse .

De formelle betingelser, der bestemmer, hvorfor nogle sæt er "sammenlignelige" og andre "usammenlignelige" blev udviklet i epidemiologien af ​​Grønland og Robins (1986) [15] ved hjælp af kontrafaktasproget af Jerzy Neumann (1935) [16] og Donald Rubin (1974) [17] . Disse blev senere suppleret med grafiske kriterier såsom bagdørskriteriet (Pearl 1993; Greenland, Pearl og Robins, 1999) [3] [7] . Det har vist sig, at de grafiske kriterier formelt svarer til den kontrafaktiske definition [18] , men er mere gennemsigtige for forskere, der er afhængige af procesmodeller.

Typer

I tilfælde af vurdering af risikoen af en bestemt faktor for menneskers sundhed , er det vigtigt at kontrollere sammenfiltring for at isolere effekten af ​​en bestemt trussel, såsom et fødevaretilsætningsstof, pesticid eller nyt lægemiddel. For prospektive undersøgelser er det svært at rekruttere og screene frivillige med samme baggrund (alder, kost, uddannelse, geografi osv.). Og i tværsnit og gentagne undersøgelser , kan afhængige variabler opføre sig på lignende måder af forskellige årsager. På grund af manglende evne til at kontrollere kvaliteten af ​​frivillige, er sammenfiltring et særligt problem for menneskelige undersøgelser. Af disse grunde er eksperimenter , i modsætning til observationsstudier, en måde at undgå de fleste former for sammenfiltring.

I nogle discipliner er sammenfiltring klassificeret i forskellige typer. I epidemiologi er en type "indikationsforvirring" [19] , som er forbundet med forvrængning af resultaterne af observationsstudier . Fordi prognostiske faktorer kan påvirke behandlingsbeslutninger (og forvrænge estimater af behandlingseffekter), kan kontrol for kendte prædiktive faktorer reducere dette problem, men der er altid mulighed for, at en glemt eller ukendt faktor er blevet udeladt, eller at faktorerne interagerer i en kompliceret vej. Indikativ forvirring betragtes som den vigtigste begrænsning af observationsstudier. Randomiserede forsøg er ikke påvirket af indikationsforvirring på grund af tilfældig fordeling .

Forvirrende variabler kan også kategoriseres efter deres kilde: valg af måleinstrument (operationel forvirring), situationelle karakteristika (procedureel forvirring) eller interpersonelle forskelle (personlighedsforvirring).

Eksempler

Antag, at nogen studerer sammenhængen mellem fødselsrækkefølge (1. barn, 2. barn osv.) og om barnet har Downs syndrom . I denne undersøgelse vil moderens alder være en forvirrende variabel:

  1. Højere moderens alder er direkte relateret til Downs syndrom hos et barn
  2. Ældre moderens alder er direkte relateret til Downs syndrom, uanset fødselsrækkefølgen (en mor, der får sit første eller tredje barn i en alder af 50, udgør den samme risiko)
  3. Moderens alder er direkte relateret til fødslens rækkefølge (det 2. barn, med undtagelse af tvillinger, er født, når moderen er ældre, end hun var på tidspunktet for fødslen af ​​1. barn)
  4. Mors alder er ikke en konsekvens af fødselsrækkefølgen (at have et andet barn påvirker ikke moderens alder)

Når man vurderer risiko, påvirker faktorer som alder, køn og uddannelsesniveau ofte sundhedstilstanden og bør derfor overvåges. Ud over disse faktorer kan forskere ikke overveje eller have adgang til data om andre årsagsfaktorer. Et eksempel er undersøgelsen af ​​tobaksrygnings indvirkning på menneskers sundhed. Rygning, alkoholforbrug og kost hænger sammen. En risikovurdering, der tager højde for virkningerne af rygning, men ikke tager højde for alkoholforbrug eller kost, kan overvurdere risikoen ved rygning [22] . Rygning og sammenfiltring tages i betragtning i erhvervsmæssige risikovurderinger, såsom sikkerhedsvurderinger af kulminedrift [23] . Når der ikke er et stort udvalg af ikke-rygere eller ikke-drikkere i en bestemt profession, kan risikovurderingen være skæv i retning af negative sundhedseffekter af professionen.

Reducerer muligheden for sammenfiltring

Sandsynligheden for forekomsten og indflydelsen af ​​forstyrrende faktorer kan reduceres ved at øge typen og antallet af sammenligninger foretaget i undersøgelsen. Hvis målinger eller manipulationer af hovedvariablerne er forvirrede (det vil sige, at der er operationelle eller proceduremæssige konfoundere), afslører undergruppeanalyse muligvis ikke problemer i undersøgelsen. Husk dog, at øget antal sammenligninger kan skabe andre problemer (se Flere sammenligninger ).

Peer review  er en proces, der kan være med til at mindske forvirring enten før undersøgelsen udføres, eller efter analysen er udført. Peer review er afhængig af peer review inden for disciplinen for at identificere potentielle svagheder i undersøgelsesdesign og analyse, herunder hvordan resultater kan blive påvirket af forvirring. Tilsvarende giver replikering dig mulighed for at kontrollere pålideligheden af ​​undersøgelsens resultater under alternative undersøgelsesbetingelser eller alternative tilgange til analysen af ​​dens resultater (for eksempel under hensyntagen til mulig forvirring, der ikke er identificeret i den oprindelige undersøgelse).

Afhængigt af designet af undersøgelsen er der forskellige måder at udelukke eller kontrollere for forvirrende variabler [24] :

Alle disse metoder har deres ulemper:

  1. Det bedste forsvar mod forvirrende falske positiver er ofte at give afkald på stratificeringsbestræbelser og i stedet udføre et randomiseret forsøg en stor nok stikprøve, taget som en helhed, således at alle potentielle forvirrende variabler (kendte og ukendte) vil blive tilfældigt fordelt på alle undersøgelsesgrupper og vil derfor ikke korrelere med den binære variabel .
  2. Etiske overvejelser: I dobbeltblindede og randomiserede kontrollerede forsøg er deltagerne uvidende om, at de modtager falsk behandling , hvilket betyder, at de kan blive nægtet effektiv behandling [25] . Der er mulighed for, at patienter kun accepterer invasiv kirurgi (som indebærer reelle medicinske risici) på betingelse af, at de modtager behandling.

Se også

Noter

  1. Pearl, J., (2009). Simpsons paradoks , forvirring og sammenbrud i kausalitet: modeller, ræsonnement og slutning (2. udgave). New York: Cambridge University Press.
  2. VanderWeele, TJ (2013). "Om definitionen af ​​en konfounder" . Annals of Statistics . 41 (1): 196-220. arXiv : 1304.0564 . DOI : 10.1214/12-aos1058 . PMID  25544784 .
  3. 1 2 Grønland, S. (1999). "Forveksling og sammenklappelighed i kausal slutning" . Statistisk Videnskab . 14 (1):29-46. DOI : 10.1214/ss/1009211805 .
  4. Field-Fote, Edelle. Mediatorer og moderatorer, konfoundere og kovariater: Udforskning af de variabler, der belyser eller skjuler de "aktive ingredienser" i neurorehabilitering . Journal of Neurologic Physical Therapy, april 2019, bind 43, udgave 2, s. 83-84, doi: 10.1097/NPT.00000000000000275 . Hentet 8. december 2021. Arkiveret fra originalen 8. december 2021.
  5. Adrian E. Bauman, PhD, James F. Sallis, PhD, David A. Dzewaltowski, PhD, Neville Owen, PhD. Mod en bedre forståelse af indflydelsen på fysisk aktivitet: Determinanters, korrelaters, kausale variabler, mediatorer, moderatorer og konfounderers rolle . American Journal of Preventive Medicine, 2002, bind 23, nummer 2S .
  6. David P. MacKinnon. En forening af mediator-, confounder- og kollidereffekter . forebyggelsesvidenskab. Bind 22, side 1185-1193 (2021) . Hentet 9. december 2021. Arkiveret fra originalen 9. december 2021.
  7. 1 2 Pearl, J., (1993). "Aspekter af grafiske modeller forbundet med kausalitet," I Proceedings of the 49th session of the International Statistical Science Institute, s. 391-401.
  8. Pearl, J. (2009). Causal Diagrams and the Identification of Causal Effects In Causality: Models, Reasoning and Inference (2. udgave). New York, NY, USA: Cambridge University Press.
  9. Lee, P.H. (2014). "Skal vi justere for en konfounder, hvis empiriske og teoretiske kriterier giver modstridende resultater? En simuleringsundersøgelse”. sci rep . 4 : 6085. Bibcode : 2014NatSR...4E6085L . doi : 10.1038/ srep06085 . PMID 25124526 . 
  10. Shpitser, I. (2008). "Fuldstændige identifikationsmetoder for årsagshierarkiet". The Journal of Machine Learning Research . 9 : 1941-1979.
  11. Morabia, A (2011). "Historien om det moderne epidemiologiske koncept om forvirring" (PDF) . Journal of Epidemiology and Community Health . 65 (4): 297-300. DOI : 10.1136/jech.2010.112565 . PMID  20696848 . Arkiveret (PDF) fra originalen 2021-12-05 . Hentet 2021-12-05 . Forældet parameter brugt |deadlink=( hjælp )
  12. Fisher, R.A. (1935). Udformningen af ​​eksperimenter (s. 114-145).
  13. Vandenbroucke, JP (2004). "Opdagelsens historie". Soz Praventivmed . 47 (4): 216-224. DOI : 10.1007/BF01326402 . PMID  12415925 .
  14. Kish, L (1959). "Nogle statistiske problemer i forskningsdesign". Am Sociol . 26 (3): 328-338. DOI : 10.2307/2089381 .
  15. Grønland, S. (1986). "Identificerbarhed, udskiftelighed og epidemiologisk forvirring" . International Journal of Epidemiology . 15 (3): 413-419. DOI : 10.1093/ije/15.3.413 . PMID  3771081 .
  16. Neyman, J., i samarbejde med K. Iwaskiewics og St. Kolodziejczyk (1935). Statistiske problemer i landbrugsforsøg (med diskussion). Suppl J Roy Statist Soc Ser B 2 107-180.
  17. Rubin, D.B. (1974). "Estimering af årsagsvirkninger af behandlinger i randomiserede og ikke-randomiserede undersøgelser" . Tidsskrift for pædagogisk psykologi . 66 (5): 688-701. DOI : 10.1037/h0037350 .
  18. Pearl, J., (2009). Kausalitet: Models, Reasoning and Inference (2. udgave). New York, NY, USA: Cambridge University Press.
  19. Johnston, S.C. (2001). "Identifikation af forvirring ved indikation gennem blindet fremtidig gennemgang." American Journal of Epidemiology . 154 (3): 276-284. DOI : 10.1093/aje/154.3.276 . PMID  11479193 .
  20. 1 2 Pelham, Brett. Udførelse af forskning i psykologi. - 2006. - ISBN 978-0-534-53294-9 .
  21. Steg, L. Applied Social Psychology: Understanding and management sociale problemer / L. Steg, A. P. Buunk. – 2008.
  22. Tjønneland, Anne (januar 1999). “Vinindtag og kost i et tilfældigt udsnit af 48763 danske mænd og kvinder” . American Journal of Clinical Nutrition . 69 (1): 49-54. DOI : 10.1093/ajcn/69.1.49 . PMID  9925122 .
  23. Axelson, O. (1989). "Forvirrende fra rygning i erhvervsepidemiologi" . British Journal of Industrial Medicine . 46 (8): 505-07. DOI : 10.1136/oem.46.8.505 . PMID2673334  . _
  24. Mayrent, Sherry L. Epidemiology in Medicine . - Lippincott Williams & Wilkins , 1987. - ISBN 978-0-316-35636-7 .
  25. Emanuel, Ezekiel J (20. september 2001). "Etikken i placebokontrollerede forsøg - en mellemvej" . New England Journal of Medicine . 345 (12): 915-9. doi : 10.1056/ navn200109203451211 . PMID 11565527 . 

Litteratur

Links