Årsagsmodel

Kausal model , kausal model  er en konceptuel model , der beskriver kausale mekanismer i et system. Årsagsmodeller kan forbedre kvaliteten af ​​forskningen ved at give klare regler for inddragelse af uafhængige variable i analysen [2] . De kan tillade, at nogle spørgsmål besvares baseret på eksisterende observationsdata uden behov for en interventionsundersøgelse, såsom et randomiseret kontrolleret forsøg . Nogle interventionsstudier er ikke egnede af etiske eller praktiske årsager, hvilket betyder, at uden en kausal model kan nogle hypoteser ikke testes [3] .

Årsagsmodeller kan hjælpe med at løse spørgsmålet om ekstern validitet (om resultaterne af en undersøgelse gælder for uudforskede grupper). Årsagsmodeller kan tillade, at data fra flere undersøgelser kombineres for at besvare spørgsmål, som intet enkelt datasæt kan besvare. Årsagsmodeller er falsificerbare , og hvis de ikke passer til dataene, skal de afvises som ugyldige. De bør også være forståelige for dem, der er tæt på de fænomener, som modellen har til hensigt at forklare [4] .

Årsagsmodeller har applikationer inden for signalbehandling , epidemiologi og maskinlæring . Ifølge Judah Pearl , udtrykt i The  Book of Why , 2018, er kausale modeller et nødvendigt element i udviklingen af ​​stærk kunstig intelligens [5] .

Definition

Årsagsmodeller er matematiske modeller, der repræsenterer årsagssammenhænge inden for et bestemt system eller gruppe. De gør det lettere at udlede årsagssammenhænge ud fra statistiske data. De kan fortælle os meget om kausalitetens epistemologi og forholdet mellem kausalitet og sandsynlighed . De er også blevet anvendt på emner af interesse for filosoffer, såsom beslutningsteori og analysen af ​​faktuel kausalitet [6] .

Judah Pearl definerer en kausal model som en ordnet triple , hvor  er et sæt af eksogene variabler, hvis værdier er bestemt af faktorer uden for modellen;  — et sæt af endogene variabler, hvis værdier er bestemt af faktorer i modellen; og  er et sæt af strukturelle ligninger, der udtrykker værdien af ​​hver endogen variabel som funktion af værdierne af andre variable i og [7] .

Historie

Aristoteles definerede en taksonomi af årsagssammenhæng , herunder materielle, formelle, effektive og endelige årsager. Hume afviste Aristoteles' tilgang til fordel for kontrafaktisk tænkning. På et tidspunkt benægtede han, at objekter har "kræfter", der gør en af ​​dem til en årsag og den anden til en virkning. Han overtog dog senere udsagnet: "hvis det første objekt ikke eksisterede, ville det andet aldrig eksistere" (en nødvendig betingelse for kausalitet) [8] .

I slutningen af ​​det 19. århundrede begyndte statistik at tage form som en videnskabelig disciplin. Efter flere års bestræbelser på at identificere kausale regler for områder som biologisk arv , introducerede Galton begrebet regression til middelværdien (observation af sophomore-syndrom i sport), hvilket senere førte ham til det ikke-kausale begreb om korrelation .

Karl Pearson , som er positivist , udelukkede begrebet kausalitet fra det meste af videnskaben som et usandsynligt specialtilfælde af association og introducerede korrelationskoefficienten som en metrik for association. Han skrev: "Kraft som årsag til bevægelse er nøjagtig det samme som træets gud som årsag til vækst", og at kausalitet kun var "en fetich blandt den moderne videnskabs uforståelige mysterier". Pearson grundlagde virksomheden Biometrika og biometrislaboratoriet ved University College London , som er blevet verdensledende inden for statistisk forskning.

I 1908 løste Hardy og Weinberg problemet med stabilitet af funktioner , og deres løsning fik Galton til at opgive kausalitet og genoplive Mendelsk arv [9] .

I 1921 blev stianalyse den teoretiske stamfader til kausal modellering og kausal grafer. Han udviklede denne tilgang i et forsøg på at udrede den relative indflydelse af arv , udvikling og miljø på marsvinets pelsmønstre . Han understøttede sine teoretiske påstande ved at vise, hvordan en sådan analyse kunne forklare sammenhængen mellem marsvins fødselsvægt, gestationsalder og kuldstørrelse. Modstand mod disse ideer fra etablerede statistikere førte til, at de i løbet af de næste 40 år blev ignoreret (med undtagelse af dyreavlere ). I stedet stolede videnskabsmænd på sammenhænge, ​​delvist takket være Wrights kritiker Ronald Fisher [10] .

I 1923 introducerede Jerzy Neumann konceptet om et potentielt resultat, men hans papir blev først oversat fra polsk til engelsk i 1990.

I 1958 advarede David Cox om, at Z-variablen kun skulle kontrolleres, hvis det var yderst usandsynligt, at den ville blive påvirket af uafhængige variable. I 1960'erne genopdagede Duncan , Blalock og Goldberger stianalysen.

Sociologer omtalte oprindeligt kausale modeller som strukturel ligningsmodellering men da det først blev en mekanisk metode, mistede den sin anvendelighed, hvilket fik nogle praktiserende til at afvise enhver forbindelse til kausalitet. Økonomer har taget den algebraiske del af stianalyse til sig og kalder det simultan modellering af ligninger. De undgik dog stadig at tillægge deres ligninger kausal betydning.

Tres år efter sin første artikel udgav Wright et papir, hvori han opsummerede det første, efter kritikken fra Carlin og andre, der protesterede mod, at det kun håndterer lineære relationer, og at robuste, modelfrie datarepræsentationer er mere afslørende.

I 1973 gik David Lewis ind for at erstatte korrelation med årsagssammenhæng (kontrafakta). Han henviste til menneskers evne til at forestille sig alternative verdener, hvor en årsag opstår eller ej, og hvor en virkning først optræder efter dens årsag. I 1974 introducerede Rubin begrebet "potentielle udfald" som et sprog til at stille kausale spørgsmål.

I 1983 foreslog Nancy Cartwright at enhver faktor, der er "kausalt relateret" til en effekt, skulle betinges, og gå ud over blot sandsynlighed som den eneste rettesnor.

I 1986 introducerede Baron og Kenny principperne for detektion og evaluering af mediation i et system af lineære ligninger [11] . Fra 2014 var deres papir den 33. mest citerede nogensinde. Samme år introducerede Grønland og Robins "fungibility"-tilgangen til at håndtere forvirrende faktorer ved at overveje det kontrafaktiske. De foreslog at evaluere, hvad der ville være sket med en gruppe patienter, hvis de ikke havde modtaget behandling, og at sammenligne dette resultat med resultatet af kontrolgruppen . Hvis resultaterne stemmer overens, er der ingen sammenfiltring [9] .

I øjeblikket udfører det kunstige intelligenslaboratorium ved Columbia University forskning i anvendelsen af ​​teorien om kausal modellering på kunstige neurale netværk [12] .

Kausalitetsstige

Pearls kausale metamodel omfatter en abstraktion i tre niveauer, som han kalder kausalitetsstigen. Det laveste niveau, associativt (se/observere), involverer opfattelsen af ​​mønstre eller mønstre i inputdataene, udtrykt som korrelationer. Mellemniveauet, intervention, forudsiger konsekvenserne af intentionelle handlinger, udtrykt som årsagssammenhænge. Det højeste niveau, kontrafaktisk, involverer at konstruere en teori, der forklarer, hvorfor specifikke handlinger har specifikke virkninger, og hvad der sker i fravær af sådanne handlinger [9] .

Forening

Et objekt er forbundet med et andet, hvis observationen af ​​den ene ændrer sandsynligheden for at observere den anden. Eksempel: Kunder, der køber tandpasta, er mere tilbøjelige til også at købe tandtråd . Associationer kan også måles ved at beregne korrelationen mellem to begivenheder. Associationer har ingen kausal betydning. Den ene hændelse kan forårsage den anden, det omvendte kan være sandt, eller begge hændelser kan være forårsaget af en tredje hændelse.

Interferens

Dette niveau hævder visse årsagssammenhænge mellem begivenheder. Kausalitet vurderes ved eksperimentelt at udføre en handling, der påvirker en af ​​begivenhederne. Eksempel: Hvis vi fordoblede prisen på tandpasta, hvad ville så den nye købssandsynlighed være? En årsagssammenhæng kan ikke etableres ved at undersøge historien om prisændringer, fordi prisændringen kunne være forårsaget af en anden årsag, som i sig selv kunne have påvirket den anden begivenhed (en tarif, der øger prisen på begge varer) [13] .

Kontrafaktisk

Det højeste niveau, kontrafaktisk, involverer at overveje en alternativ version af en tidligere begivenhed eller hvad der kunne være sket under forskellige omstændigheder for den samme eksperimentelle opsætning. For eksempel, hvad er sandsynligheden for, at hvis en butik fordoblede prisen på tandtråd, ville en kunde af tandpasta stadig købe det?

Kontrafakta kan indikere eksistensen af ​​en årsagssammenhæng. Modeller, der inkluderer kontrafakta, tillader præcise indgreb, hvis konsekvenser kan forudsiges. I det ekstreme tilfælde accepteres sådanne modeller som fysiske love, for eksempel siger inertiloven, at hvis en kraft ikke påføres et stationært objekt, vil det ikke bevæge sig [9] .

Kausalitet

Kausalitet versus korrelation

Statistik drejer sig om at analysere sammenhænge mellem flere variabler. Traditionelt beskrives disse relationer som korrelationer , associationer uden nogen underforstået kausalitet . Kausale modeller forsøger at udvide denne ramme ved at tilføje begrebet årsagssammenhæng, hvor ændringer i én variabel forårsager ændringer i andre [7] .

Det 20. århundredes definitioner af kausalitet var udelukkende baseret på sandsynligheder/associationer. Det er blevet sagt, at en begivenhed (X) forårsager en anden, hvis den øger sandsynligheden for en anden (Y). Matematisk er dette udtrykt som

Sådanne definitioner er utilstrækkelige, fordi andre relationer (f.eks. en almindelig årsag til X og Y) kan opfylde betingelsen. Kausalitet har at gøre med det andet trin på stigen. Foreninger er i den første fase og giver kun dokumentation for sidstnævnte. En senere definition forsøgte at løse denne tvetydighed ved at være betinget af baggrundsfaktorer. Matematisk er dette udtrykt som

hvor K er et sæt af baggrundsvariable, og k er værdierne af disse variable i en bestemt sammenhæng. Det nødvendige sæt af baggrundsvariable er dog udefineret, så længe sandsynlighed er det eneste kriterium, da flere sæt kan øge sandsynligheden.

Andre forsøg på at bestemme kausalitet omfatter Granger kausalitet , en statistisk test af hypotesen om, at kausalitet i økonomi kan vurderes ved at måle evnen til at forudsige fremtidige værdier af en tidsserie ved hjælp af de tidligere værdier af en anden tidsserie.

Typer

Årsagen kan være nødvendig, tilstrækkelig, befordrende eller have flere af disse egenskaber [14] .

Nødvendighed

For at en begivenhed x skal være en nødvendig årsag til y, skal tilstedeværelsen af ​​y indebære den tidligere forekomst af x. Tilstedeværelsen af ​​x betyder dog ikke, at y vil ske. Det betyder, at y ikke ville være sket, hvis x ikke var opstået.

Tilstrækkelige grunde

For at en begivenhed x skal være en tilstrækkelig årsag til y, skal tilstedeværelsen af ​​x indebære den efterfølgende forekomst af y. En anden årsag til z kan dog uafhængigt forårsage y. Tilstedeværelsen af ​​y kræver således ikke den forudgående forekomst af x [15] .

Tilknyttede årsager

For at x skal være en samtidig årsag til y, skal tilstedeværelsen af ​​x øge sandsynligheden for y. Hvis sandsynligheden er 100 %, så siges x i stedet at være tilstrækkelig. En samtidig årsag kan også være nødvendig [16] .

Model

Årsagsdiagram

Et kausaldiagram er en rettet graf , der viser kausale sammenhænge mellem variabler i en kausal model. Det inkluderer et sæt variabler (eller noder ). Hver knude er forbundet med en pil til en eller flere andre knudepunkter, som den har en kausal virkning på. En pil definerer kausalitetsretningen , for eksempel en pil, der forbinder variable A og B med en pil i punkt B, angiver, at en ændring i A forårsager en ændring i B (med en passende sandsynlighed). En sti er en gennemgang af grafen mellem to knudepunkter, der følger kausalpilene.

Årsagsdiagrammer omfatter cykliske diagrammer , rettede acykliske grafer og Ishikawa-diagrammer [9] .

Årsagsdiagrammer afhænger ikke af kvantitative sandsynligheder. Ændringer i disse sandsynligheder (f.eks. på grund af teknologiske forbedringer) kræver ikke ændringer af modellen.

Modelelementer

Årsagsmodeller har formelle strukturer med elementer med specifikke egenskaber.

Forbindelsesmønstre

Der er 3 typer forbindelser af tre noder - lineære kredsløb, gafler og kollidere .

Kæder

Kæder er lige kommunikationslinjer med pile, der peger fra årsag til virkning. I denne model er B en mediator i den forstand, at han formidler den indvirkning, som A ville have på C.

Forks

I gafler har én årsag mange konsekvenser. Der er en ikke-kausal, falsk sammenhæng mellem A og C, som kan elimineres ved at betinge B for en bestemt værdi af B.

Udviklingen af ​​gaffelen ser således ud:

I sådanne modeller er B den almindelige årsag til A og C (som også forårsager A), hvilket gør B til mediator.

Collider

I kollidere påvirker flere årsager det samme resultat. Konditionering for en bestemt værdi af B afslører ofte en ukausal negativ korrelation mellem A og C. Denne negative korrelation er blevet betegnet som collider fejlslutningen : B forklarer korrelationen mellem A og C. Korrelationen kan være positiv, når bidrag fra både A og C er nødvendig for at påvirke B:

Nodetyper

Mediator

En proxyvariabel ændrer indflydelsen af ​​andre årsager på resultatet (i modsætning til blot at påvirke resultatet). For eksempel, i eksemplet ovenfor, er kredsløb B mediator, fordi det ændrer indflydelsen af ​​A (indirekte årsag C) til C (resultat).

Forstyrrende variabel

En forvekslende variabel ( konfounder ) påvirker flere udfald ved at skabe en positiv sammenhæng mellem dem.

Instrumentvariabel

Instrumentvariabel:

  • har en vej til resultatet
  • har ingen anden vej til kausale variabler
  • har ingen direkte effekt på resultatet

Regressionskoefficienter kan måle den kausale effekt af en instrumentel variabel på resultatet, så længe denne effekt ikke er viklet ind.[ angiv ] . Instrumentelle variabler tillader således kvantificering af kausale faktorer uden data om forvekslende variable.

For eksempel i modellen:

hvor Z er en instrumentel variabel, fordi den har en vej til resultat Y og ikke har nogen base, for eksempel for U.

Du kan forbedre modellens nøjagtighed ved at konditionere en anden variabel til at blokere stier mellem værktøjet og confounderen og ved at kombinere flere variabler for at danne et enkelt værktøj.

Foreninger

Betingelser for uafhængighed

Uafhængighedsbetingelser er regler for at afgøre, om to variable er uafhængige af hinanden. Variabler er uafhængige, hvis værdierne af den ene ikke direkte påvirker værdierne af den anden. Flere kausale modeller kan dele uafhængighedsbetingelser. For eksempel modeller

og

har samme uafhængighedsbetingelser, fordi betingethed på B efterlader A og C uafhængige. De to modeller har dog ikke samme værdi og kan falsificeres baseret på dataene (dvs. hvis observationsdataene viser en sammenhæng mellem A og C efter konditionering på B, så er begge modeller forkerte). Omvendt kan dataene ikke vise, hvilken af ​​de to modeller der er korrekt, fordi de har de samme betingelser for uafhængighed. Konditionering af en variabel er en mekanisme til at udføre hypotetiske eksperimenter. Variabel konditionering involverer at undersøge værdierne af andre variabler for en given værdi af den betingede variabel. I det første eksempel indebærer konditionering på B, at observationerne for en given værdi af B ikke skal vise nogen sammenhæng mellem A og C. Hvis en sådan sammenhæng eksisterer, så er modellen forkert. Ikke-årsagsmodeller kan ikke foretage sådanne sondringer, fordi de ikke laver årsagsudsagn.

Confounder og deconfounder

Et vigtigt element i korrelationsforskningen er at identificere potentielt modstridende påvirkninger på den variabel, der undersøges, såsom demografi . Den korrekte liste over forstyrrende variabler kan dog ikke bestemmes på forhånd. Det er således muligt, at undersøgelsen kan kontrollere for irrelevante variabler eller endda (indirekte) den undersøgte variabel.

Årsagsmodeller tilbyder en pålidelig metode til at identificere relevante forvirrende variabler. Formelt set er Z en confounder, hvis Y er forbundet med Z via stier, der ikke går gennem X. Disse kan ofte bestemmes ved hjælp af data indsamlet til andre undersøgelser.

Bagdørsjustering

For at analysere den kausale indflydelse af X på Y i en kausal model, skal alle confoundervariabler justeres.

Noter

  1. Karl Friston (feb 2009). "Kausal modellering og hjerneforbindelse i funktionel magnetisk resonansbilleddannelse" . PLOS Biologi . 7 (2): e1000033. doi : 10.1371/journal.pbio.1000033 . PMC2642881  . _ PMID  19226186 .
  2. ÅRSAG (ÅRSAG OG VIRKNING) MODELLERING. Årsagsmodellering er den mest geniale og matematisk komplekse kvantitative prognosemetode, der er i brug i dag . www.bibliotekar.ru _ Hentet 9. marts 2021. Arkiveret fra originalen 26. juli 2020.
  3. Årsagsmodeller i regressionsanalyse . Studme . Hentet 9. marts 2021. Arkiveret fra originalen 25. februar 2017.
  4. Barlas, Yaman; Carpenter, Stanley (1990). " Filosofiske rødder til modelvalidering: To paradigmer ". System Dynamics Review . 6 (2): 148-166. doi:10.1002/sdr.4260060203.
  5. Pearl J., Mackenzie D. (2018) The Book of Why. Den nye videnskab om årsag og virkning. NY: Grundlæggende bøger. S. 362-363.
  6. Christopher Hitchcock. Årsagsmodeller . - 2018-08-07. Arkiveret fra originalen den 21. juli 2020.
  7. ↑ 1 2 Judæa Perle. An Introduction to Causal Inference  // The International Journal of Biostatistics. — 2010-02-26. - T. 6 , nej. 2 . — ISSN 1557-4679 . - doi : 10.2202/1557-4679.1203 . Arkiveret fra originalen den 1. februar 2021.
  8. Karpenko Alexander Stepanovich. Kontrafaktisk tænkning  // Logisk forskning. - 2017. - T. 23 , no. 2 . — ISSN 2074-1472 .
  9. ↑ 1 2 3 4 5 Pearl, Judæa ; Mackenzie, Dana (2018-05-15). The Book of Why: The New Science of Cause and Effect Arkiveret 13. juni 2021 på Wayback Machine . Grundlæggende bøger. ISBN9780465097616.
  10. Okasha, Samir (2012-01-12). " Causation in Biology Arkiveret 11. april 2019 på Wayback Machine ". I Beebee, Helen; Hitchcock, Christopher; Menzies, Peter (red.). Oxford Handbook of Causation . 1 . OU Oxford. doi:10.1093/oxfordhb/9780199279739.001.0001 . ISBN9780191629464.
  11. Baron og Kennys metode til mægling . Statistikløsninger (30. august 2017). Hentet 9. marts 2021. Arkiveret fra originalen 7. april 2021.
  12. Hvad AI stadig ikke  kan . MIT Technology Review . Hentet 9. marts 2021. Arkiveret fra originalen 11. marts 2021.
  13. Pearl, Judæa (29. oktober 2019). "Kausal og kontrafaktisk slutning" Arkiveret 20. september 2021 på Wayback Machine (PDF).
  14. Susanna S. Epp. Diskret matematik med applikationer . - Thomson-Brooks/Cole, 2004. - 936 s. — ISBN 978-0-534-49096-6 .
  15. Årsagsbegrundelse . Hentet 16. marts 2021. Arkiveret fra originalen 24. februar 2021.
  16. Riegelman, R. (1979). " Medvirkende årsag: Unødvendig og utilstrækkelig ". postgraduate medicin . 66 (2): 177-179.