Kvalitativ variabel

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 28. december 2021; checks kræver 5 redigeringer .

En kvalitativ , diskret eller kategorisk variabel  er en variabel , der kan antage en af ​​et begrænset og normalt fast antal mulige værdier , der tildeler hver observationsenhed til en specifik gruppe eller nominel kategori baseret på en kvalitativ egenskab [1] . I datalogi og nogle grene af matematik kaldes kvalitative variable opregninger eller kategorisk fordeling .

Relaterede begreber

Kvalitative data  er en statistisk datatype , der består af kvalitative variabler, eller data der er konverteret til en sådan form, såsom grupperede data . Mere specifikt kan kvalitative data opnås fra kvalitative data observationer , der er opsummeret i form af tællere eller krydstabuleringer , eller fra kvantitative data observationer grupperet efter givne intervaller. Ofte formuleres rent kvalitative data i form af en beredskabstabel . Udtrykket "kvalitative data " gælder dog for datasæt, der, selv om de har nogle kvalitative variabler, også kan indeholde variabler, der ikke er kvalitative.

En kvalitativ variabel, der kan antage præcis to værdier, kaldes en binær variabel eller en dikotom variabel . Et vigtigt specialtilfælde er værdien fordelt i henhold til Bernoulli-loven . Kvalitative variable med mere end to mulige værdier kaldes polytomiske variable . Kvalitative variabler betragtes ofte som polytome, medmindre andet er angivet. Diskretisering  er behandlingen af ​​kontinuerlige data , som om de var kvalitative. Dikotomisering  er behandlingen af ​​kontinuerlige data, som om det var binære variable. Regressionsanalyse behandles ofte som kvalitativ med en eller flere kvantitative dummyvariabler .

Eksempler på kvalitative variabler

Eksempler på værdier, der kan repræsenteres som en kvalitativ variabel:

Notation

For at lette statistisk behandling kan numeriske indekser tildeles kvalitative variable, for eksempel fra 1 til K for en K - værdiansat kvalitativ variabel (det vil sige en variabel, der kan antage nøjagtigt K mulige værdier). Men som en generel regel er tal vilkårlige og har ringe betydning udover blot at angive en etiket for en bestemt værdi. Med andre ord eksisterer værdierne af en kvalitativ variabel på en nominel skala  - værdier er separate begreber, kan ikke bestilles og kan ikke manipuleres som almindelige tal. Gyldige operationer kan kun være ækvivalens , sætmedlemskab og andre operationer på sæt.

Som et resultat er den centrale tendens i sættet af kvalitative variable givet af mode . Hverken middelværdien eller medianen kan bestemmes. For eksempel, givet et sæt mennesker, kan vi overveje et sæt kvalitative variabler, der svarer til deres efternavne. Vi kan overveje operationer såsom ækvivalens (om to personer har samme efternavn), fastlagt medlemskab (om et efternavn er på en given liste), optælling (hvor mange personer har et givet efternavn) eller modefinding (som sidste navn er mest almindeligt). Men vi kan ikke meningsfuldt beregne "summen" af Smith + Johnson, eller stille et spørgsmål eller "sammenligne" Smith og Johnson. Som et resultat kan vi ikke spørge, hvad der er "mellemefternavnet" ( middelværdi ) eller "nærmeste efternavn til centrum" ( median (statistik) |median) i et sæt af efternavne.

Bemærk, at dette ignorerer begrebet alfabetisk orden , som er en egenskab, der ikke er nedarvet fra selve efternavnene, men en måde at konstruere etiketter på. For eksempel, hvis vi skriver efternavne på kyrillisk og antager den kyrilliske bogstavrækkefølge, kan vi få et andet resultat fra "Smith" < "Holmes", som vi får, når vi skriver efternavne i det latinske standardalfabet . Og hvis vi skriver navnene med kinesiske tegn , vil vi slet ikke være i stand til at skrive "Smith" < "Holms" meningsfuldt, fordi der ikke er defineret nogen rækkefølge for dem. Men hvis vi betragter navnene som skrevet, for eksempel i det latinske alfabet og definerer en rækkefølge, der svarer til den almindelige alfabetiske rækkefølge, kan vi gøre dem til ordinalvariable defineret på den almindelige skala .

Antal mulige værdier

Kvalitative stokastiske variable beskrives ved en statistisk kvalitativ fordeling , som gør det muligt at udtrykke en vilkårlig K -vurderet kvalitativ variabel med separate sandsynligheder givet for hvert af de K mulige udfald. Sådanne multi-kategori kvalitative variabler udforskes ofte med en multi- nominal fordeling , som tæller hyppigheden af ​​hver mulig kombination af tal fra de forskellige kategorier. Regressionsanalyse på kvalitative resultater udføres ved hjælp af multinomial logistisk regression , multinomial multiple probit , eller relaterede typer af diskrete valgmodeller .

Kvalitative variabler, der kun har to mulige udfald (såsom ja/nej eller succes/fiasko) er kendt som binære variabler (eller Bernoulli-variabler ). På grund af deres betydning betragtes disse variable ofte som en separat kategori med en separat fordeling ( Bernoulli-fordeling ) og separate regressionsmodeller ( logistisk regression , probitregression osv.). Som et resultat er udtrykket "kvalitativ variabel" ofte forbeholdt tilfælde med 3 eller flere udfald, og de kaldes multiværdivariable i modsætning til en binær variabel.

Man kan også overveje kvalitative variable, for hvilke antallet af kategorier ikke er fastsat på forhånd. En sådan kvalitativ variabel kan være en variabel, der beskriver et ord, og vi kan ikke på forhånd vide ordbogens størrelse, så vi kan tillade, at ord, som vi ikke har set før, bliver stødt på. Standard statistiske modeller, der involverer kvalitativ fordeling og multinomial logistisk regression antager, at antallet af kategorier er kendt på forhånd, og at ændre antallet af kategorier i farten er problematisk. I sådanne tilfælde bør mere avancerede teknikker anvendes. Et eksempel er Dirichlet-processen , som falder ind under den ikke-parametriske statistiks område . I et sådant tilfælde antages det logisk, at der er et uendeligt antal kategorier, men på et givet tidspunkt bliver de fleste af dem (faktisk alle undtagen et endeligt antal) aldrig set. Alle formler er formuleret i forhold til antallet af kategorier, der faktisk er ramt, ikke i forhold til det (uendelige) samlede antal potentielle kategorier, og der oprettes metoder til at opdatere inkrementelle sandsynlighedsfordelinger, herunder tilføjelse af "nye" kategorier.

Kvalitative variabler og regression

Kvalitative variabler repræsenterer en metode til kvalitativ (i modsætning til kvantitativ) evaluering af data (det vil sige, den repræsenterer kategorier eller gruppemedlemskab). De kan indgå som uafhængige variable i en regressionsanalyse, eller som afhængige variable i en logistisk eller probit regression , men skal konverteres til tal at kunne analysere dataene. Dette gøres ved brug af kodesystemer. Analysen udføres således, at kun g -1 ( g er lig med antallet af grupper) værdier er kodet. Dette minimerer redundans, men repræsenterer stadig det fulde datasæt, da der ikke vil blive opnået yderligere information ved at indkode alle g - grupper. For eksempel, når vi koder for køn ( g =2: mand og kvinde), hvis vi kun koder for hunner, vil resten være mænd. Typisk er en gruppe, der ikke er kodet, af minimal interesse [2] .

Der er tre hovedkodningssystemer, der almindeligvis anvendes i analysen af ​​kvalitative variabler i regression: dummy-kodning, indflydelseskodning og kontrastkodning. Regressionsligningen har formen Y=bX + a , hvor b er hældningsfaktoren, og den angiver vægten empirisk tildelt forklaringen, X er den forklarende variabel, og a er skæringspunktet med y -aksen , og disse værdier antage forskellige værdier afhængigt af det accepterede kodningssystem. Valget af kodesystem påvirker ikke statistikken F eller R 2 . Kodesystemet vælges dog afhængigt af interessen for kategorierne, da værdien af ​​b [2] afhænger af det .

Dummy-kodning

Dummy-kodning [3] bruges, når der er en kontrol- eller sammenligningsgruppe. Derfor analyseres data i forhold til sammenligningsgruppen - a repræsenterer middelværdien af ​​kontrolgruppen, og b er forskellen mellem middelværdien af ​​forsøgsgruppen og middelværdien af ​​kontrolgruppen. Det forudsættes, at tre kriterier for kontrolgruppens valgbarhed er opfyldt - gruppen skal være veldefineret (må f.eks. ikke være kategorien "andre"), der skal være en logisk grund til at vælge denne gruppe som sammenligningsgruppe (for eksempel forventes gruppen at have den højeste score på den afhængige variabel) og endelig bør stikprøvestørrelsen af ​​gruppen være signifikant og ikke mindre sammenlignet med andre grupper [4] .

Ved dummy-kodning tildeles referencegruppen værdien 0 for hver indkodningsvariabel. For hver respondent i variablesættet kan kun én påtage sig værdien 1, og det er den, der svarer til kategorien [5] [2] . b - værdierne skal tolkes således, at forsøgsgruppen sammenlignes med kontrolgruppen. At få en negativ værdi for b betyder derfor, at forsøgsgruppen scorer mindre end kontrolgruppen på den afhængige variabel . For at illustrere dette, antag, at vi måler optimisme blandt flere nationaliteter og beslutter, at franskmændene vil blive brugt som kontrolgruppe. Hvis vi sammenligner dem med italienerne og får en negativ b -værdi , tyder det på, at italienerne i gennemsnit er mindre optimistiske.

Følgende tabel giver et eksempel på en fiktiv kodning med franskmændene som kontrolgruppe, og C1, C2 og C3 er henholdsvis koderne for italienere , tyskere og andre (hverken franskmænd, italienere eller tyskere):

Nationalitet C1 C2 C3
franskmænd 0 0 0
italienere en 0 0
tyskere 0 en 0
Andet 0 0 en

Indflydelseskodning

I et indflydelseskodningssystem analyseres data ved at sammenligne en gruppe med alle andre grupper. I modsætning til falsk kodning er der ingen kontrolgruppe. I stedet foretages sammenligningen mod gennemsnittet af alle grupper ( a vil nu være det samlede gennemsnit ). Derfor søges datas sammenhæng med andre grupper ikke, men sammenhængen med det samlede gennemsnit søges [2] .

Indflydelseskodning kan enten vægtes eller ej. Vægtet indvirkningskodning beregner simpelthen et vægtet samlet gennemsnit og tager således stikprøvestørrelsen for hver variabel i betragtning. Dette er mest hensigtsmæssigt i situationer, hvor stikprøven er repræsentativ for populationen. Uvægtet indflydelseskodning er mest hensigtsmæssig i situationer, hvor forskellen i stikprøvestørrelse er resultatet af tilfældige faktorer. Fortolkningen af ​​b er forskellig for disse tilfælde - med uvægtet kodning er effekten af ​​b forskellen mellem forsøgsgruppens middelværdi og den samlede middelværdi, mens den ved vægtet kodning er lig med forsøgsgruppens middelværdi minus den vægtede middelværdi. [2] .

I indflydelseskodning koder vi gruppen under undersøgelse på samme måde som i falsk kodning. Den grundlæggende forskel er, at vi tildeler koden -1 til den gruppe, der interesserer os mindst. Da vi fortsætter med at bruge kodningsskemaet g  - 1, producerer den -1 kodede gruppe ingen data som følge af, at vi er mindst interesserede i denne gruppe.

B - værdierne skal fortolkes på en sådan måde, at behandlingsgruppen sammenlignes med gennemsnittet af alle grupper (eller det vægtede overordnede middel ved vægtet indflydelseskodning). At opnå en negativ værdi for b betyder således, at den kodede gruppe har en score, der er mindre end gennemsnittet af alle grupper på den afhængige variabel. Ved at bruge vores tidligere eksempel på at score optimisme efter nation, hvis en gruppe italienere tages i betragtning, betyder den observerede negative værdi af b , at de har en lav optimismescore.

Følgende tabel er et eksempel på indflydelseskodning, hvor den mindst interessante gruppe er andre .

Nationalitet C1 C2 C3
franskmænd 0 0 en
italienere en 0 0
tyskere 0 en 0
andre −1 −1 −1

Kontrastkodning

Kontrastkodningssystemet ( eller ortogonal kodning ) giver forskeren mulighed for at stille specifikke spørgsmål direkte. I stedet for at lade et kodningssystem diktere sammenligninger (dvs. mod en kontrolgruppe som i falsk kodning, eller mod alle grupper som i indflydelseskodning), kan der udvikles et unikt sammenligningskriterium for et bestemt forskningsspørgsmål. Disse individuelle hypoteser er normalt baseret på tidligere forskning og/eller teorier. Hypoteser er normalt følgende. Der er en central hypotese, der postulerer en stor forskel mellem de to sæt grupper. Den anden hypotese antyder, at forskellen mellem grupperne er lille i hvert sæt. Gennem disse a priori hypoteser kan kontrastkodning give en stigning i statistisk teststyrke sammenlignet med tidligere kodningssystemer [2] .

Nogle forskelle opstår, når vi sammenligner vores priors mellem ANOVA og regression. I modsætning til tilfældet, hvor der anvendes variansanalyse, hvor forskeren beslutter, om værdierne af koefficienterne vil være ortogonale eller ej, er det ved brug af regression væsentligt, at værdierne af de koefficienter, der er tildelt under kontrastkodning, er ortogonal. Desuden skal koefficienternes værdier ved regression enten være i form af en (almindelig) brøk eller i form af en decimalbrøk. De kan ikke være intervalværdier.

Konstruktionen af ​​kontrastkoder er begrænset af tre regler:

  1. Summen af ​​kontrastkoefficienterne for hver kodevariabel (for alle grupper) skal være lig nul. I vores tilfælde er 1/3 + 1/3 - 2/3 = 0, 1/2 - 1/2 + 0 = 0.
  2. Forskellen mellem summen af ​​positive (forskellige) koefficienter og summen af ​​negative (forskellige) koefficienter bør være lig med 1. I vores tilfælde er 1/3 - (-2/3) = 1, 1/2 - (-1) /2) = 1.
  3. Kodevariable skal være ortogonale [2] .

Overtrædelse af regel 2 giver R 2 og F værdier, som viser, at vi bør få de samme konklusioner om, hvorvidt der er en signifikant forskel; Vi kan dog ikke længere fortolke værdierne af b som forskellen mellem midlerne.

Overvej følgende tabel for at illustrere konstruktionen af ​​kontrastkoder. Koefficienterne blev valgt for at illustrere vores tidligere hypoteser: Hypotese 1: Franskmænd og italienere er mere optimistiske end tyskere (fransk=+0,33, italienere=+0,33, tyskere=−0,66). Dette illustreres ved at tildele den samme koefficient til de franske og italienske kategorier og en anden koefficient til den tyske. De tildelte tegn viser retningen af ​​forbindelsen (det negative tegn for tyskerne viser deres mindre hypotetiske optimisme). Hypotese 2: Franskmændene og italienerne forventes at have en forskel i deres optimisme (fransk=+0,50, italienere=−0,50, tyskere=0). At tildele tyskerne en værdi på nul viser derfor deres manglende evne til at inkludere denne hypotese i analysen. Igen angiver de tildelte tegn de formodede forbindelser.

Nationalitet C1 C2
franskmænd +0,33 +0,50
italienere +0,33 -0,50
tyskere -0,66 0

Nonsens-kodning

Nonsens-kodning opstår, når vilkårlige værdier bruges i stedet for "0", "1" og "-1" i det forrige kodningssystem. Selvom denne kodning producerer de korrekte værdier for variablerne, anbefales brugen af ​​nonsens-kodning ikke, da det vil føre til uforudsigelige statistiske resultater [2] .

Vedhæftede filer

Indlejringer er indkodninger af kategoriske værdier i vektorrum med reelle værdier (nogle gange komplekst værdifulde ) vektorrum, normalt på en sådan måde, at "lignende" værdier tildeles "lignende" vektorer eller underlagt en eller anden form for kriterium, der gør vektorerne, der er nyttige til den tilsvarende anvendelse. Et almindeligt specialtilfælde er ordindlejring , hvor de mulige værdier af de kvalitative variable er ord i sproget, og lignende vektorer tildeles ord med lignende værdier.

Interaktioner

En interaktion kan forekomme, hvis den betragtes blandt tre eller flere variable, og den beskriver en situation, hvor den samtidige indflydelse af to variable på en tredje ikke er additiv. Interaktion kan opstå med kvalitative variable på to måder: enten interaktionen af ​​en kvalitativ variabel med en kvalitativ variabel eller interaktionen af ​​en kvalitativ variabel med en kontinuert.

Interaktion af en kvalitativ variabel med en kvalitativ

Denne type interaktion opstår, når vi har to kvalitative variable. For at udforske denne form for interaktion skal systemet kodes til at adressere forskerens hypotese bedst muligt. Kodningsresultatet gengiver interaktionen. Du kan derefter beregne værdien af ​​b og bestemme, om denne interaktion er signifikant [2] .

Interaktion af en kvalitativ variabel med en kontinuerlig variabel

Simple Slope Analysis er en almindelig bagklogskabsanalyse, der bruges i regression, som ligner den simple indflydelsesanalyse i ANOVA, der bruges i interaktionsanalyse. I denne test tester vi hældningerne af en uafhængig variabel mod visse værdier af en anden uafhængig variabel. En sådan test er ikke begrænset til kontinuerte variable og kan også bruges, når den uafhængige variabel er kvalitativ. Vi kan ikke blot vælge værdier for interaktionsstudier, som i tilfældet med en kontinuert variabel, på grund af dataenes nominelle karakter (dvs. i det kontinuerlige tilfælde kan man analysere dataene på høje, medium og lave niveauer ved at tildeling af en standardafvigelse over middelværdien i midten og en under middelværdien). I vores tilfælde bruger vi en simpel per-gruppe regressionsligning til at udforske skråninger. Det er almindelig praksis at standardisere eller centrere variabler for at gøre dataene mere fortolkelige i hældningsanalyse. Kvalitative variabler bør dog ikke standardiseres eller centreres. Denne test kan bruges med alle indkodningssystemer [2] .

Se også

  • vægt
  • Kvalitative data
  • Statistisk datatype

Noter

  1. Yates, Moore, Starnes, 2003 .
  2. 1 2 3 4 5 6 7 8 9 10 Cohen J., Cohen P., West, Aiken, 2003 .
  3. Der er også navne binær kodning eller indikatorkodning . Se for eksempel SPSS Multiple Regression Arkiveret 8. januar 2019 på Wayback Machine . Selvom lærebogen Multivariate Statistical Data Analysis Arkiveret 19. juni 2018 på Wayback Machine skelner mellem dummy-kodning og indikatorkodning. I sidstnævnte falder antallet af dikotome indikatorvariabler sammen med antallet af kategorier
  4. Hardy, 1993 .
  5. Tereshchenko, Kurilovich, Knyazeva, 2012 , s. 33.

Litteratur

  • Tereshchenko O. V., Kurilovich N. V., Knyazeva E. I. Multivariat statistisk dataanalyse i samfundsvidenskab. - Minsk: BGU, 2012. - ISBN 978-985-518-711-1 .
  • Daniel S. Yates, David S. Moore, Daren S. Starnes. Statistikkens praksis . — 2. - New York: Freeman , 2003. - ISBN 978-0-7167-4773-4 . Arkiveret 9. februar 2005 på Wayback Machine
  • Cohen J., Cohen P., West SG, Aiken LS Anvendt multipel regression/korrelationsanalyse for adfærdsvidenskaberne (3. udgave). — New York, NY: Routledge, 2003.
  • Melissa Hardy. Regression med dummy-variabler. — Newbury Park, CA: Sage, 1993.

Læsning for yderligere læsning