Pålideligheden af den psykologiske test

Pålidelighed er et af testkvalitetskriterierne , dets stabilitet i forhold til målefejl. Der er to typer af pålidelighed - pålidelighed som stabilitet og pålidelighed som intern konsistens .

Pålidelighed som bæredygtighed

Stabilitet af testresultater eller retest reliability ( engelsk test-retest reliability ) - muligheden for at opnå de samme resultater fra forsøgspersoner i forskellige tilfælde.

Stabilitet bestemmes ved gentagen test (gentest) :

I denne metode foreslås det at udføre flere målinger med en vis tidsperiode (fra en uge til et år) med den samme test. Hvis korrelationen mellem resultaterne af forskellige målinger er høj, så er testen ret pålidelig. Den mindst tilfredsstillende værdi for retest reliabilitet er 0,76. Det er dog ikke alle tests pålidelighed, der kan testes med denne metode, da den vurderede kvalitet, fænomen eller effekt i sig selv kan være ustabil (f.eks. vores humør, som kan ændre sig fra den ene måling til den næste). En anden ulempe ved gentestning er den vanedannende effekt. Forsøgspersoner er allerede bekendt med denne test, og kan endda huske de fleste af deres svar fra den tidligere afslutning.

I forbindelse med ovenstående anvendes en undersøgelse af pålideligheden af psykodiagnostiske metoder ved brug af parallelle former, hvor ækvivalente eller parallelle sæt af opgaver konstrueres. I dette tilfælde udfører forsøgspersonerne en helt anden test under lignende forhold. Der er imidlertid vanskeligheder med at bevise, at de to former faktisk er ækvivalente. På trods af dette er parallelle former for test i praksis nyttige til at fastslå tests pålidelighed.

Pålidelighed som intern konsistens

Intern konsistens ( engelsk intern konsistens ) bestemmes af forholdet mellem hvert enkelt element i testen og det samlede resultat, af hvor meget hvert element modsiger de andre, af hvor meget hvert enkelt spørgsmål måler det tegn, som hele testen er rettet mod. Oftest er test designet på en sådan måde, at de har en høj grad af intern konsistens, på grund af det faktum, at hvis en variabel måles af en del af testen, så i andre dele, hvis de ikke stemmer overens med den første, den samme variabel kan ikke måles. For at en test skal være gyldig, skal den derfor være konsistent.

Der er dog også et modsat synspunkt. Cattell siger, at høj intern konsistens faktisk er det modsatte af validitet: hvert spørgsmål skal dække et mindre område eller have en snævrere betydning end det kriterium, der måles. Hvis alle spørgsmål er meget konsistente, er de meget korrelerede, og derfor vil en pålidelig test kun måle en relativt "snæver" variabel med små varianser. Ifølge Cattells ræsonnement eksisterer den maksimale validitet, når alle testelementer ikke er korreleret med hinanden, og hver af dem har en positiv korrelation med kriteriet. En sådan test ville imidlertid have lav intern konsistenspålidelighed.

For at kontrollere intern konsistens skal du anvende:

Split metode eller autonome dele metode
Tilsvarende blank metode
Cronbachs alfa

Split-half pålidelighed

Denne metode består i at opdele/dele testen i to lige store dele (for eksempel lige og ulige spørgsmål, første og anden halvdel), og derefter finde sammenhængen mellem dem. Hvis korrelationen er høj, kan testen betragtes som pålidelig.

Metode til ækvivalente blanks

OIE består af at bruge to testformularer, der kan sammenlignes med hinanden for en stor prøve (for eksempel formularer L og M til måling af Stanford-Binet intelligensskalaen). Resultaterne fra de to skemaer sammenlignes, og der beregnes en sammenhæng. Hvis korrelationskoefficienten er høj, er testen pålidelig. Ulempen ved denne metode er, at den involverer en så lang og besværlig proces som at skabe to ækvivalente former.

Cronbachs alfa-metode

Denne metode, foreslået af Lee Cronbach , sammenligner spredningen af hvert element med den samlede spredning af hele skalaen. Hvis spredningen af testresultater er mindre end spredningen af score for hvert enkelt spørgsmål, har hvert enkelt spørgsmål til formål at udforske det samme fælles grundlag. De producerer en værdi, der kan betragtes som sand. Hvis en sådan værdi ikke kan beregnes, det vil sige, at der opnås en tilfældig spredning ved besvarelse af spørgsmål, testen er ikke pålidelig, og Cronbachs alfa vil være lig med 0. Hvis alle spørgsmålene måler den samme egenskab, er testen pålidelig og Cronbachs alfa i dette tilfælde vil være lig med én.

Cronbachs udregning

\alfa

$\alfa$ Cronbach er defineret som

${{{N} \over {N-1}}\venstre({{\sigma _{X}^{2}-\sum _{i=1}^{N}{\sigma _{Y_ {i}}^{2}}} \over {\sigma _{X}^{2}}}\right)}$ ,

hvor er antallet af elementer i skalaen, er variansen af den samlede testscore og er variansen af elementet . $N$ ${\displaystyle \sigma _{X}^{2))$ $\sigma _{Y_{i}}^{2}$ $jeg$

En alternativ måde at regne på er som følger:

${\displaystyle \alpha ={N\cdot {\bar {c}} \over ({\bar {v}}+(N-1)\cdot {\bar {c}})))$

hvor N er antallet af elementer i skalaen, er middelvariansen for prøven, er middelværdien af alle kovarianser mellem prøvekomponenterne. ${\bar {v))$ ${\bar {c}}$

I øjeblikket beregnes Cronbach ved hjælp af SPSS , STATISTICA og andre moderne statistiske pakker, muligvis ved hjælp af Microsoft Excel.

Cronbachs betydning

\alfa

Cronbachs alfa vil generelt stige, når krydskorrelationerne af variabler øges, og anses derfor for at være en markør for intern konsistens i vurderingen af testresultaters validitet. Da de maksimale krydskorrelationer mellem variable på tværs af alle elementer er til stede, hvis det samme måles, indikerer Cronbachs alfa indirekte, i hvilket omfang alle elementer måler det samme. Alfa er således mest passende at bruge, når alle elementer er rettet mod at måle det samme fænomen, egenskab, fænomen. Det skal dog bemærkes, at en høj værdi af koefficienten indikerer tilstedeværelsen af et fælles grundlag for et sæt spørgsmål, men betyder ikke, at der kun er én faktor bag dem - skalaens endimensionalitet skal bekræftes af yderligere metoder. Når en heterogen struktur måles, vil Cronbachs alfa ofte være lav. Alfa er således ikke egnet til at evaluere pålideligheden af bevidst heterogene instrumenter (for eksempel for den originale MMPI , i dette tilfælde giver det mening at udføre separate målinger for hver skala).

Det menes, at professionelt designede test bør have en intern konsistens på mindst 0,70 [1] .

Alfa-koefficienten kan også bruges til at løse andre typer problemer. Således kan den bruges til at måle graden af konsistens af eksperter, der vurderer et bestemt objekt, stabiliteten af data under flere målinger osv.

Cronbachs teoretiske grundlag

\alfa

Cronbachs alfa-metoden kan ses som en forlængelse af Cuder-Richardson-20 , som svarer til at arbejde med dikotomier eller variabler, der kun tager to værdier (for eksempel sande/falske svar).

Cronbachs alfa-kriterium er teoretisk relateret til Spearman-Brown forudsigelsesformlen . Og begge disse formler følger af testens klassiske teori (utilgængeligt link) , som består i, at pålideligheden af testresultater kan udtrykkes som forholdet mellem varianserne mellem den sande og den samlede score (fejl og sand score) .

Se også

Ud over testpålidelighed er der også observationspålidelighed - interobservatørpålidelighed. МН er procentdelen af sammenfald af resultaterne af observation af eksperter med hinanden.
Pålidelighedsanalyse
Item Response Theory

Pålidelighed og validitet

Reliabilitet viser, at resultaterne af den undersøgelse, der udføres, er tæt på sandheden, og validitet viser, at resultaterne virkelig relaterer sig til det fænomen, som forskeren studerer. En valid undersøgelse er automatisk pålidelig, men det modsatte er ikke nødvendigvis tilfældet. En pålidelig undersøgelse er muligvis ikke gyldig.

Noter

↑ Lance Charles E. , Butts Marcus M. , Michels Lawrence C. Kilderne til fire almindeligt rapporterede cutoff-kriterier // Organisationsforskningsmetoder. - 2006. - April ( bind 9 , nr. 2 ). - S. 202-220 . - ISSN 1094-4281 . - doi : 10.1177/1094428105284919 .

Litteratur

Paul Kline. "Referenceguide til testdesign", Kiev, 1994.

Pålideligheden af ​​den psykologiske test