Analysen af emner (testelementer) [1] omfatter et sæt statistiske metoder til at undersøge egnetheden af individuelle testelementer, hvis værdier blev opnået, for eksempel gennem en skriftlig undersøgelse, afhængigt af formålet med undersøgelsen . Målet er at skabe en kvalitativ skala (skala betyder her et værktøj til at måle nogle variabler) for at teste og forbedre testelementer. Emnet for emneanalyse er derfor at studere anvendeligheden af individuelle elementer til en bestemt test. Jobanalyse er et nøgleværktøj til at designe testcases og evaluere deres pålidelighed (som et kriterium). Afgørende for evalueringen er beslutningen om, at hele testen (det vil sige alle dens elementer) har til formål at studere præcis, hvad der oprindeligt var beregnet til at blive målt.
Begrebet opgaveanalyse er ikke præcist defineret i litteraturen. Det bruges til empirisk at bestemme psykometriske kriterier for individuelle testemner. De fleste af definitionerne refererer til klassisk opgaveanalyse i testdesign: • Analyse af frekvensfordeling • Beregning af statistiske parametre o Opgavernes sværhedsgrad o Diskrimineringskraft (særpræg evne) af opgaver o Homogenitet (homogenitet) af opgaver • Dimensionalitet (dimensionalitet). Analysen udføres efter algoritmen, hvis formål er at udvikle måleevnen for den faktor, som testen er lavet til. Genstandsanalyse bruges til at udvælge og revidere emner, placere dem korrekt i en test og eventuelt udvikle parallelle test.
Kontrolværdier kan præsenteres grafisk (f.eks. som et søjlediagram). Dette giver den første generelle idé om frekvensfordelingen . Hovedinteressen her er spredningen af værdier og svaret på spørgsmålet om, hvorvidt fordelingen af råværdier følger en normalfordeling. Fordi mange statistiske analyseprocedurer antager en normalfordeling, er en passende fordeling ønskelig.
Opgavernes sværhedsgrad er karakteriseret ved et indeks, der svarer til andelen af personer, der har løst opgaven korrekt (Bortz & Döring, 2005). Tidligere blev denne indikator kaldt Popularitetsindekset. Formålet med Sværhedsindekset er at skelne mellem opgaver, der er af høj sværhedsgrad, fra dem, der er lettere. Uegnede er opgaver, hvor alle emner giver det rigtige svar, eller opgaver, hvor svaret ikke blev fundet af nogen. Sværhedsindekset skal nødvendigvis placeres mellem disse ekstreme tilfælde. I test skal sværhedsgraden dække hele det mulige område af den egenskab, der måles af testen.
Sværhedsgraden af testelementer med et to-trins svar (for eksempel sand/falsk) beregnes som følger:
, hvor
Nr = antal forsøgspersoner, der har svaret rigtigt, N = antal emner, p = emnets sværhedsgrad (kun to-trins emner!) Dette giver en løsning til det enkleste tilfælde. Hvis forsøgspersonerne ikke løste opgaven, eller der er mistanke om, at nogle opgaver er udført "tilfældigt", så må man stole på andre alternative løsninger. (vgl. Fisseni, 1997, 41-42).
Beregning af opgavers sværhedsgrad med flertrins (alternative) svar: Tilfældet, hvor p ikke er defineret. Mulige løsninger på dette problem: • Fremstil en dikotomi af fastsatte værdier (for eksempel 0 og 1), i dette tilfælde beregnes opgavens sværhedsgrad med et to-trins svar. • Beregning af middelværdi og varians (middelværdi svarer til p, dog skal der også tages hensyn til spredning).
• = Indeks for spørgsmål med svar på flere niveauer:
Forenklet formel:
For en mere præcis beregning tilbyder forskellige forfattere forskellige metoder (vgl. Fisseni, 2004, 43-45). Forskellen i sværhedsgraden af de to opgaver kan kontrolleres ved hjælp af en tværfaglig tabel. Disse formler kan kun bruges til testniveauet, det vil sige når testning ikke er påkrævet og/eller når forsøgspersonerne var i stand til at klare alle opgaver. (vgl. Lienert, 1989).
Ved at beregne diskriminantstyrken kan man se, hvor meget hvert enkelt element påvirker det samlede testresultat (Bortz & Döring, 2005). Derfor betyder en høj diskriminant power-score, at elementet er i stand til at skelne elementer i forhold til den samlede test (dvs. personer med høje værdier af funktionen fra dem med lave værdier). Diskriminanteffekten har en koefficient. Dette er korrelationskoefficienten mellem et enkelt element og den samlede testscore. Koefficienten beregnes for hver enkelt opgave og afhænger af kontrolniveauets skala. Hvis fordelingen af testværdier har form af en normalfordeling, bestemmes diskriminantstyrken ( ) af korrelationen mellem værdien af en opgave i og den samlede værdi af testen t:
Hvis = 0, opnår opgaver lige lave og høje værdier af funktionen. Hvis korrelationsscoren er negativ, betragtes varen som ubrugelig. A priori er det højest mulige særpræg af opgaver ønskeligt, især for testniveauet. Hver opgaves diskriminerende kraft afhænger af testens kompleksitet, dimension og homogenitet, såvel som af dens placering i testen og kriteriets pålidelighed. (Kriteriet kan indeholde en testværdi, derudover kan et eksternt kriterium bruges. Det fungerer så som en koefficient) Høj effektivitet af diskriminanteffekten er mulig med en gennemsnitlig opgavekompleksitet (vgl. Lienert, 1989).
Homogenitet viser, hvor tæt testelementerne er relateret til hinanden. Når der er høj homogenitet, sigter forskningsopgaverne mod at måle det samme fænomen (Bortz & Döring, 2005). Alle testelementer har korrelationspar, hvilket resulterer i en korrelationskoefficient ( ), som (beregnet ved hjælp af Fisher Z-transformen) beskriver den gennemsnitlige testhomogenitetsscore ( ). Antallet af sammenhænge afhænger af opgavernes sværhedsgrad. Jo større forskellen i opgaver er efter sværhedskriteriet, jo mindre krydskorrelation, hvilket igen påvirker testens pålidelighed. Elementer i testen (deltest) har således ikke en sammenhæng mht. sværhedsgrad (heterogen test), eller items har denne sammenhæng (homogen test) (vgl. Lienert, 1989).
Dimensionaliteten af en test angiver kun en af dens funktioner (univariat test) eller flere funktioner af testen eller deltestene (multivariat test) (Bortz & Döring 2005). Empirisk kan dimensionalitet bestemmes ved hjælp af faktoranalyse.