Fejl af den første slags ( α-fejl, falsk positiv konklusion ) - en situation, hvor den korrekte nulhypotese forkastes (om fraværet af en forbindelse mellem fænomener eller den ønskede effekt).
Fejl af den anden art ( β-fejl, falsk negativ konklusion ) er en situation, hvor en forkert nulhypotese accepteres.
I matematisk statistik er disse nøglebegreberne for statistiske hypotesetestproblemer . Disse begreber bruges ofte på andre områder, når det kommer til at træffe en “binær” beslutning (ja/nej) ud fra et eller andet kriterium (test, verifikation, måling), som med en vis sandsynlighed kan give et falsk resultat.
Lad en stikprøve gives fra en ukendt fælles fordeling , og det binære problem med at teste statistiske hypoteser sættes:
hvor er nulhypotesen , og er den alternative hypotese . Antag, at der gives en statistisk test
,sammenligne hver implementering af stikprøven med en af de tilgængelige hypoteser. Så er følgende fire situationer mulige:
I andet og fjerde tilfælde siger vi, at der er sket en statistisk fejl, og det kaldes en fejl af henholdsvis første og anden slags [ 1] [2] .
Korrekt hypotese | |||
---|---|---|---|
Resultatet af at anvende kriteriet |
med rette accepteret | forkert modtaget (fejl af anden art) | |
forkert afvist (Type I fejl ) |
med rette afvist |
Det kan ses af definitionen ovenfor, at fejl af den første og anden art er indbyrdes symmetriske, det vil sige, hvis hypoteserne og er udvekslet , så vil fejl af den første art blive til fejl af den anden art og omvendt. Men i de fleste praktiske situationer er der ingen forvirring, da det er almindeligt accepteret, at nulhypotesen svarer til "default"-tilstanden (den naturlige, mest forventede tilstand) - for eksempel at den undersøgte er rask, eller at en passager, der passerer gennem metaldetektoren, ikke har nogen forbudte metalgenstande. Følgelig betegner den alternative hypotese den modsatte situation, som normalt tolkes som mindre sandsynlig, ekstraordinær, der kræver en form for reaktion.
Når det er sagt, omtales en type I-fejl ofte som en falsk alarm , falsk positiv eller falsk positiv . Hvis for eksempel en blodprøve viste tilstedeværelsen af en sygdom, selvom personen faktisk er rask, eller en metaldetektor gav en alarm ved at udløse et metalbæltespænde, så er den accepterede hypotese ikke korrekt, og derfor en Type I fejl er begået. Ordet "falsk positiv" har i dette tilfælde intet at gøre med det ønskelige eller uønskede af selve begivenheden.
Udtrykket er meget brugt i medicin. For eksempel giver test designet til at diagnosticere sygdomme nogle gange et positivt resultat (dvs. viser, at en patient har en sygdom), når patienten i virkeligheden ikke lider af denne sygdom. Et sådant resultat kaldes en falsk positiv .
På andre områder bruges sætninger med lignende betydning som regel, for eksempel "falsk positiv", "falsk alarm" osv. Inden for informationsteknologi bruges det engelske udtryk falsk positiv ofte uden oversættelse.
På grund af muligheden for falske positiver er det ikke muligt fuldt ud at automatisere kampen mod mange typer trusler. Som regel korrelerer sandsynligheden for en falsk positiv med sandsynligheden for at gå glip af en begivenhed (fejl af anden art). Det vil sige: Jo mere følsomt systemet er, jo flere farlige hændelser opdager det og forhindrer derfor. Men med stigende følsomhed stiger sandsynligheden for falske positiver uundgåeligt. Derfor kan et alt for følsomt (paranoid) konfigureret forsvarssystem degenerere til dets modsætning og føre til, at den sideløbende skade fra det vil overstige fordelen.
Derfor omtales en type II-fejl nogle gange som en ubesvaret hændelse eller en falsk negativ . Personen er syg, men blodprøven viste ikke dette, eller passageren har et koldt våben, men metaldetektorrammen registrerede det ikke (f.eks. på grund af det faktum, at rammens følsomhed er justeret til kun at detektere meget massive metalgenstande). Disse eksempler peger på en type II fejl. Ordet "falsk negativ" i dette tilfælde har intet at gøre med det ønskelige eller uønskede af selve begivenheden.
Udtrykket er meget brugt i medicin. For eksempel giver test designet til at diagnosticere sygdomme nogle gange et negativt resultat (det vil sige, at de viser, at patienten ikke har en sygdom), når patienten faktisk har denne sygdom. Et sådant resultat kaldes en falsk negativ .
På andre områder bruges sætninger med lignende betydning som regel, for eksempel "mangler en begivenhed" osv.
Da sandsynligheden for en Type I-fejl normalt falder med en stigning i sandsynligheden for en Type II-fejl og omvendt, må justeringen af beslutningssystemet repræsentere et kompromis. Hvor præcis det balancepunkt, der opnås ved en sådan justering, befinder sig, afhænger af vurderingen af konsekvenserne af at begå begge typer fejl.
Sandsynligheden for en type I fejl ved test af statistiske hypoteser kaldes signifikansniveauet og betegnes normalt med et græsk bogstav (deraf navnet fejl).
Sandsynligheden for en fejl af den anden art har ikke noget særligt almindeligt accepteret navn, det er angivet med et græsk bogstav (deraf navnefejlen). Denne værdi er dog tæt forbundet med en anden, som har en stor statistisk signifikans - kriteriets magt . Det beregnes i henhold til formlen . Jo højere kriteriet er, jo mindre sandsynligt er det, at der begår en type II-fejl.
Begge disse egenskaber beregnes normalt ved hjælp af den såkaldte testeffektfunktion . Især er type I fejlsandsynligheden en potensfunktion beregnet under nulhypotesen. For test baseret på en stikprøve af en fast størrelse er sandsynligheden for en type II fejl én minus en potensfunktion beregnet under antagelse af, at fordelingen af observationer passer til den alternative hypotese. For successive kriterier gælder dette også, hvis kriteriet stopper med sandsynlighed et (givet fordelingen fra alternativet).
I statistiske test er der normalt en afvejning mellem et acceptabelt niveau af type I og type II fejl . Ofte bruges en tærskelværdi til at træffe en beslutning, som kan variere for at gøre testen mere stringent eller omvendt blødere. Denne tærskelværdi er det signifikansniveau , der gives ved test af statistiske hypoteser . For eksempel, i tilfælde af en metaldetektor, vil en forøgelse af enhedens følsomhed føre til en øget risiko for en type 1 fejl (falsk alarm), mens en sænkning af følsomheden vil øge risikoen for en type 2 fejl (mangler en forbudt vare).
I opgaven med radardetektion af luftmål, primært i luftforsvarssystemet, er fejl af første og anden art, med formuleringen "falsk alarm" og "missing the target" et af hovedelementerne i både teori og praksis vedr. bygge radarstationer . Dette er formentlig det første eksempel på en konsekvent anvendelse af statistiske metoder på hele det tekniske område.
Begreberne Type I og Type II fejl er meget udbredt inden for computere og software.
ComputersikkerhedTilstedeværelsen af sårbarheder i computersystemer fører til, at det på den ene side er nødvendigt at løse problemet med at opretholde integriteten af computerdata, og på den anden side at sikre normal adgang for juridiske brugere til disse data ( se computersikkerhed ). I denne sammenhæng er følgende uønskede situationer mulige [3] :
En type 1-fejl opstår, når en spamblokerings- /filtreringsmekanisme fejlagtigt klassificerer en legitim e -mail -meddelelse som spam og forhindrer den i at blive leveret normalt. Mens de fleste anti-spam-algoritmer er i stand til at blokere/filtrere en stor procentdel af uønskede e-mails, er det meget vigtigere at minimere antallet af "falske alarmer" (fejlagtig blokering af ønskede meddelelser).
En type II-fejl opstår, når et anti-spam-system fejlagtigt slipper en uønsket meddelelse igennem og klassificerer den som "ikke spam". Det lave niveau af sådanne fejl er en indikator for effektiviteten af anti-spam-algoritmen.
Hidtil har det ikke været muligt at lave et anti-spam system uden en sammenhæng mellem sandsynligheden for fejl af første og anden type. Sandsynligheden for manglende spam i moderne systemer varierer fra 1 % til 30 %. Sandsynligheden for fejlagtigt at afvise en gyldig besked er fra 0,001 % til 3 %. Valget af et system og dets indstillinger afhænger af en bestemt modtagers forhold: For nogle modtagere vurderes risikoen for at miste 1 % af god post som ubetydelig, for andre er tabet på endda 0,1 % uacceptabelt.
Ondsindet softwareKonceptet med en type I-fejl bruges også, når antivirussoftware fejlklassificerer en harmløs fil som en virus . Forkert detektion kan være forårsaget af heuristik eller af en forkert virussignatur i databasen. Lignende problemer kan også opstå med anti -trojanske og anti -spyware- programmer.
Søgning i computerdatabaserVed søgning i en database omfatter fejl af den første art dokumenter, der er udstedt af søgningen, på trods af deres irrelevans (inkonsistens) med søgeforespørgslen. Falske positiver er typiske for fuldtekstsøgning , når søgealgoritmen analyserer den fulde tekst af alle dokumenter, der er gemt i databasen, og forsøger at matche et eller flere termer angivet af brugeren i forespørgslen.
De fleste falske positiver skyldes kompleksiteten af naturlige sprog , ords tvetydighed: for eksempel kan "hjem" betyde både "en persons bopæl" og "rodsiden på et websted." Antallet af sådanne fejl kan reduceres ved at bruge en særlig ordbog . Denne løsning er dog relativt dyr, da sådan ordforråd og dokumentmarkering ( indeksering ) skal oprettes af en ekspert.
Optisk tegngenkendelse (OCR)Forskellige detektionsalgoritmer giver ofte fejl af den første slags . OCR-software kan genkende bogstavet "a" i en situation, hvor der faktisk er flere prikker.
Passager- og bagagescreeningType I-fejl forekommer regelmæssigt hver dag i computersystemer til lufthavnsscreening. Detektorerne, der er installeret i dem, er designet til at forhindre, at våben medbringes om bord på flyet; dog er de ofte indstillet til et så højt følsomhedsniveau , at de mange gange om dagen skyder på mindre genstande såsom nøgler, bæltespænder, mønter, mobiltelefoner, søm i skosåler osv. (se eksplosiv detektion )., metaldetektorer ).
Således er forholdet mellem antallet af falske alarmer (identifikation af en anstændig passager som en kriminel) og antallet af korrekte alarmer (detektering af virkelig forbudte genstande) meget højt.
BiometriFejl af den første og anden slags er et stort problem i biometriske scanningssystemer, der bruger genkendelse af øjets iris eller nethinde , ansigtstræk osv. Sådanne scanningssystemer kan fejlagtigt identificere nogen med en anden person "kendt" af systemet, information om hvem der er gemt i databasen (det kan f.eks. være en person med ret til at logge ind, eller en mistænkt kriminel mv.). Den modsatte fejl ville være, at systemet ikke kunne genkende en legitim registreret bruger eller identificere en mistænkt for en forbrydelse [4] .
I medicinsk praksis er der en væsentlig forskel mellem screening og testning :
For eksempel kræver de fleste stater i USA, at nyfødte skal screenes for hydroxyphenylketonuri og hypothyroidisme , blandt andre medfødte anomalier . På trods af den høje frekvens af type I-fejl anses disse screeningsprocedurer for at være umagen værd, fordi de væsentligt øger sandsynligheden for at opdage disse lidelser på et meget tidligt stadium [5] .
De simple blodprøver, der bruges til at screene potentielle donorer for HIV og hepatitis , har et signifikant niveau af type I-fejl ; dog har læger meget mere nøjagtige (og derfor dyre) tests i deres arsenal for at kontrollere, om en person faktisk er inficeret med nogen af disse vira.
Den måske mest diskuterede er type I fejl i brystkræftscreeningsprocedurer ( mammografi ). I USA er type I-fejlraten på mammografier så høj som 15 %, den højeste i verden [6] . Det laveste niveau er observeret i Holland , 1% [7] .
Type II fejl er et betydeligt problem i medicinsk testning . De giver patienten og lægen den falske tro på, at sygdommen ikke er til stede, når den i virkeligheden er det. Dette fører ofte til uhensigtsmæssig eller utilstrækkelig behandling. Et typisk eksempel er tilliden til resultaterne af cykelergometri ved påvisning af koronar åreforkalkning , selvom det er kendt, at cykelergometri kun afslører de forhindringer i blodgennemstrømningen i kranspulsåren, der er forårsaget af stenose .
Fejl af den anden slags forårsager alvorlige og svære at forstå problemer, især når den ønskede tilstand er udbredt. Hvis en test med en 10% Type II fejlrate bruges på en population, hvor sandsynligheden for "sand positive" tilfælde er 70%, så vil mange negative testresultater være falske. (Se Bayes' sætning ).
Type I fejl kan også forårsage alvorlige og svære at forstå problemer. Dette opstår, når den tilstand, der søges, er sjælden. Hvis en test har en type I fejlrate på én ud af ti tusinde, men i gruppen af prøver (eller personer), der testes, er sandsynligheden for "sandt positive" tilfælde i gennemsnit én ud af en million, så er størstedelen af positive resultater fra den test vil være falsk [8] .
Udtrykket Type I fejl er blevet opfundet af forskere inden for det paranormale og spøgelser for at beskrive et fotografi eller optagelse eller ethvert andet bevis, der fejlagtigt fortolkes som værende af paranormal oprindelse - i denne sammenhæng er en Type I fejl ethvert uholdbare "mediebeviser" (billede, video, lyd osv.), der har den sædvanlige forklaring. [9]