Lineær diskriminantanalyse ( LDA , eng. Linear Discriminant Analysis , LDA ), normal diskriminantanalyse ( eng. Normal Discriminant Analysis , NDA) eller diskriminantfunktionsanalyse ( eng. Discriminant Function Analysis ) er en generalisering af Fishers lineære diskriminant , en metode der bruges i statistik , mønstergenkendelse og maskinlæring for at søge efter en lineær kombination af funktionerA, der beskriver eller adskiller to eller flere klasser eller begivenheder. Den resulterende kombination kan bruges som en lineær klassifikator eller mere almindeligt til dimensionsreduktion før klassificering .
LDA er tæt forbundet med variansanalyse ( analyse Of Variance =ANOVA) og regressionsanalyse , som også forsøger at udtrykke én afhængig variabel som en lineær kombination af andre funktioner eller målinger [1] [2] . Imidlertid bruger variansanalyse kvalitative uafhængige variabler og en kontinuert afhængig variabel , mens diskriminant analyse har kontinuerlige uafhængige variable og en kvalitativ afhængig variabel ( dvs. klasselabel) [3] . Logistisk regression og probit-regression minder mere om LDA end variansanalyse, da de også forklarer en kvalitativ variabel i form af kontinuerlige forklarende variable. Disse andre metoder foretrækkes i applikationer, hvor der ikke er grund til at antage, at de uafhængige variable er normalfordelte, hvilket er den grundlæggende antagelse for LDA-metoden.
LDA er også tæt forbundet med Principal Component Analysis ( PCA) og faktoranalyse, idet de leder efter lineære kombinationer af variable, der bedst forklarer dataene [ 4] . LDA forsøger eksplicit at modellere forskellen mellem dataklasser. PCA, på den anden side, tager ikke højde for nogen forskel i klasser, og faktoranalyse bygger kombinationer af funktioner baseret på forskelle frem for ligheder. Diskriminantanalyse adskiller sig også fra faktoranalyse ved, at det ikke er en selvstændig teknik – for at den skal virke, skal der skelnes mellem uafhængige variable og afhængige variable (sidstnævnte kaldes også kriterievariable).
LDA fungerer, når målingerne foretaget på de uafhængige variabler for hver observation er kontinuerlige. Når man beskæftiger sig med kvalitative uafhængige variabler, er den tilsvarende teknik diskriminant korrespondanceanalyse [5] [6] .
Diskriminantanalyse bruges, når grupperne er kendt a priori (i modsætning til klyngeanalyse ). Hvert tilfælde skal have en værdi i et eller flere mål for kvantitativ forudsigelse og en værdi i gruppemålet [7] . Enkelt sagt er diskriminantfunktionsanalyse en klassifikation, der opdeler objekter i grupper, klasser eller kategorier af en eller anden type.
Den oprindelige dikotomiske diskriminantanalyse blev udviklet af Sir Ronald Fisher i 1936 [8] . Det adskiller sig fra ANOVA eller multivariat ANOVA , som bruges til at forudsige en (ANOVA) eller flere (multivariat ANOVA) kontinuerlige afhængige variable fra en eller flere kvalitative uafhængige variable. Diskriminerende funktionsanalyse er nyttig til at bestemme, om et sæt variabler er effektive til at forudsige kategorimedlemskab [9] .
Overvej et sæt observationer (også kaldet funktioner, attributter, variabler eller dimensioner) for hver forekomst af et objekt eller en hændelse med en kendt klasse . Dette sæt prøver kaldes træningssættet . Klassificeringens opgave er så at finde en god prædiktor for klassen af enhver repræsentant for den samme fordeling (ikke nødvendigvis fra træningssættet) kun givet observation [10] .
LDA nærmer sig problemet med den antagelse, at de betingede sandsynlighedsfordelinger og er normalfordelte med middel- og kovariansparametre og hhv. Under disse antagelser forudsiger den Bayesianske optimale løsning, at et punkt tilhører den anden klasse, hvis sandsynlighedsforholdet overstiger en eller anden (tærskel)værdi T, således at:
Uden yderligere antagelser kaldes den klassifikator QDA .
I stedet gør LDA den yderligere simplificerende antagelse , at den er homoskedastisk ( det vil sige, at kovariansklasserne er identiske, således at ), og at kovarianserne har fuld rang. I dette tilfælde er flere medlemmer udelukket:
, da det er hermitisk , og beslutningskriteriet beskrevet ovenfor bliver tærskelværdien for det skalære produktfor en eller anden tærskelkonstant c , hvor
Det betyder, at kriteriet for at komme ind i en klasse kun er en funktion af denne lineære kombination af kendte observationer.
Det er ofte nyttigt at se denne konklusion i form af geometri: Kriteriet for, at et input skal være indeholdt i en klasse , er en funktion af projektionen af et punkt i flerdimensionelt rum på en vektor (vi betragter kun vektorens retning). Med andre ord hører en observation til , hvis den tilsvarende er placeret på en bestemt side af hyperplanet vinkelret på . Flyets position bestemmes af tærskelværdien c.
Antagelserne for diskriminantanalyse er de samme som for multivariat variansanalyse. Analysen er meget følsom over for outliers og størrelsen af den mindste gruppe bør være større end antallet af prædiktorvariable (uafhængige) [7] .
Diskriminantanalyse antages at være relativt stabil med hensyn til små overtrædelser af disse antagelser [11] . Det har vist sig, at diskriminantanalyse kan forblive plausibel, når der anvendes dikotome stokastiske variable (når multivariat normalitet ofte krænkes) [12] .
Diskriminerende analyse fungerer ved at skabe en eller flere lineære kombinationer af prædiktorer, der producerer en ny latent variabel for hver funktion. Disse træk kaldes diskriminerende træk . Antallet af mulige træk er enten Ng -1, hvor Ng = antal grupper, eller p (antal prædiktorer), alt efter hvad der er mindst. Den første funktion, der oprettes, maksimerer forskellen mellem grupperne for den funktion. Den anden funktion maksimerer forskellen i forhold til denne funktion, men må ikke korrelere med den forrige funktion. Processen fortsætter med oprettelsen af en række funktioner med det krav, at den nye funktion ikke korrelerer med alle de tidligere.
Givet en gruppe med stikprøverumssæt , er der en diskriminantregel sådan, at hvis , så . Diskriminerende analyse finder derefter "gode" områder af sættene for at minimere klassifikationsfejl, hvilket resulterer i en høj klassifikationsprocent [13] .
Hver funktion efterfølges af en diskriminant score for at bestemme, hvor godt den forudsiger gruppemedlemskab.
Egenværdien i diskriminantanalyse er egenværdien for hver funktion[ Hvad er en egenværdi for en funktion? ] . Den viser, hvordan funktionen adskiller grupperne. Jo større egenværdi, jo bedre funktionsandele [7] . Her skal man dog være forsigtig, da egenværdier ikke har nogen øvre grænse [9] [7] . Egenværdien kan opfattes som forholdet mellem SS mellem og SS inde som i ANOVA, når den afhængige variabel er diskriminantfunktionen og grupperne er niveau IV [9] . Det betyder, at den største egenværdi er knyttet til den første funktion, den næststørste er knyttet til den anden, og så videre.
Nogle foreslår at bruge egenværdier som et mål for effektstørrelse , men dette er generelt ikke understøttet [9] . I stedet er det at foretrække at bruge kanonisk korrelation som et mål for effekten . Det ligner egenværdien, men er kvadratroden af forholdet SS mellem og SS total . Det er lig med sammenhængen mellem grupper og funktion [9] .
Et andet populært mål for effektstørrelse er procentvis varians .[ klargør ] for hver funktion. Det kan beregnes ved hjælp af formlen: , hvor er egenværdien for funktionen, og er summen af alle egenværdier. Værdien fortæller os, hvor nøjagtig forudsigelsen givet af en bestemt funktion er sammenlignet med andre funktioner [9] .
Procentdelen af korrekt klassificering kan analyseres som en effektstørrelse [9] .
Kanonisk diskriminantanalyse ( CDA ) finder akser ( k − 1 kanoniske koordinater , hvor k er antallet af klasser), der bedst adskiller kategorier . Disse lineære funktioner korrelerer ikke og bestemmer som et resultat det optimale k − 1 dimensionelle rum gennem en n -dimensionel datasky, der bedst adskiller k grupperne. Se " LDA med flere klasser " nedenfor.
Begreberne Fishers lineære diskriminant og LDA bruges ofte i flæng, selvom Fishers originale artikel [1] faktisk beskriver en lidt anderledes diskriminant, der ikke gør de samme antagelser, som LDA gør, såsom normal klassefordeling eller lige klasse kovarians .
Antag, at to klasser af observationer har middelværdier og kovarianser . Så vil den lineære kombination af funktioner have midler og varianser for . Fisher definerede adskillelsen mellem disse to fordelinger som forholdet mellem variansen mellem klasser og variansen inden for klasser:
Dette mål er på en måde et mål for signal-til-støj-forholdet for klassemærkning. Det kan vises, at den maksimale adskillelse vil være hvornår
Hvis LDA-antagelserne holder, svarer ovenstående lighed til LDA.
Bemærk, at vektoren er normalen for diskriminanthyperplanet . Som et eksempel, i et todimensionelt problem er den linje, der bedst adskiller de to grupper, vinkelret på .
Generelt projiceres de datapunkter, der deler, på . Den tærskelværdi, der bedst adskiller dataene, vælges derefter baseret på en univariat fordeling. Der er ingen generel regel for tærskelvalg. Men hvis projektionerne af punkter fra begge klasser viser nogenlunde samme fordeling, er et hyperplan mellem projektionerne af de to midler, og , et godt valg . I dette tilfælde kan parameteren c i tærskeltilstanden findes eksplicit:
.Otsu-metoden er relateret til Fishers lineære diskriminant og blev skabt til at binarisere histogrammet af pixels i et monokromt billede ved optimalt at vælge en sort/hvid-tærskel, der minimerer intra-klasse-varianser og maksimerer inter-klasse-varianser.
I det tilfælde, hvor der er mere end to klasser, kan analysen, der bruges til at opnå Fisher-diskriminanten, udvides til at opnå et underrum , der indeholder alle variationer af klasserne [14] [16] . Denne generalisering skyldes K. R. Rao [17] . Antag, at hver af C-klasserne har en middelværdi og den samme kovarians . Derefter kan klassevariansspredningen defineres som stikprøvekovariansen af klassemiddelværdierne
,hvor er gennemsnittet af gennemsnittet for klasserne. Klasseadskilleren i retningen i dette tilfælde vil være givet af værdien
Det betyder, at når er en egenvektor , vil værdien til forgrening være lig med den tilsvarende egenværdi .
Hvis den er diagonaliserbar, vil variansen mellem funktioner være indeholdt i underrummet spændt over af egenvektorerne svarende til de C − 1 største egenværdier (da rangordenen højst er C − 1). Disse egenvektorer bruges hovedsageligt i funktionsvalg, som i PCA. Egenvektorerne svarende til mindre egenværdier er meget følsomme over for det nøjagtige valg af træningsdata, og det er ofte nødvendigt at anvende regularisering som beskrevet i næste afsnit.
Hvis klassificering er påkrævet, er der mange alternative tilgange, der kan bruges i stedet for dimensionalitetsreduktion . For eksempel kan klasserne opdeles, og standard Fisher- eller LDA-diskriminanten kan bruges til at klassificere hver del. Et almindeligt eksempel på denne tilgang er "en mod resten", når point fra en klasse passer ind i en gruppe, og alt andet passer ind i en anden gruppe, så anvendes LDA. Dette giver C-klassifikatorer, hvis resultater kombineres. En anden almindelig metode er parvis klassifikation, hvor der oprettes en ny klassifikator for hvert par af klasser (hvilket giver i alt C ( C − 1)/2 klassifikatorer), og de enkelte klassifikatorer kombineres til den endelige klassifikation.
En typisk implementering af LDA-teknikken kræver, at alle prøver er tilgængelige på én gang. Der er dog situationer, hvor hele datasættet ikke er tilgængeligt, og inputtet modtages som en strøm. I dette tilfælde er det ønskeligt at kunne opdatere de beregnede LDA-funktioner ved at se på nye prøver uden at køre hele algoritmen på det fulde datasæt for at udtrække LDA-funktioner . For eksempel, i mange realtidsapplikationer, såsom mobil robotteknologi eller ansigtsgenkendelse, er det vigtigt at opdatere de udtrukne LDA-funktioner, så snart en ny observation bliver tilgængelig. En LDA-funktionsekstraktionsteknik, der kan opdatere LDA-funktioner blot ved at behandle nye prøver, kaldes den inkrementelle LDA-algoritme , og denne idé er blevet intensivt undersøgt i løbet af de sidste to årtier [18] . Catterjee og Roychaudhary foreslog en inkrementel selvorganiserende LDA-algoritme til opdatering af LDA-funktioner [19] . I et andet papir foreslog Demir og Ozmehmet online lokale læringsalgoritmer til at opdatere LDA-funktioner trinvist ved hjælp af fejlkorrektion og Hebbs læringsregler [20] . For nylig udviklede Aliyari, Rujic og Moghaddam en hurtig inkrementel algoritme til opdatering af LDA-funktioner ved at observere nye prøver [18] .
I praksis er klassemidler og kovarianser ukendte. De kan dog evalueres ud fra træningssættet. Enten den maksimale sandsynlighedsmetode eller den bageste maksimale estimeringsmetode kan bruges i stedet for den nøjagtige værdi i begge ligheder. Selvom kovariansestimaterne kan betragtes som optimale i en eller anden forstand, betyder dette ikke, at den diskriminant, der opnås ved at substituere disse værdier, er optimal på nogen måde, selvom antagelsen om en normal klassefordeling er korrekt.
En anden vanskelighed ved at anvende LDA og Fishers diskriminantmetode på reelle data opstår, når antallet af målinger i hver prøve (det vil sige dimensionen af hver datavektor) når antallet af prøver i hver klasse [4] . I dette tilfælde har kovariansestimaterne ikke fuld rang og kan ikke inverteres. Der er flere måder omkring dette. En måde er at bruge en pseudo-invers matrix i stedet for den sædvanlige inverse i ovenstående formler. Imidlertid kan bedre numerisk stabilitet opnås ved at projicere problemet ind i underrummet spændt af [21] . En anden strategi til at håndtere små stikprøvestørrelser er at bruge et komprimerende estimat kovariansmatricen, som matematisk kan repræsenteres som
hvor er identitetsmatrixen og er kompressionsintensiteten eller regulariseringsparameteren . Dette fører til begrebet regulær diskriminantanalyse [22] eller diskriminantanalyse med kontraktion [23] .
Også i mange praktiske tilfælde er lineære diskriminanter ikke egnede. LDA og Fishers diskriminant kan udvides til brug i ikke-lineær klassificering ved hjælp af et kernetrick . Her er de oprindelige observationer effektivt kortlagt til et højere dimensionelt ikke-lineært rum. En lineær klassifikation i dette ikke-lineære rum svarer så til en ikke-lineær klassifikation i det oprindelige rum. Det mest almindeligt anvendte eksempel på denne tilgang er Fishers nukleare diskriminant .
LDA kan generaliseres til multidiskriminerende analyse , hvor c bliver en kvalitativ variabel med N mulige tilstande i stedet for to. Tilsvarende, hvis fordelingstæthederne for klasserne er normale og har den samme kovarians, er tilstrækkelig statistik for værdierne af de N projektioner, som er underrummet spændt over af N - midlerne affint projekteret af den inverse kovariansmatrix. Disse fremskrivninger kan findes ved at løse det generaliserede egenværdiproblem , hvor tælleren er kovariansmatrixen dannet ved at behandle middelværdierne som prøver, og nævneren er den fælles kovariansmatrix. Se " LDA med flere klasser " ovenfor.
Ud over eksemplerne nedenfor, har LDA applikationer inden for positionering og produktstyring .
Ved at forudsige konkurs baseret på regnskabskurser og andre finansielle variabler var lineær diskriminantanalyse den første statistiske metode, der blev brugt til systematisk at forklare, hvilke virksomheder der vil fejle eller overleve. På trods af begrænsninger, herunder den velkendte ukorrekthed af LDA-normalfordelingsantagelsen for regnskabsmæssige satser , forbliver Edward Altmans 1968-model den førende model i praktiske anvendelser.
I et computeriseret ansigtsgenkendelsessystem er hvert ansigt repræsenteret af et stort antal pixelværdier. Lineær diskriminantanalyse anvendes her hovedsageligt for at reducere antallet af funktioner til et mere overskueligt antal, før man forsøger at klassificere. Hver af de nye dimensioner er en lineær kombination af pixelværdier, der danner et mønster. Lineære kombinationer opnået ved hjælp af Fishers lineære diskriminant kaldes Fisher faces , mens kombinationer opnået ved hjælp af principal komponent analyse kaldes egenfaces [24] .
I markedsføring er diskriminantanalyse ofte blevet brugt til at bestemme de faktorer, der adskiller forskellige typer brugere og/eller produkter baseret på undersøgelser eller andre former for dataindsamling. I dag bruges logistisk regression eller andre metoder normalt til disse formål. Brugen af diskriminantanalyse i markedsføring kan beskrives som følgende trin:
Den vigtigste anvendelse af diskriminantanalyse i medicin er vurderingen af sværhedsgraden af patientens tilstand og prognosen for sygdomsforløbet. For eksempel er patienter under retrospektiv analyse opdelt i grupper efter sygdommens sværhedsgrad - milde, moderate og svære former. Resultaterne af kliniske analyser og laboratorieanalyser undersøges derefter for at finde variabler, der er tilstrækkeligt forskellige i undersøgelsesgrupperne. Ud fra disse variable opbygges diskriminantfunktioner, der hjælper til objektivt at klassificere sygdomsforløbet hos patienter i fremtiden, hvad enten det bliver mildt, moderat eller alvorligt.
I biologien bruges lignende principper til at klassificere og definere grupper af forskellige biologiske objekter, for eksempel til at bestemme fagtypen af Salmonella enteritis, baseret på Fourier-transformationen af det infrarøde spektrum [25] , for at bestemme kilden til Escherichia coli ved at studere dens virulensfaktorer [26] osv.
Denne metode kan bruges til at adskille zoner med hydrotermisk ændring. For eksempel, når forskellige data fra forskellige zoner er tilgængelige, kan diskriminantanalyse finde mønstre i dataene og klassificere dem effektivt [27] .
Diskriminativ funktionel analyse minder meget om logistisk regression , og begge metoder kan bruges til at besvare nogle spørgsmål fra forskere [9] . Logistisk regression har ikke så mange antagelser som diskriminantanalyse. Men hvis antagelserne om diskriminantanalyse er opfyldt, er den mere kraftfuld end logistisk regression [28] . I modsætning til logistisk regression kan diskriminantanalyse bruges til små stikprøvestørrelser. Det har vist sig, at når prøvestørrelserne er de samme, og der er homogenitet af varians/kovarians, er diskriminantanalyse mere nøjagtig [7] . I lyset af alt dette vælges logistisk regression oftere, fordi de diskriminerende analyseantagelser sjældent er opfyldt [8] [7] .
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|