Mahalanobis afstand

Mahalanobis-afstanden er et mål for afstanden mellem vektorer af tilfældige variable, hvilket generaliserer begrebet euklidisk afstand.

Foreslået af den indiske statistiker Mahalanobis i 1936 [1] . Ved hjælp af Mahalanobis-afstanden kan man bestemme ligheden mellem en ukendt og en kendt prøve . Den adskiller sig fra den euklidiske afstand ved, at den tager højde for korrelationer mellem variable og er skalainvariant.

Definition

Formelt er Mahalanobis-afstanden fra en multidimensionel vektor til et sæt med en middelværdi og en kovariansmatrix defineret som følger [2] :

Mahalanobis-afstanden kan også defineres som et mål for ulighed mellem to tilfældige vektorer og fra en enkelt sandsynlighedsfordeling med en kovariansmatrix  :

Hvis kovariansmatrixen er identitetsmatrixen, bliver Mahalanobis-afstanden lig med den euklidiske afstand. Hvis kovariansmatrixen er diagonal (men ikke nødvendigvis enhed), så kaldes det resulterende afstandsmål den normaliserede euklidiske afstand :

Her er standardafvigelsen fra i prøven.

Intuitiv forklaring

Overvej problemet med at bestemme sandsynligheden for, at et eller andet punkt i et N-dimensionelt euklidisk rum tilhører en mængde, der er givet af et sæt punkter, der bestemt hører til dette sæt. Find sættets massecentrum. Intuitivt er det sådan, at jo tættere et givet punkt er på massecentret, jo mere sandsynligt er det, at det hører til mængden.

Det er dog også værd at overveje størrelsen af ​​det område, som sættets punkter er spredt over, for at forstå, hvor stor afstanden mellem et givet punkt og massecentret er. Den enkleste fremgangsmåde er at beregne standardafvigelsen af ​​sætpunkterne fra massecentret. Hvis afstanden mellem det givne punkt og massecentret er mindre end standardafvigelsen, kan vi konkludere, at sandsynligheden for, at punktet hører til mængden, er stor. Jo længere punktet er, jo mere sandsynligt er det ikke i sættet.

Denne intuitive tilgang kan defineres matematisk i forhold til afstanden mellem et givet punkt og et sæt ved hjælp af formlen . Ved at erstatte denne værdi i normalfordelingen kan du finde sandsynligheden for, at et punkt hører til en mængde.

Ulempen ved denne tilgang er brugen af ​​antagelsen om, at sættets punkter er sfærisk fordelt rundt om massecentret (det vil sige ensartet i alle dimensioner). Hvis fordelingen tydeligvis ikke er sfærisk (for eksempel ellipseformet), vil det være naturligt at tage højde for i medlemssandsynligheden ikke kun afstanden til massemidtpunktet, men også retningen dertil. I retning af ellipsoidens korte akse skal det givne punkt være tættere på massecentret for at tilhøre mængden, mens det i retning af den lange akse kan være længere.

For at skrive dette matematisk kan den ellipsoide, der bedst repræsenterer mængdens sandsynlighedsfordeling, gives af mængdens kovariansmatrix. Mahalanobis-afstanden er simpelthen afstanden mellem det givne punkt og massecentrum divideret med bredden af ​​ellipsoiden i retning af det givne punkt.

Ansøgninger

Mahalanobis-afstanden blev formuleret under arbejdet med at identificere ligheden mellem kranier baseret på målinger i 1927 [3] .

Mahalanobis - afstanden er meget udbredt i klyngeanalyse og klassificeringsmetoder . Det er tæt forbundet med Hotellings T - kvadratfordeling brugt i multivariat statistisk testning og Fishers lineære diskriminantanalyse brugt i overvåget maskinlæring [4] .  

For at bruge Mahalanobis-afstanden i problemet med at bestemme, om et givet punkt hører til en af ​​N klasser, skal du finde kovariansmatricerne for alle klasser. Typisk gøres dette baseret på kendte prøver fra hver klasse. Derefter er det nødvendigt at beregne Mahalanobis-afstanden fra det givne punkt til hver klasse og vælge den klasse, for hvilken denne afstand er minimal. Ved hjælp af en sandsynlighedsfortolkning kan dette påvises at være ækvivalent med klasseudvælgelse ved maksimumsandsynlighedsmetoden .

Mahalanobis-afstanden bruges også til at finde outliers, for eksempel i problemet med at konstruere en lineær regression. Det punkt, der har den største Mahalanobis-afstand til resten af ​​sættet af givne punkter, anses for at have størst betydning, da det har størst indflydelse på krumningen og på regressionsligningens koefficienter. Derudover bruges Mahalanobis-afstanden i problemet med at bestemme multivariate outliers og når der arbejdes med aktive formmodeller .

Noter

  1. Mahalanobis, Prasanta Chandra. Om den generaliserede afstand i statistik  (neopr.)  // Proceedings of the National Institute of Sciences of India. - 1936. - V. 2 , nr. 1 . - S. 49-55 . Arkiveret fra originalen den 29. maj 2013.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) The Mahalanobis distance. Kemometri og intelligente laboratoriesystemer 50:1–18
  3. Mahalanobis, PC (1927). Analyse af raceblanding i Bengalen. J. Proc. Asiatiske Soc. af Bengalen. 23:301-333.
  4. McLachlan, Geoffry J (1992) Diskriminantanalyse og statistisk mønstergenkendelse. Wiley Interscience. ISBN 0471691151 s. 12