K-nærmeste nabo metode

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 26. september 2019; checks kræver 5 redigeringer .

Algoritmen til nærmeste naboer ( k-NN) er en metrisk algoritme til automatisk objektklassificering eller regression . 

I tilfælde af brug af metoden til klassificering tildeles objektet den klasse, der er den mest almindelige blandt naboerne til dette element, hvis klasser allerede er kendte. I tilfælde af brug af metoden til regression tildeles objektet gennemsnitsværdien af ​​objekterne tættest på det, hvis værdier allerede er kendte.

Algoritmen kan anvendes på prøver med et stort antal attributter (flerdimensionelle). For at gøre dette, før du anvender, skal du definere afstandsfunktionen ; den klassiske version af en sådan funktion er den euklidiske metrik [1] [2] .

Normalisering

Forskellige attributter kan have forskellige intervaller af repræsenterede værdier i prøven (for eksempel er attribut A repræsenteret i intervallet fra 0,1 til 0,5, og attribut B er repræsenteret i intervallet fra 1000 til 5000), derefter er afstandsværdierne kan være meget afhængig af attributter med større intervaller. Derfor er dataene normalt underlagt normalisering. I klyngeanalyse er der to hovedmåder at normalisere data på: minimax normalisering og Z-normalisering.

Minimax normalisering udføres som følger:

,

i dette tilfælde vil alle værdier ligge i området fra 0 til 1; diskrete binære værdier er defineret som 0 og 1.

Z-normalisering:

hvor  er standardafvigelsen ; i dette tilfælde vil de fleste af værdierne falde inden for området .

Fremhævning af væsentlige attributter

Nogle væsentlige attributter kan være vigtigere end andre, så en vis vægt kan tildeles hver attribut (f.eks. beregnet ved hjælp af en testprøve og variansfejloptimering). Således vil hver attribut blive tildelt en vægt , så værdien af ​​attributten falder inden for området (for normaliserede værdier ved brug af minimax-metoden). For eksempel, hvis en attribut tildeles en vægt på 2,7, vil dens normaliserede vægtede værdi ligge i området

Vægtet måde

Med en vægtet metode tages der ikke kun hensyn til antallet af bestemte klasser, der faldt i området, men også deres afstand fra den nye værdi.

For hver klasse bestemmes en nærhedsscore:

,

hvor  er afstanden fra den nye værdi til objektet .

Hvilken klasse har en højere nærhedsværdi, den klasse tildeles det nye objekt.

Ved hjælp af metoden kan du beregne værdien af ​​en af ​​attributterne for det klassificerede objekt baseret på afstandene fra objekterne, der faldt ind i området og de tilsvarende værdier af den samme attribut for objekterne:

,

hvor  er det -th objekt, der faldt ind i området,  er værdien af ​​attributten for det givne objekt ,  er det nye objekt og  er -th attribut for det nye objekt.

Links

  1. S. Madeh Piryonesi, Tamer E. El-Diraby. Rolle af dataanalyse i Infrastructure Asset Management: Overvindelse af datastørrelses- og kvalitetsproblemer  //  Journal of Transportation Engineering, del B: Pavements. – 2020-06. — Bd. 146 , udg. 2 . — S. 04020022 . — ISSN 2573-5438 2573-5438, 2573-5438 . - doi : 10.1061/JPEODX.0000175 . Arkiveret 12. april 2020.
  2. Hastie, Trevor. Elementerne i statistisk læring: data mining, inferens og forudsigelse: med 200 fuldfarveillustrationer . - New York: Springer, 2001. - xvi, 533 sider s. - ISBN 0-387-95284-5 , 978-0-387-95284-0. Arkiveret 9. august 2020 på Wayback Machine