Uniform Manifold Approximation and Projection (UMAP) er en maskinlæringsalgoritme , der udfører ikke-lineær dimensionalitetsreduktion [1] .
UMAP blev skabt af Leland McInnes sammen med sine kolleger på Tutt Institute . Målet var at have en algoritme svarende til t-SNE [2] men med et stærkere matematisk fundament [3] .
Når dimensionen reduceres, udfører UMAP først en vægtet grafkonstruktion , der kun forbinder kanter med de objekter, der er nærmeste naboer. Sættet af kanter af en graf er et fuzzy sæt med en medlemskabsfunktion , det er defineret som sandsynligheden for eksistensen af en kant mellem to toppunkter. Derefter opretter algoritmen en graf i lavdimensionelt rum og tilnærmer den til den oprindelige, og minimerer summen af Kullback-Leibler divergenser [a] for hver kant fra mængderne [4] [5] .
UMAP-algoritmen bruges inden for forskellige videnskabsområder: bioinformatik , materialevidenskab , maskinlæring [6] .
Algoritmen modtager et udvalg af objekter til behandling: . UMAP beregner afstanden mellem objekter i henhold til en given metrik og bestemmer for hvert objekt en liste over dets nærmeste naboer: .
Derudover beregnes for hvert objekt afstanden til dens nærmeste nabo: . Samt værdien givet af ligningen:
.Dernæst bygger algoritmen en vægtet rettet graf , hvor kanter forbinder hvert objekt med dets naboer. Vægten af en kant fra en genstand til dens nabo beregnes som følger:
Den tidligere opnåede normaliserer summen af vægtene for hvert objekt til et givet tal .
Da UMAP bygger en vægtet rettet graf, kan der eksistere to kanter med forskellig vægt mellem hjørner. Vægten af en kant fortolkes som sandsynligheden for eksistensen af en given kant fra et objekt til et andet. Baseret på dette kombineres kanterne mellem to hjørner til én med en vægt svarende til sandsynligheden for eksistensen af mindst én kant:
.Algoritmen opnår således en vægtet urettet graf [7] .
Sættet af kanter af en sådan graf er et fuzzy sæt af Bernoulli tilfældige variabler . Algoritmen opretter en ny graf i et lavdimensionelt rum og tilnærmer sættet af dens kanter til den oprindelige. For at gøre dette minimerer den summen af Kullback-Leibler afvigelser for hver kant fra de originale og nye fuzzy sæt:
[8] , er medlemskabsfunktionen af et fuzzy sæt kanter i et højdimensionelt rum, er medlemskabsfunktionen af et fuzzy sæt kanter i et lavdimensionelt rum.UMAP løser minimeringsproblemet ved hjælp af stokastisk gradientnedstigning . Det resulterende sæt kanter bestemmer den nye placering af objekter og følgelig den lavdimensionelle kortlægning af det oprindelige rum.