Vektorrumsmodel — i informationssøgning , en repræsentation af en samling dokumenter ved hjælp af vektorer fra et vektorrum, der er fælles for hele samlingen .
Vektormodellen er grundlaget for at løse mange problemer med informationssøgning, såsom: søgning efter et dokument efter anmodning , klassificering af dokumenter , gruppering af dokumenter .
Dokumentet i vektormodellen betragtes som et uordnet sæt af termer. Begreber i informationssøgning er de ord, der udgør teksten, samt tekstelementer som fx 2010 , II-5 eller Tien Shan .
På forskellige måder kan man bestemme vægten af et udtryk i et dokument - "betydningen" af et ord for at identificere en given tekst. For eksempel kan du blot tælle antallet af forekomster af et led i et dokument, den såkaldte hyppighed af et udtryk - jo oftere et ord forekommer i et dokument, jo mere vægt vil det have. Hvis en term ikke forekommer i et dokument, så er dens vægt i det dokument nul.
Alle vilkår, der forekommer i dokumenterne for den samling, der behandles, kan bestilles. Hvis vi nu for et eller andet dokument skriver ud i rækkefølge vægten af alle led, inklusive dem, der ikke er i dette dokument, får vi en vektor, som vil være repræsentationen af dette dokument i vektorrummet. Dimensionen af denne vektor, ligesom dimensionen af rummet, er lig med antallet af forskellige termer i hele samlingen og er den samme for alle dokumenter.
Mere formelt
d j = ( w 1j , w 2j , …, w nj )hvor d j er vektorrepræsentationen af det j -te dokument, w ij er vægten af det i -te led i det j -te dokument, n er det samlede antal forskellige led i alle dokumenter i samlingen.
Ved at have en sådan repræsentation for alle dokumenter, kan man for eksempel finde afstanden mellem punkter i rummet og derved løse problemet med ligheden mellem dokumenter - jo tættere punkterne er, jo mere ens er de tilsvarende dokumenter. I tilfælde af søgning efter et dokument på anmodning, er anmodningen også repræsenteret som en vektor af samme rum - og det er muligt at beregne overensstemmelsen mellem dokumenter til anmodningen.
For en fuldstændig definition af vektormodellen er det nødvendigt at specificere nøjagtigt, hvordan vægten af udtrykket i dokumentet vil blive fundet. Der er flere standard måder at indstille vægtningsfunktionen på:
Cosinus lighed er et mål for lighed mellem to pre-Hilbert rumvektorer og bruges til at måle cosinus af vinklen mellem dem.
Givet to trækvektorer , A og B , kan cosinus-ligheden, cos(θ) , repræsenteres ved hjælp af prikproduktet og normen :
I tilfælde af informationssøgning varierer cosinus-ligheden mellem to dokumenter fra 0 til 1, fordi frekvensen af en term (vægtene tf-idf ) ikke kan være negativ. Vinklen mellem to termfrekvensvektorer må ikke være større end 90°.
En grund til populariteten af cosinus-lighed er, at den er effektiv som et scoringsmål, især for sparsomme vektorer, da kun dimensioner, der ikke er nul, skal tages i betragtning.
Et "blødt" cosinusmål [1] er et "blødt" mål for ligheden mellem to vektorer, det vil sige et mål, der tager højde for lighederne mellem trækpar. Den traditionelle cosinus-lighed betragter træk ved vektormodellen som uafhængige eller fuldstændigt isolerede, mens det "bløde" cosinus-mål betragter lighederne mellem træk i vektormodellen. Dette giver os mulighed for at generalisere ideen om et cosinus-mål såvel som ideen om lighed mellem objekter i et vektorrum ("blød" lighed).
For eksempel inden for naturlig sprogbehandling er ligheden mellem objekter ret intuitiv. Funktioner som ord, N-gram eller syntaktiske N-gram [2] kan være ret ens, selvom de formelt betragtes som forskellige træk i vektormodellen. For eksempel er ordene "leg" og "spil" forskellige og optræder således i forskellige dimensioner i vektormodellen, selvom de naturligvis er semantisk relaterede. I tilfælde af N-gram eller syntaktiske N-gram kan Levenshtein-afstand anvendes (derudover kan Levenshtein-afstand også anvendes på ord).
For at beregne det "bløde" cosinus-mål introduceres en matrix af ligheder mellem funktioner. Det kan beregnes ved hjælp af Levenshtein-afstanden eller andre lighedsmål, såsom de forskellige lighedsmål i Wordnet . Derefter udføres multiplikation ved hjælp af denne matrix.
Givet to N -dimensionelle vektorer a og b, beregnes det bløde cosinusmål som følger:
hvor s ij = lighed(træk i , træk j ) .
Hvis der ikke er lighed mellem træk ( s ii = 1 , s ij = 0 for i ≠ j )), er denne ligning ækvivalent med den konventionelle cosinus-lighedsformel.
Graden af kompleksitet af denne foranstaltning er kvadratisk, hvilket gør den ret anvendelig på problemer i den virkelige verden. Graden af kompleksitet kan også omdannes til en lineær.