Vektor mønster

Vektorrumsmodel — i informationssøgning , en repræsentation af en samling dokumenter ved hjælp af vektorer fra et vektorrum, der er fælles for hele samlingen . 

Vektormodellen er grundlaget for at løse mange problemer med informationssøgning, såsom: søgning efter et dokument efter anmodning , klassificering af dokumenter , gruppering af dokumenter .

Definition

Dokumentet i vektormodellen betragtes som et uordnet sæt af termer. Begreber i informationssøgning er de ord, der udgør teksten, samt tekstelementer som fx 2010 , II-5 eller Tien Shan .

På forskellige måder kan man bestemme vægten af ​​et udtryk i et dokument - "betydningen" af et ord for at identificere en given tekst. For eksempel kan du blot tælle antallet af forekomster af et led i et dokument, den såkaldte hyppighed af et udtryk - jo oftere et ord forekommer i et dokument, jo mere vægt vil det have. Hvis en term ikke forekommer i et dokument, så er dens vægt i det dokument nul.

Alle vilkår, der forekommer i dokumenterne for den samling, der behandles, kan bestilles. Hvis vi nu for et eller andet dokument skriver ud i rækkefølge vægten af ​​alle led, inklusive dem, der ikke er i dette dokument, får vi en vektor, som vil være repræsentationen af ​​dette dokument i vektorrummet. Dimensionen af ​​denne vektor, ligesom dimensionen af ​​rummet, er lig med antallet af forskellige termer i hele samlingen og er den samme for alle dokumenter.

Mere formelt

d j = ( w 1j , w 2j , …, w nj )

hvor d j  er vektorrepræsentationen af ​​det j -te dokument, w ij  er vægten af ​​det i -te led i det j -te dokument, n  er det samlede antal forskellige led i alle dokumenter i samlingen.

Ved at have en sådan repræsentation for alle dokumenter, kan man for eksempel finde afstanden mellem punkter i rummet og derved løse problemet med ligheden mellem dokumenter - jo tættere punkterne er, jo mere ens er de tilsvarende dokumenter. I tilfælde af søgning efter et dokument på anmodning, er anmodningen også repræsenteret som en vektor af samme rum - og det er muligt at beregne overensstemmelsen mellem dokumenter til anmodningen.

Term vægtningsmetoder

For en fuldstændig definition af vektormodellen er det nødvendigt at specificere nøjagtigt, hvordan vægten af ​​udtrykket i dokumentet vil blive fundet. Der er flere standard måder at indstille vægtningsfunktionen på:

Cosinus lighed

Cosinus lighed  er et mål for lighed mellem to pre-Hilbert rumvektorer og bruges til at måle cosinus af vinklen mellem dem.

Givet to trækvektorer , A og B , kan cosinus-ligheden, cos(θ) , repræsenteres ved hjælp af prikproduktet og normen :

I tilfælde af informationssøgning varierer cosinus-ligheden mellem to dokumenter fra 0 til 1, fordi frekvensen af ​​en term (vægtene tf-idf ) ikke kan være negativ. Vinklen mellem to termfrekvensvektorer må ikke være større end 90°.

En grund til populariteten af ​​cosinus-lighed er, at den er effektiv som et scoringsmål, især for sparsomme vektorer, da kun dimensioner, der ikke er nul, skal tages i betragtning.

"Blødt" cosinus mål

Et "blødt" cosinusmål [1]  er et "blødt" mål for ligheden mellem to vektorer, det vil sige et mål, der tager højde for lighederne mellem trækpar. Den traditionelle cosinus-lighed betragter træk ved vektormodellen som uafhængige eller fuldstændigt isolerede, mens det "bløde" cosinus-mål betragter lighederne mellem træk i vektormodellen. Dette giver os mulighed for at generalisere ideen om et cosinus-mål såvel som ideen om lighed mellem objekter i et vektorrum ("blød" lighed).

For eksempel inden for naturlig sprogbehandling er ligheden mellem objekter ret intuitiv. Funktioner som ord, N-gram eller syntaktiske N-gram [2] kan være ret ens, selvom de formelt betragtes som forskellige træk i vektormodellen. For eksempel er ordene "leg" og "spil" forskellige og optræder således i forskellige dimensioner i vektormodellen, selvom de naturligvis er semantisk relaterede. I tilfælde af N-gram eller syntaktiske N-gram kan Levenshtein-afstand anvendes (derudover kan Levenshtein-afstand også anvendes på ord).

For at beregne det "bløde" cosinus-mål introduceres en matrix af ligheder mellem funktioner. Det kan beregnes ved hjælp af Levenshtein-afstanden eller andre lighedsmål, såsom de forskellige lighedsmål i Wordnet . Derefter udføres multiplikation ved hjælp af denne matrix.

Givet to N -dimensionelle vektorer a og b, beregnes det bløde cosinusmål som følger:

hvor s ij = lighed(træk i , træk j ) .

Hvis der ikke er lighed mellem træk ( s ii = 1 , s ij = 0 for ij )), er denne ligning ækvivalent med den konventionelle cosinus-lighedsformel.

Graden af ​​kompleksitet af denne foranstaltning er kvadratisk, hvilket gør den ret anvendelig på problemer i den virkelige verden. Graden af ​​kompleksitet kan også omdannes til en lineær.

Noter

  1. Grigori Sidorov, Alexander Gelbukh, Helena Gómez-Adorno og David Pinto. Soft Similarity og Soft Cosinus Measure: Similarity of Features in Vector Space Model Arkiveret 13. oktober 2014 på Wayback Machine . Computacion y Systemas, Vol. 18, nr. 3, s. 491-504, 2014, DOI: 10.13053/CyS-18-3-2043 Arkiveret 13. oktober 2014 på Wayback Machine .
  2. Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh og Liliana Chanona-Hernández. Syntaktisk afhængighedsbaseret N-gram som klassifikationsfunktioner Arkiveret 3. juli 2017 på Wayback Machine . LNAI 7630, s. 1-11, 2012, ISBN 978-3-642-37798-3 Arkiveret 3. juli 2017 på Wayback Machine .

Litteratur

Se også