Vektor mønster

Vektorrumsmodel — i informationssøgning , en repræsentation af en samling dokumenter ved hjælp af vektorer fra et vektorrum, der er fælles for hele samlingen .

Vektormodellen er grundlaget for at løse mange problemer med informationssøgning, såsom: søgning efter et dokument efter anmodning , klassificering af dokumenter , gruppering af dokumenter .

Definition

Dokumentet i vektormodellen betragtes som et uordnet sæt af termer. Begreber i informationssøgning er de ord, der udgør teksten, samt tekstelementer som fx 2010 , II-5 eller Tien Shan .

På forskellige måder kan man bestemme vægten af et udtryk i et dokument - "betydningen" af et ord for at identificere en given tekst. For eksempel kan du blot tælle antallet af forekomster af et led i et dokument, den såkaldte hyppighed af et udtryk - jo oftere et ord forekommer i et dokument, jo mere vægt vil det have. Hvis en term ikke forekommer i et dokument, så er dens vægt i det dokument nul.

Alle vilkår, der forekommer i dokumenterne for den samling, der behandles, kan bestilles. Hvis vi nu for et eller andet dokument skriver ud i rækkefølge vægten af alle led, inklusive dem, der ikke er i dette dokument, får vi en vektor, som vil være repræsentationen af dette dokument i vektorrummet. Dimensionen af denne vektor, ligesom dimensionen af rummet, er lig med antallet af forskellige termer i hele samlingen og er den samme for alle dokumenter.

Mere formelt

d j = ( w 1j , w 2j , …, w nj )

hvor d j er vektorrepræsentationen af det j -te dokument, w ij er vægten af det i -te led i det j -te dokument, n er det samlede antal forskellige led i alle dokumenter i samlingen.

Ved at have en sådan repræsentation for alle dokumenter, kan man for eksempel finde afstanden mellem punkter i rummet og derved løse problemet med ligheden mellem dokumenter - jo tættere punkterne er, jo mere ens er de tilsvarende dokumenter. I tilfælde af søgning efter et dokument på anmodning, er anmodningen også repræsenteret som en vektor af samme rum - og det er muligt at beregne overensstemmelsen mellem dokumenter til anmodningen.

Term vægtningsmetoder

For en fuldstændig definition af vektormodellen er det nødvendigt at specificere nøjagtigt, hvordan vægten af udtrykket i dokumentet vil blive fundet. Der er flere standard måder at indstille vægtningsfunktionen på:

boolsk vægt - lig med 1, hvis udtrykket forekommer i dokumentet og 0 ellers;
tf (term frekvens, term frekvens) - vægten bestemmes som funktion af antallet af forekomster af udtrykket i dokumentet;
tf-idf (term frekvens - omvendt dokument frekvens, term frekvens - omvendt dokument frekvens) - vægt er defineret som produktet af en funktion af antallet af forekomster af et udtryk i et dokument og en funktion af det gensidige af antallet af dokumenter i den samling, hvori dette udtryk forekommer.

Cosinus lighed

Cosinus lighed er et mål for lighed mellem to pre-Hilbert rumvektorer og bruges til at måle cosinus af vinklen mellem dem.

Givet to trækvektorer , A og B , kan cosinus-ligheden, cos(θ) , repræsenteres ved hjælp af prikproduktet og normen :

{\tekst{lighed}}=\cos(\theta )={A\cdot B \over \|A\|\|B\|}={\frac {\sum \limits _{{i=1}} ^{{n}}{A_{i}\ gange B_{i}}}{{\sqrt {\sum \limits _{{i=1}}^{{n}}{(A_{i})^ {2))))\ gange {\sqrt {\sum \limits _{{i=1}}^{{n}}{(B_{i})^{2}}}}}}

I tilfælde af informationssøgning varierer cosinus-ligheden mellem to dokumenter fra 0 til 1, fordi frekvensen af en term (vægtene tf-idf ) ikke kan være negativ. Vinklen mellem to termfrekvensvektorer må ikke være større end 90°.

En grund til populariteten af cosinus-lighed er, at den er effektiv som et scoringsmål, især for sparsomme vektorer, da kun dimensioner, der ikke er nul, skal tages i betragtning.

"Blødt" cosinus mål

Et "blødt" cosinusmål [1] er et "blødt" mål for ligheden mellem to vektorer, det vil sige et mål, der tager højde for lighederne mellem trækpar. Den traditionelle cosinus-lighed betragter træk ved vektormodellen som uafhængige eller fuldstændigt isolerede, mens det "bløde" cosinus-mål betragter lighederne mellem træk i vektormodellen. Dette giver os mulighed for at generalisere ideen om et cosinus-mål såvel som ideen om lighed mellem objekter i et vektorrum ("blød" lighed).

For eksempel inden for naturlig sprogbehandling er ligheden mellem objekter ret intuitiv. Funktioner som ord, N-gram eller syntaktiske N-gram [2] kan være ret ens, selvom de formelt betragtes som forskellige træk i vektormodellen. For eksempel er ordene "leg" og "spil" forskellige og optræder således i forskellige dimensioner i vektormodellen, selvom de naturligvis er semantisk relaterede. I tilfælde af N-gram eller syntaktiske N-gram kan Levenshtein-afstand anvendes (derudover kan Levenshtein-afstand også anvendes på ord).

For at beregne det "bløde" cosinus-mål introduceres en matrix af ligheder mellem funktioner. Det kan beregnes ved hjælp af Levenshtein-afstanden eller andre lighedsmål, såsom de forskellige lighedsmål i Wordnet . Derefter udføres multiplikation ved hjælp af denne matrix.

Givet to N -dimensionelle vektorer a og b, beregnes det bløde cosinusmål som følger:

{\begin{aligned}\operatørnavn {soft\_cosine}_{1}(a,b)={\frac {\sum \nolimits _{{i,j}}^{N}s_{{ij}}a_ {i}b_{j}}{{\sqrt {\sum \nolimits _{{i,j}}^{N}s_{{ij}}a_{i}a_{j}}}{\sqrt {\ sum \nogrænser _{{i,j}}^{N}s_{{ij}}b_{i}b_{j}}}}},\end{aligned}}

hvor s ij = lighed(træk i , træk j ) .

Hvis der ikke er lighed mellem træk ( s ii = 1 , s ij = 0 for i ≠ j )), er denne ligning ækvivalent med den konventionelle cosinus-lighedsformel.

Graden af kompleksitet af denne foranstaltning er kvadratisk, hvilket gør den ret anvendelig på problemer i den virkelige verden. Graden af kompleksitet kan også omdannes til en lineær.

Noter

↑ Grigori Sidorov, Alexander Gelbukh, Helena Gómez-Adorno og David Pinto. Soft Similarity og Soft Cosinus Measure: Similarity of Features in Vector Space Model Arkiveret 13. oktober 2014 på Wayback Machine . Computacion y Systemas, Vol. 18, nr. 3, s. 491-504, 2014, DOI: 10.13053/CyS-18-3-2043 Arkiveret 13. oktober 2014 på Wayback Machine .
↑ Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh og Liliana Chanona-Hernández. Syntaktisk afhængighedsbaseret N-gram som klassifikationsfunktioner Arkiveret 3. juli 2017 på Wayback Machine . LNAI 7630, s. 1-11, 2012, ISBN 978-3-642-37798-3 Arkiveret 3. juli 2017 på Wayback Machine .

Litteratur

Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze En introduktion til informationssøgning Arkiveret 9. december 2012 på Wayback Machine Draft. online udgave. Cambridge University Press. - 2009. - 544 s.
Daniel Jurafsky, James H. Martin Tale- og sprogbehandling. En introduktion til naturlig sprogbehandling, beregningslingvistik og talegenkendelse. anden version. Pearson Education International. - 2009. - 1024 s.

Se også

Apache Lucene er en softwareimplementering til informationssøgning baseret på en vektormodel.