TF-IDF

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 30. januar 2022; verifikation kræver 1 redigering .

TF-IDF (fra engelsk TF -term frequency, IDF -inverse document frequency ) er et statistisk mål, der bruges til at evaluere betydningen af et ord i sammenhæng med et dokument , der er en del af en dokumentsamling eller et korpus . Vægten af et ord er proportional med hyppigheden af dette ords forekomst i dokumentet og omvendt proportional med hyppigheden af ordets forekomst i alle dokumenter i samlingen.

TF-IDF-målet bruges ofte i tekstanalyse- og informationssøgningsopgaver , for eksempel som et af kriterierne for relevansen af et dokument til en søgeforespørgsel, ved beregning af nærhedsmåling af dokumenter under klyngedannelse .

Formlens struktur

TF ( term frekvens - ordfrekvens) - forholdet mellem antallet af forekomster af et bestemt ord og det samlede antal ord i dokumentet. Således vurderes betydningen af et ord i et enkelt dokument. $t_{{i}}$

{\displaystyle \mathrm {tf} (t,d)={\frac {n_{t)){\sum _{k}n_{k))))

hvor er antallet af forekomster af ordet i dokumentet, og nævneren er det samlede antal ord i dokumentet. $n_t$ $t$

IDF ( omvendt dokumentfrekvens - omvendt dokumentfrekvens) - inverteringen af den frekvens, hvormed et bestemt ord forekommer i samlingens dokumenter. Grundlæggeren af dette koncept er Karen Spark Jones [1] . Regnskab for IDF reducerer vægten af almindeligt anvendte ord. Der er kun én IDF-værdi for hvert unikt ord inden for en given samling af dokumenter.

\mathrm {idf} (t,D)=\log {\frac {|D|}{|\{\,d_{i}\in D\mid t\in d_{i}\,\} |}}

, [2]

hvor

|D| — antal dokumenter i samlingen;
$|\{\,d_{i}\i D\midt t\in d_{i}\,\}|$ er antallet af dokumenter fra samlingen , hvori forekommer (hvornår ). $D$ $t$ $n_{t}\neq 0$

Valget af basen for logaritmen i formlen betyder ikke noget, da ændring af basen ændrer vægten af hvert ord med en konstant faktor, som ikke påvirker vægtforholdet.

Således er TF-IDF-målet produktet af to faktorer:

\operatørnavn {tf-idf}(t,d,D)=\operatørnavn {tf}(t,d)\ gange \operatørnavn {idf}(t,D)

Høj vægt i TF-IDF vil blive givet til ord med høj frekvens i et bestemt dokument og lav frekvens i andre dokumenter.

Numerisk applikation

Der er forskellige formler baseret på TF-IDF metoden. De adskiller sig i koefficienter, normaliseringer, brug af logaritmiske skalaer. Især Yandex-søgemaskinen brugte normalisering for det hyppigste udtryk i dokumentet i lang tid. .

En af de mere populære formler er BM25- formlen .

Eksempel

Hvis et dokument indeholder 100 ord, og ordet [3] "hare" forekommer 3 gange i det, så vil ordfrekvensen (TF) for ordet "hare" i dokumentet være 0,03 (3/100). Lad os beregne IDF som en decimallogaritme af forholdet mellem antallet af alle dokumenter og antallet af dokumenter, der indeholder ordet "hare". Således, hvis "haren" er indeholdt i 1000 dokumenter ud af 10.000.000 dokumenter, så vil IDF være lig med: log(10.000.000/1000) = 4. For at beregne den endelige ordvægtværdi skal TF ganges med IDF. I dette eksempel vil TF-IDF-vægten for ordet "hare" i det valgte dokument være: 0,03 × 4 = 0,12.

Applikation i vektorrumsmodellen

TF-IDF-målet bruges ofte til at repræsentere dokumenter i en samling som numeriske vektorer, der afspejler vigtigheden af at bruge hvert ord fra et sæt ord (antallet af ord i sættet bestemmer dimensionen af vektoren) i hvert dokument. En sådan model kaldes en vektormodel og gør det muligt at sammenligne tekster ved at sammenligne de vektorer, der repræsenterer dem i en eller anden metrik ( Euklidisk afstand , cosinus-mål , Manhattan-afstand , Chebyshev- afstand osv.), det vil sige at udføre klyngeanalyse .

Se også

Noter

↑ Jones, 2004 .
↑ Nogle versioner af formlen bruger ikke logaritmer.
↑ Normalt før analysen af dokumentet bringes ordene til normal form af den morfologiske analysator.

Litteratur

Jones KS En statistisk fortolkning af term specificitet og dens anvendelse i genfinding (engelsk) // Journal of Documentation : journal. - MCB University: MCB University Press, 2004. - Vol. 60 , nr. 5 . - S. 493-502 . — ISSN 0022-0418 .
Salton J.Dynamiske bibliotekssøgningssystemer. M .: - Mir, 1979.
Salton, G. og McGill, MJ 1983 Introduktion til moderne informationssøgning . McGraw-Hill, ISBN 0-07-054484-0 .
Salton, G., Fox, EA og Wu, H. 1983 Extended Boolean information retrieval. commun. ACM 26, 1022-1036.
Salton, G. og Buckley, C. 1988 Term-vægtning tilgange i automatisk tekstgenfinding. Information Processing & Management 24(5): 513-523
Fedorovsky A.N., Kostin M.Yu. Mail.ru på ROMIP -2005 // i lør. "Proceedings of ROMIP'2005" Proceedings fra det tredje russiske seminar om evaluering af metoder til informationssøgning. Ed. I. S. Nekrestyanova, s. 106-124, St. Petersburg: Research Institute of Chemistry, St. Petersburg State University, 2005.