TF-IDF (fra engelsk TF -term frequency, IDF -inverse document frequency ) er et statistisk mål, der bruges til at evaluere betydningen af et ord i sammenhæng med et dokument , der er en del af en dokumentsamling eller et korpus . Vægten af et ord er proportional med hyppigheden af dette ords forekomst i dokumentet og omvendt proportional med hyppigheden af ordets forekomst i alle dokumenter i samlingen.
TF-IDF-målet bruges ofte i tekstanalyse- og informationssøgningsopgaver , for eksempel som et af kriterierne for relevansen af et dokument til en søgeforespørgsel, ved beregning af nærhedsmåling af dokumenter under klyngedannelse .
TF ( term frekvens - ordfrekvens) - forholdet mellem antallet af forekomster af et bestemt ord og det samlede antal ord i dokumentet. Således vurderes betydningen af et ord i et enkelt dokument.
,hvor er antallet af forekomster af ordet i dokumentet, og nævneren er det samlede antal ord i dokumentet.
IDF ( omvendt dokumentfrekvens - omvendt dokumentfrekvens) - inverteringen af den frekvens, hvormed et bestemt ord forekommer i samlingens dokumenter. Grundlæggeren af dette koncept er Karen Spark Jones [1] . Regnskab for IDF reducerer vægten af almindeligt anvendte ord. Der er kun én IDF-værdi for hvert unikt ord inden for en given samling af dokumenter.
, [2]hvor
Valget af basen for logaritmen i formlen betyder ikke noget, da ændring af basen ændrer vægten af hvert ord med en konstant faktor, som ikke påvirker vægtforholdet.
Således er TF-IDF-målet produktet af to faktorer:
Høj vægt i TF-IDF vil blive givet til ord med høj frekvens i et bestemt dokument og lav frekvens i andre dokumenter.
Der er forskellige formler baseret på TF-IDF metoden. De adskiller sig i koefficienter, normaliseringer, brug af logaritmiske skalaer. Især Yandex-søgemaskinen brugte normalisering for det hyppigste udtryk i dokumentet i lang tid. .
En af de mere populære formler er BM25- formlen .
Hvis et dokument indeholder 100 ord, og ordet [3] "hare" forekommer 3 gange i det, så vil ordfrekvensen (TF) for ordet "hare" i dokumentet være 0,03 (3/100). Lad os beregne IDF som en decimallogaritme af forholdet mellem antallet af alle dokumenter og antallet af dokumenter, der indeholder ordet "hare". Således, hvis "haren" er indeholdt i 1000 dokumenter ud af 10.000.000 dokumenter, så vil IDF være lig med: log(10.000.000/1000) = 4. For at beregne den endelige ordvægtværdi skal TF ganges med IDF. I dette eksempel vil TF-IDF-vægten for ordet "hare" i det valgte dokument være: 0,03 × 4 = 0,12.
TF-IDF-målet bruges ofte til at repræsentere dokumenter i en samling som numeriske vektorer, der afspejler vigtigheden af at bruge hvert ord fra et sæt ord (antallet af ord i sættet bestemmer dimensionen af vektoren) i hvert dokument. En sådan model kaldes en vektormodel og gør det muligt at sammenligne tekster ved at sammenligne de vektorer, der repræsenterer dem i en eller anden metrik ( Euklidisk afstand , cosinus-mål , Manhattan-afstand , Chebyshev- afstand osv.), det vil sige at udføre klyngeanalyse .