TF-IDF

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 30. januar 2022; verifikation kræver 1 redigering .

TF-IDF (fra engelsk  TF -term frequency, IDF -inverse document frequency ) er et statistisk mål, der bruges til at evaluere betydningen af ​​et ord i sammenhæng med et dokument , der er en del af en dokumentsamling eller et korpus . Vægten af ​​et ord er proportional med hyppigheden af ​​dette ords forekomst i dokumentet og omvendt proportional med hyppigheden af ​​ordets forekomst i alle dokumenter i samlingen.

TF-IDF-målet bruges ofte i tekstanalyse- og informationssøgningsopgaver , for eksempel som et af kriterierne for relevansen af ​​et dokument til en søgeforespørgsel, ved beregning af nærhedsmåling af dokumenter under klyngedannelse .

Formlens struktur

TF ( term frekvens  - ordfrekvens) - forholdet mellem antallet af forekomster af et bestemt ord og det samlede antal ord i dokumentet. Således vurderes betydningen af ​​et ord i et enkelt dokument.

,

hvor er antallet af forekomster af ordet i dokumentet, og nævneren er det samlede antal ord i dokumentet.

IDF ( omvendt dokumentfrekvens  - omvendt dokumentfrekvens) - inverteringen af ​​den frekvens, hvormed et bestemt ord forekommer i samlingens dokumenter. Grundlæggeren af ​​dette koncept er Karen Spark Jones [1] . Regnskab for IDF reducerer vægten af ​​almindeligt anvendte ord. Der er kun én IDF-værdi for hvert unikt ord inden for en given samling af dokumenter.

, [2]

hvor

Valget af basen for logaritmen i formlen betyder ikke noget, da ændring af basen ændrer vægten af ​​hvert ord med en konstant faktor, som ikke påvirker vægtforholdet.

Således er TF-IDF-målet produktet af to faktorer:

Høj vægt i TF-IDF vil blive givet til ord med høj frekvens i et bestemt dokument og lav frekvens i andre dokumenter.

Numerisk applikation

Der er forskellige formler baseret på TF-IDF metoden. De adskiller sig i koefficienter, normaliseringer, brug af logaritmiske skalaer. Især Yandex-søgemaskinen brugte normalisering for det hyppigste udtryk i dokumentet i lang tid. .

En af de mere populære formler er BM25- formlen .

Eksempel

Hvis et dokument indeholder 100 ord, og ordet [3] "hare" forekommer 3 gange i det, så vil ordfrekvensen (TF) for ordet "hare" i dokumentet være 0,03 (3/100). Lad os beregne IDF som en decimallogaritme af forholdet mellem antallet af alle dokumenter og antallet af dokumenter, der indeholder ordet "hare". Således, hvis "haren" er indeholdt i 1000 dokumenter ud af 10.000.000 dokumenter, så vil IDF være lig med: log(10.000.000/1000) = 4. For at beregne den endelige ordvægtværdi skal TF ganges med IDF. I dette eksempel vil TF-IDF-vægten for ordet "hare" i det valgte dokument være: 0,03 × 4 = 0,12.

Applikation i vektorrumsmodellen

TF-IDF-målet bruges ofte til at repræsentere dokumenter i en samling som numeriske vektorer, der afspejler vigtigheden af ​​at bruge hvert ord fra et sæt ord (antallet af ord i sættet bestemmer dimensionen af ​​vektoren) i hvert dokument. En sådan model kaldes en vektormodel og gør det muligt at sammenligne tekster ved at sammenligne de vektorer, der repræsenterer dem i en eller anden metrik ( Euklidisk afstand , cosinus-mål , Manhattan-afstand , Chebyshev- afstand osv.), det vil sige at udføre klyngeanalyse .

Se også

Noter

  1. Jones, 2004 .
  2. Nogle versioner af formlen bruger ikke logaritmer.
  3. Normalt før analysen af ​​dokumentet bringes ordene til normal form af den morfologiske analysator.

Litteratur

Links