Term Dokumentmatrix

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 8. juni 2018; checks kræver 6 redigeringer .

Term-dokument matrix er en matematisk matrix , der beskriver hyppigheden af ​​termer, der forekommer i en samling af dokumenter. I en term-dokumentmatrix svarer rækker til dokumenter i samlingen, og kolonner svarer til termer. Der er forskellige skemaer til at bestemme værdien af ​​hvert matrixelement. En af disse er TF-IDF- ordningen . De er nyttige inden for naturlig sprogbehandling , især i metoder til latent semantisk analyse .

Generelt koncept

Når du opretter en database med termer, der bruges i et sæt dokumenter, dannes termmatricen som en forekomstmatrix, hvis rækker svarer til dokumenterne, og elementerne i rækkerne svarer til tilstedeværelsen af ​​de tilsvarende termer i disse dokumenter . For eksempel, hvis der er to korte dokumenter:

så vil den tilsvarende termmatrix se ud:

til mig synes godt om kan ikke lide data
D1 en en 0 en
D2 en 0 en en

som viser, hvilke udtryk der er indeholdt i visse dokumenter, og hvor mange gange de forekommer. Denne tilgang ligner brugen af ​​incidensmatricen i analysen af ​​sætninger, der danner et korpus af ord [1] .

Noter

  1. Slyusar, V.I. Anvendelse af slutprodukt af matricer i naturlige sprogbehandlingsproblemer. . Neuromuskulære teknologier og udviklingen af ​​NMT&Z-2020: en samling af videnskabelig praksis fra XIX International Scientific Conference "Neuro-temperance-teknologier og udviklingen af ​​NMT&Z-2020". - Kramatorsk: Donbas State Machine Building Academy. -2020. 156 - 162. (2020). Hentet 12. december 2020. Arkiveret fra originalen 25. januar 2021.