Term-dokument matrix er en matematisk matrix , der beskriver hyppigheden af termer, der forekommer i en samling af dokumenter. I en term-dokumentmatrix svarer rækker til dokumenter i samlingen, og kolonner svarer til termer. Der er forskellige skemaer til at bestemme værdien af hvert matrixelement. En af disse er TF-IDF- ordningen . De er nyttige inden for naturlig sprogbehandling , især i metoder til latent semantisk analyse .
Når du opretter en database med termer, der bruges i et sæt dokumenter, dannes termmatricen som en forekomstmatrix, hvis rækker svarer til dokumenterne, og elementerne i rækkerne svarer til tilstedeværelsen af de tilsvarende termer i disse dokumenter . For eksempel, hvis der er to korte dokumenter:
så vil den tilsvarende termmatrix se ud:
til mig | synes godt om | kan ikke lide | data | |
---|---|---|---|---|
D1 | en | en | 0 | en |
D2 | en | 0 | en | en |
som viser, hvilke udtryk der er indeholdt i visse dokumenter, og hvor mange gange de forekommer. Denne tilgang ligner brugen af incidensmatricen i analysen af sætninger, der danner et korpus af ord [1] .
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |