Term Dokumentmatrix

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 8. juni 2018; checks kræver 6 redigeringer .

Term-dokument matrix er en matematisk matrix , der beskriver hyppigheden af termer, der forekommer i en samling af dokumenter. I en term-dokumentmatrix svarer rækker til dokumenter i samlingen, og kolonner svarer til termer. Der er forskellige skemaer til at bestemme værdien af hvert matrixelement. En af disse er TF-IDF- ordningen . De er nyttige inden for naturlig sprogbehandling , især i metoder til latent semantisk analyse .

Generelt koncept

Når du opretter en database med termer, der bruges i et sæt dokumenter, dannes termmatricen som en forekomstmatrix, hvis rækker svarer til dokumenterne, og elementerne i rækkerne svarer til tilstedeværelsen af de tilsvarende termer i disse dokumenter . For eksempel, hvis der er to korte dokumenter:

D1 = "Jeg kan godt lide dataene"
D2 = "Jeg kan ikke lide dataene",

så vil den tilsvarende termmatrix se ud:

	til mig	synes godt om	kan ikke lide	data
D1	en	en	0	en
D2	en	0	en	en

som viser, hvilke udtryk der er indeholdt i visse dokumenter, og hvor mange gange de forekommer. Denne tilgang ligner brugen af incidensmatricen i analysen af sætninger, der danner et korpus af ord [1] .

Noter

↑ Slyusar, V.I. Anvendelse af slutprodukt af matricer i naturlige sprogbehandlingsproblemer. . Neuromuskulære teknologier og udviklingen af NMT&Z-2020: en samling af videnskabelig praksis fra XIX International Scientific Conference "Neuro-temperance-teknologier og udviklingen af NMT&Z-2020". - Kramatorsk: Donbas State Machine Building Academy. -2020. 156 - 162. (2020). Hentet 12. december 2020. Arkiveret fra originalen 25. januar 2021. (ubestemt)

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur