Latent Dirichlet placering

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 15. juli 2019; checks kræver 2 redigeringer .

Latent Dirichlet allocation ( LDA , fra engelsk Latent Dirichlet allocation ) er en generativ model, der bruges i maskinlæring og informationssøgning , der giver dig mulighed for at forklare resultaterne af observationer ved hjælp af implicitte grupper, hvilket gør det muligt at identificere årsagerne til ligheden mellem nogle dele af dataene. Hvis observationerne for eksempel er ord samlet i dokumenter, argumenteres det for, at hvert dokument er en blanding af et lille antal emner, og at forekomsten af hvert ord er forbundet med et af dokumentets emner. LDA er en af emnemodelleringsmetoderne og blev først introduceret som en grafmodel.til opdagelse af David Bley, Andrew Ng og Michael Jordan i 2003 [1] .

I LDA kan hvert dokument ses som en samling af forskellige emner. Denne tilgang ligner probabilistisk latent semantisk analyse (pLSA), med den forskel, at det i LDA antages, at fordelingen af emner har Dirichlet-fordelinger som a priori . I praksis er resultatet et mere korrekt sæt emner.

For eksempel kan en model have emner klassificeret som "katte-relateret" og "hunderelateret", et emne med sandsynlighed for at generere forskellige ord såsom "miav", "mælk" eller "killing", der kunne klassificeres som " relateret til hunde". til katte", og ord, der ikke har særlig betydning (f.eks. serviceord ) vil have nogenlunde lige stor sandsynlighed i forskellige emner.

Noter

↑ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I Latent Dirichlet-tildeling // Journal of Machine Learning Research : tidsskrift / Lafferty, John. - 2003. - Januar ( bind 3 , nr. 4-5 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arkiveret fra originalen den 1. maj 2012.

Links

emnemodeller og LDA - implementeringer af LDA for R .
LDA , eksempelLDA -LDA implementering og eksempel for MATLAB .
kode , demo - LDA implementering og tekstparsing eksempel i python

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur