Latent Dirichlet allocation ( LDA , fra engelsk Latent Dirichlet allocation ) er en generativ model, der bruges i maskinlæring og informationssøgning , der giver dig mulighed for at forklare resultaterne af observationer ved hjælp af implicitte grupper, hvilket gør det muligt at identificere årsagerne til ligheden mellem nogle dele af dataene. Hvis observationerne for eksempel er ord samlet i dokumenter, argumenteres det for, at hvert dokument er en blanding af et lille antal emner, og at forekomsten af hvert ord er forbundet med et af dokumentets emner. LDA er en af emnemodelleringsmetoderne og blev først introduceret som en grafmodel.til opdagelse af David Bley, Andrew Ng og Michael Jordan i 2003 [1] .
I LDA kan hvert dokument ses som en samling af forskellige emner. Denne tilgang ligner probabilistisk latent semantisk analyse (pLSA), med den forskel, at det i LDA antages, at fordelingen af emner har Dirichlet-fordelinger som a priori . I praksis er resultatet et mere korrekt sæt emner.
For eksempel kan en model have emner klassificeret som "katte-relateret" og "hunderelateret", et emne med sandsynlighed for at generere forskellige ord såsom "miav", "mælk" eller "killing", der kunne klassificeres som " relateret til hunde". til katte", og ord, der ikke har særlig betydning (f.eks. serviceord ) vil have nogenlunde lige stor sandsynlighed i forskellige emner.
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |