Latent Dirichlet placering

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 15. juli 2019; checks kræver 2 redigeringer .

Latent Dirichlet allocation ( LDA , fra engelsk  Latent Dirichlet allocation ) er en generativ model, der bruges i maskinlæring og informationssøgning , der giver dig mulighed for at forklare resultaterne af observationer ved hjælp af implicitte grupper, hvilket gør det muligt at identificere årsagerne til ligheden mellem nogle dele af dataene. Hvis observationerne for eksempel er ord samlet i dokumenter, argumenteres det for, at hvert dokument er en blanding af et lille antal emner, og at forekomsten af ​​hvert ord er forbundet med et af dokumentets emner. LDA er en af ​​emnemodelleringsmetoderne og blev først introduceret som en grafmodel.til opdagelse af David Bley, Andrew Ng og Michael Jordan i 2003 [1] .

I LDA kan hvert dokument ses som en samling af forskellige emner. Denne tilgang ligner probabilistisk latent semantisk analyse (pLSA), med den forskel, at det i LDA antages, at fordelingen af ​​emner har Dirichlet-fordelinger som a priori . I praksis er resultatet et mere korrekt sæt emner.

For eksempel kan en model have emner klassificeret som "katte-relateret" og "hunderelateret", et emne med sandsynlighed for at generere forskellige ord såsom "miav", "mælk" eller "killing", der kunne klassificeres som " relateret til hunde". til katte", og ord, der ikke har særlig betydning (f.eks. serviceord ) vil have nogenlunde lige stor sandsynlighed i forskellige emner.

Noter

  1. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I Latent Dirichlet-tildeling  //  Journal of Machine Learning Research  : tidsskrift / Lafferty, John. - 2003. - Januar ( bind 3 , nr. 4-5 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arkiveret fra originalen den 1. maj 2012.

Links