Probabilistisk latent semantisk analyse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 26. juni 2016; checks kræver 7 redigeringer .

Probabilistisk latent semantisk analyse (PLSA) , også kendt som probabilistisk latent semantisk indeksering ( PLSI , især inden for informationssøgning), er en statistisk metode til at analysere sammenhængen mellem to typer data . Denne metode er en videreudvikling af latent semantisk analyse . VLSA anvendes på områder som informationssøgning , naturlig sprogbehandling , maskinlæring og relaterede områder. Denne metode blev første gang udgivet i 1999 af Thomas Hofmann [1] .

Sammenlignet med konventionel latent semantisk analyse , som er baseret på lineær algebra og er en måde at reducere dimensionaliteten af en matrix (normalt ved hjælp af entalsværdidekomponering af en diagonal matrix ), er probabilistisk latent semantisk analyse baseret på blandet dekomponering, som igen stammer fra fra den skjulte klassemodel. Denne tilgang er mere grundlæggende, fordi den har et solidt grundlag inden for statistik.

Varianter af pLSA

Hierarkiske udvidelser:
- Asymmetrisk: MASHA ("Multinomial ASymmetrisk hierarkisk analyse", "polynomiel asymmetrisk hierarkisk analyse") [2]
- Symmetrisk: HPLSA ("Hierarchical Probabilistic Latent Semantic Analysis", "Hierarchical probabilistic latent semantic analysis"), [3]

Generative modeller: Designet til at adressere en almindeligt kritiseret mangel ved pLSA, nemlig at det er en forkert generativ model for nye dokumenter.
- Skjult Dirichlet-distribution - tilføjer en Dirichlet-distribution som en forudgående fordeling af emner på tværs af dokumenter

Højere ordensdata: Selvom det sjældent diskuteres i den videnskabelige litteratur, er pLSA naturligvis anvendelig til data af højere orden (tre-niveauer og derover), hvilket betyder, at det kan modellere den kombinerede adfærd af tre eller flere variabler. I den symmetriske formulering ovenfor, gøres dette ved blot at tilføje en betinget sandsynlighedsfordeling for disse yderligere variable. Dette er en probabilistisk analog af ikke-negativ tensorfaktorisering.

Noter

↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing Arkiveret 14. december 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
↑ Alexei Vinokourov og Mark Girolami, A Probabilistic Framework for the Hierarkic Organization and Classification of Document Collections , in Information Processing and Management , 2002
↑ Eric Gaussier, Cyril Goutte, Kris Popat og Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Archived March 13, 2006 at the Wayback Machine , i "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Research Colloquium on IR " (ECIR-02)", 2002

Probabilistisk latent semantisk analyse

Varianter af pLSA

Noter

Se også