Probabilistisk latent semantisk analyse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 26. juni 2016; checks kræver 7 redigeringer .

Probabilistisk latent semantisk analyse (PLSA) , også kendt som probabilistisk latent semantisk indeksering ( PLSI , især inden for informationssøgning), er en statistisk metode til at analysere sammenhængen mellem to typer data . Denne metode er en videreudvikling af latent semantisk analyse . VLSA anvendes på områder som informationssøgning , naturlig sprogbehandling , maskinlæring og relaterede områder. Denne metode blev første gang udgivet i 1999 af Thomas Hofmann [1] .

Sammenlignet med konventionel latent semantisk analyse , som er baseret på lineær algebra og er en måde at reducere dimensionaliteten af ​​en matrix (normalt ved hjælp af entalsværdidekomponering af en diagonal matrix ), er probabilistisk latent semantisk analyse baseret på blandet dekomponering, som igen stammer fra fra den skjulte klassemodel. Denne tilgang er mere grundlæggende, fordi den har et solidt grundlag inden for statistik.

Varianter af pLSA

Noter

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing Arkiveret 14. december 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov og Mark Girolami, A Probabilistic Framework for the Hierarkic Organization and Classification of Document Collections , in Information Processing and Management , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat og Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Archived March 13, 2006 at the Wayback Machine , i "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Research Colloquium on IR " (ECIR-02)", 2002

Se også