Pachinko placering

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 12. februar 2020; verifikation kræver 1 redigering .

Pachinko- allokering ( PAM ) er en  emnemodelleringsmetode , der bruges i maskinlæring og naturlig sprogbehandling , der giver dig mulighed for at opdage en skjult tematisk struktur i en samling af dokumenter [1] . Algoritmen adskiller sig fra tidligere metoder (såsom LDA ) ved, at den modellerer korrelationer mellem emner ud over dem for de emnespecificerende ord. PAM er LDA overlegen med hensyn til fleksibilitet og udtrykskraft [2] . For første gang blev metoden beskrevet, implementeret og anvendt til natursproget tekstbehandling, men den kan også bruges på andre områder, for eksempel til bioinformatikopgaver . Det har fået sit navn fra pachinko spilleautomater, populære i Japan , hvor et spil, der ligner pinballet Galton-bræt, er implementeret .

Historie

Pachinko-placering blev først beskrevet af Li Wei og Andrew McCallum i 2005 [3] . I 2007 generaliserede Lee, McCallum og David Mimno ideen til den hierarkiske placering af pachinko [4] . Samme år foreslog McCallum og hans kolleger at indføre en ikke-parametrisk Bayesiansk fordeling i PAM baseret på en modifikation af den hierarkiske Dirichlet-proces (HDP) [2] . Algoritmen er implementeret i open source Java -biblioteket Mallet .

Model

For at skildre den genererende model er der konstrueret en acyklisk digraf, hvor hjørnerne er ord og emner, og ord kun kan være blade. Så er "tre-niveau"-modellen LDA , og "to-niveau"-modellen er Dirichlet-multinomialfordelingen[ angiv ] .

Se også

Noter

  1. Blei, David Emnemodellering (ikke tilgængeligt link) . Hentet 4. oktober 2012. Arkiveret fra originalen 2. oktober 2012. 
  2. 12 Li , Wei; Blei, David; McCallum, Andrew. Ikke-parametrisk Bayes Pachinko-allokering  (neopr.) . - 2007. Arkiveret 3. oktober 2012.
  3. Li, Wei; McCallum, Andrew. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations  //  Proceedings of the 23rd International Conference on Machine Learning : journal. – 2006.
  4. Mimno, David; Li, Wei; McCallum, Andrew. Blandinger af hierarkiske emner med Pachinko-allokering  //  Proceedings of the 24th International Conference on Machine Learning : journal. - 2007. Arkiveret den 20. juni 2013.
  5. Hofmann, Thomas. Probabilistic Latent Semantic Indexing  (neopr.)  // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. - 1999. Arkiveret 14. december 2010.
  6. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation  (engelsk)  // Journal of Machine Learning Research  : tidsskrift. - 2003. - Januar ( bind 3 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arkiveret fra originalen den 1. maj 2012.