Pachinko placering

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 12. februar 2020; verifikation kræver 1 redigering .

Pachinko- allokering ( PAM ) er en emnemodelleringsmetode , der bruges i maskinlæring og naturlig sprogbehandling , der giver dig mulighed for at opdage en skjult tematisk struktur i en samling af dokumenter [1] . Algoritmen adskiller sig fra tidligere metoder (såsom LDA ) ved, at den modellerer korrelationer mellem emner ud over dem for de emnespecificerende ord. PAM er LDA overlegen med hensyn til fleksibilitet og udtrykskraft [2] . For første gang blev metoden beskrevet, implementeret og anvendt til natursproget tekstbehandling, men den kan også bruges på andre områder, for eksempel til bioinformatikopgaver . Det har fået sit navn fra pachinko spilleautomater, populære i Japan , hvor et spil, der ligner pinball på et Galton-bræt, er implementeret .

Historie

Pachinko-placering blev først beskrevet af Li Wei og Andrew McCallum i 2005 [3] . I 2007 generaliserede Lee, McCallum og David Mimno ideen til den hierarkiske placering af pachinko [4] . Samme år foreslog McCallum og hans kolleger at indføre en ikke-parametrisk Bayesiansk fordeling i PAM baseret på en modifikation af den hierarkiske Dirichlet-proces (HDP) [2] . Algoritmen er implementeret i open source Java -biblioteket Mallet .

Model

For at skildre den genererende model er der konstrueret en acyklisk digraf, hvor hjørnerne er ord og emner, og ord kun kan være blade. Så er "tre-niveau"-modellen LDA , og "to-niveau"-modellen er Dirichlet-multinomialfordelingen[ angiv ] .

Se også

Probabilistisk latent semantisk indeksering (PLSI) er en emnemodel foreslået af Thomas Hoffman i 1999 [5] .
Latent Dirichlet-placering er en generalisering af pLSI foreslået af David Bley, Andrew Ng og Michael Jordan i 2002 [6] .

Noter

↑ Blei, David Emnemodellering (ikke tilgængeligt link) . Hentet 4. oktober 2012. Arkiveret fra originalen 2. oktober 2012. (ubestemt)
↑ 12 Li , Wei; Blei, David; McCallum, Andrew. Ikke-parametrisk Bayes Pachinko-allokering (neopr.) . - 2007. Arkiveret 3. oktober 2012.
↑ Li, Wei; McCallum, Andrew. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations // Proceedings of the 23rd International Conference on Machine Learning : journal. – 2006.
↑ Mimno, David; Li, Wei; McCallum, Andrew. Blandinger af hierarkiske emner med Pachinko-allokering // Proceedings of the 24th International Conference on Machine Learning : journal. - 2007. Arkiveret den 20. juni 2013.
↑ Hofmann, Thomas. Probabilistic Latent Semantic Indexing (neopr.) // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. - 1999. Arkiveret 14. december 2010.
↑ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation (engelsk) // Journal of Machine Learning Research : tidsskrift. - 2003. - Januar ( bind 3 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arkiveret fra originalen den 1. maj 2012.

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur