Pachinko- allokering ( PAM ) er en emnemodelleringsmetode , der bruges i maskinlæring og naturlig sprogbehandling , der giver dig mulighed for at opdage en skjult tematisk struktur i en samling af dokumenter [1] . Algoritmen adskiller sig fra tidligere metoder (såsom LDA ) ved, at den modellerer korrelationer mellem emner ud over dem for de emnespecificerende ord. PAM er LDA overlegen med hensyn til fleksibilitet og udtrykskraft [2] . For første gang blev metoden beskrevet, implementeret og anvendt til natursproget tekstbehandling, men den kan også bruges på andre områder, for eksempel til bioinformatikopgaver . Det har fået sit navn fra pachinko spilleautomater, populære i Japan , hvor et spil, der ligner pinball på et Galton-bræt, er implementeret .
Pachinko-placering blev først beskrevet af Li Wei og Andrew McCallum i 2005 [3] . I 2007 generaliserede Lee, McCallum og David Mimno ideen til den hierarkiske placering af pachinko [4] . Samme år foreslog McCallum og hans kolleger at indføre en ikke-parametrisk Bayesiansk fordeling i PAM baseret på en modifikation af den hierarkiske Dirichlet-proces (HDP) [2] . Algoritmen er implementeret i open source Java -biblioteket Mallet .
For at skildre den genererende model er der konstrueret en acyklisk digraf, hvor hjørnerne er ord og emner, og ord kun kan være blade. Så er "tre-niveau"-modellen LDA , og "to-niveau"-modellen er Dirichlet-multinomialfordelingen[ angiv ] .
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |