Emnemodellering er en måde at bygge en model af en samling af tekstdokumenter på, der bestemmer hvilke emner hvert dokument tilhører [1] .
Emnemodel ( engelsk emnemodel ) af en samling tekstdokumenter bestemmer, hvilke emner hvert dokument tilhører, og hvilke ord (udtryk) der danner hvert emne [2] .
Overgangen fra termernes rum til rummet af fundne emner hjælper med at løse synonymien og polysemien af termer, såvel som til mere effektivt at løse problemer som tematisk søgning , klassificering , opsummering og annotering af dokumentsamlinger og nyhedsstrømme.
Emnemodellering, som en type statistisk model til at finde skjulte emner, der stødes på i en samling af dokumenter, har fundet vej til områder som maskinlæring og naturlig sprogbehandling . Forskere bruger forskellige emnemodeller til at analysere tekster, tekstarkiver af dokumenter, til at analysere ændringer i emner i sæt af dokumenter . Intuitivt at forstå, at dokumentet refererer til et bestemt emne, i dokumenter, der er dedikeret til et emne, kan du finde nogle ord oftere end andre. For eksempel: "hund" og "knogle" optræder oftere i dokumenter om hunde, "katte" og "mælk" vil forekomme i dokumenter om killinger, præpositionerne "og" og "i" vil forekomme i begge emner. Normalt omhandler et dokument flere emner i forskellige proportioner, så et dokument, hvor 10 % af emnet er katte og 90 % af emnet er hunde, kan antages at have 9 gange flere ord om hunde. Emnemodellering afspejler denne intuition i en matematisk struktur, der tillader, baseret på undersøgelsen af en samling af dokumenter og undersøgelsen af frekvenskarakteristika for ord i hvert dokument, at konkludere, at hvert dokument er en vis balance mellem emner.
De mest udbredte i moderne applikationer er tilgange baseret på Bayesianske netværk - sandsynlighedsmodeller på rettede grafer . Probabilistiske emnemodeller er et relativt ungt forskningsområde inden for selvlærende teori . En af de første foreslåede probabilistiske latente semantiske analyser (PLSA), baseret på princippet om maksimal sandsynlighed , som et alternativ til de klassiske metoder til klyngedannelse , baseret på beregning af afstandsfunktioner. Efter PLSA blev den latente Dirichlet-tildelingsmetode og dens talrige generaliseringer [3] foreslået .
Probabilistiske emnemodeller udfører "blød" klyngedannelse, hvilket tillader et dokument eller et udtryk at blive relateret til flere emner på én gang med forskellige sandsynligheder. Probabilistiske emnemodeller beskriver hvert emne ved en diskret fordeling over et sæt af termer, hvert dokument ved en diskret fordeling over et sæt emner. Det antages, at en samling af dokumenter er en sekvens af termer valgt tilfældigt og uafhængigt af en blanding af sådanne fordelinger, og opgaven er at genskabe blandingens komponenter fra prøven [4] .
Selvom emnemodellering traditionelt er blevet beskrevet og anvendt i naturlig sprogbehandling, har den også fundet vej til andre områder, såsom bioinformatik .
Den første beskrivelse af emnemodellering dukkede op i et papir fra 1998 af Ragawan, Papadimitriou, Tomaki og Vempola [5] . Thomas Hofmann foreslog i 1999 [6] probabilistisk latent semantisk indeksering (PLSI). En af de mest almindelige topiske modeller er latent Dirichlet-placering (LDA), denne model er en generalisering af probabilistisk semantisk indeksering og blev udviklet af David Blei , Andrew Ng og Michael Jordan ( engelsk Michael I. Jordan ) [i 2002 . Andre emnemodeller har en tendens til at være udvidelser af LDA, for eksempel forbedrer pachinko-placering LDA ved at indføre yderligere korrelationskoefficienter for hvert ord, der udgør et emne.
Templeton gennemgik arbejdet med emnemodellering i humaniora, grupperet under synkrone og diakrone tilgange [8] . Synkrone tilgange fremhæver emner på et eller andet tidspunkt, for eksempel brugte Jockers en emnemodel til at udforske, hvad bloggere skrev om på Digital Humanities Day i 2010 [9] .
Diakroniske tilgange, herunder Block og Newmans definition af emners tidsmæssige dynamik i Pennsylvania Gazette fra 1728-1800 [10] . Griffiths og Stavers brugte emnemodellering til PNAS -magasinanmeldelser , hvilket bestemte ændringen i emnepopularitet fra 1991 til 2001 [11] . Blevin skabte en tematisk model til Martha Ballads dagbog [12] . Mimno brugte emnemodellering til at analysere 24 klassiske og arkæologiske tidsskrifter over 150 år for at bestemme ændringer i emnernes popularitet, og hvor meget tidsskrifterne havde ændret sig i løbet af den tid [13] .
David Blays "Introduction to Topic Modeling" betragter den mest populære algoritme Latent Dirichlet Allocation [14] . I praksis bruger forskere en af heuristikkerne ved maksimumsandsynlighedsmetoden, singular value decomposition (SVD) metoder, metoden for momenter , en algoritme baseret på en ikke-negativ faktoriseringsmatrix (NMF), probabilistiske emnemodeller, probabilistisk latent semantisk analyse , latent Dirichlet-placering. I Vorontsov K.V.s arbejde overvejes variationer af hovedemnemodelleringsalgoritmerne: robust emnemodel, emneklassifikationsmodeller, dynamiske emnemodeller, hierarkiske emnemodeller, flersprogede emnemodeller, tekstmodeller som en sekvens af ord, multimodale emnemodeller [2 ] .
Probabilistiske emnemodeller er baseret på følgende antagelser [15] [16] [17] [18] :
At opbygge en emnemodel betyder at finde matricer og ved samling I mere komplekse sandsynlighedsmodeller er nogle af disse antagelser erstattet af mere realistiske.
Probabilistisk latent semantisk analyse (PLSA) blev foreslået af Thomas Hofmann i 1999. Den probabilistiske model for forekomsten af et dokument-ord-par kan skrives på tre ækvivalente måder:
hvor er sættet af emner;
— ukendt a priori fordeling af emner i hele samlingen; er a priori fordeling på et sæt dokumenter, et empirisk skøn , hvor er den samlede længde af alle dokumenter; er a priori fordeling på sættet af ord, empirisk skøn , hvor er antallet af forekomster af et ord i alle dokumenter;De ønskede betingede fordelinger er udtrykt i form af Bayes formlen:
For at identificere parametrene for emnemodellen ud fra en samling af dokumenter, anvendes princippet om maksimum sandsynlighed , hvilket fører til problemet med at maksimere det funktionelle [19]
under normaliseringsbegrænsninger
hvor er antallet af forekomster af ordet i dokumentet . For at løse dette optimeringsproblem bruges EM-algoritmen normalt .
De vigtigste ulemper ved PLSA:
Latent Dirichlet Allocation (LDA) blev foreslået af David Bley i 2003.
Denne metode eliminerer de største ulemper ved PLSA.
LDA-metoden er baseret på den samme probabilistiske model
med yderligere forudsætninger:
Gibbs sampling , variationel Bayesiansk inferens eller forventningsudbredelsesmetoden bruges til at identificere parametrene for LDA-modellen fra en samling af dokumenter .(Forventningsudbredelse).
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |