EM algoritme

EM-algoritme ( eng.  Expectation-maximization (EM) algorithm ) er en algoritme, der bruges i matematisk statistik til at finde maksimale sandsynlighedsestimater for parametrene for probabilistiske modeller, i det tilfælde, hvor modellen afhænger af nogle skjulte variable . Hver iteration af algoritmen består af to trin. I E-trinnet (forventning) beregnes den forventede værdi af likelihood-funktionen , mens de latente variable behandles som observerbare . I M-trinnet (maksimering) beregnes det maksimale sandsynlighedsestimat, hvilket øger den forventede sandsynlighed beregnet i E-trinnet. Denne værdi bruges derefter til E-trinnet i den næste iteration. Algoritmen udføres indtil konvergens.

Ofte bruges EM-algoritmen til at adskille en blanding af gaussere .

Beskrivelse af algoritmen

Lad være  nogle af værdierne af de observerede variabler, og  vær skjulte variabler. Tilsammen danner de et komplet datasæt. Generelt kan der være nogle tip, der gør det nemmere at løse problemet, hvis det er kendt. For eksempel, hvis der er en blanding af fordelinger , er sandsynlighedsfunktionen let udtrykt i form af parametrene for de individuelle fordelinger af blandingen.

Lad os antage , at det  er sandsynlighedstætheden (i det kontinuerlige tilfælde) eller sandsynlighedsfunktionen (i det diskrete tilfælde) af et komplet datasæt med parametre : Denne funktion kan forstås som sandsynligheden for hele modellen, hvis vi betragter den som en funktion af parametrene . Bemærk, at den betingede fordeling af den skjulte komponent under nogle observationer og et fast sæt af parametre kan udtrykkes som følger:

,

ved at bruge den udvidede Bayes- formel og den samlede sandsynlighedsformel . Således behøver vi kun at kende fordelingen af ​​den observerede komponent for en fast latent og sandsynligheden for de latente data .

EM-algoritmen forbedrer iterativt den indledende score ved at beregne nye scoreværdier og så videre. Ved hvert trin udføres overgangen til fra som følger:

hvor  er den forventede logaritme for sandsynligheden. Med andre ord kan vi ikke umiddelbart beregne den nøjagtige sandsynlighed, men ud fra de kendte data ( ) kan vi finde et efterfølgende estimat af sandsynligheden for forskellige værdier af de latente variable . For hvert sæt værdier og parametre kan vi beregne forventningen til sandsynlighedsfunktionen for dette sæt . Det afhænger af den tidligere værdi, fordi denne værdi påvirker sandsynligheden for de latente variabler .

beregnes som følger:

det vil sige, at dette er en betinget forventning under betingelsen .

Med andre ord  er den værdi, der maksimerer (M) den betingede middelværdi (E) af log-sandsynligheden for de givne værdier af de observerede variable og den tidligere værdi af parametrene. I det kontinuerlige tilfælde beregnes værdien således :

Alternativ beskrivelse

Under visse omstændigheder er det praktisk at tænke på EM-algoritmen som to alternerende maksimeringstrin. [1] [2] Overvej funktionen:

hvor q  er sandsynlighedsfordelingen af ​​uobserverede variable Z ; p Z | X ( · | x ; θ ) er den betingede fordeling af uobserverede variabler for faste observerbare x og parametre θ ; H  er entropien , og D KL  er afstanden Kullback-Leibler .

Derefter kan trinene i EM-algoritmen repræsenteres som:

Forventningstrin : Vælg q for at maksimere F : M(aksimisering) trin : Vælg θ for at maksimere F :

Eksempler på brug

Noter

  1. Radford; Neal; Hinton, Geoffrey . En visning af EM-algoritmen, der retfærdiggør inkrementelle, sparsomme og andre varianter  //  Learning in Graphical Models : journal / Michael I. Jordan . - Cambridge, MA: MIT Press, 1999. - P. 355-368 . — ISBN 0262600323 .
  2. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. 8.5 EM-algoritmen // The Elements of Statistical Learning  (neopr.) . - New York: Springer, 2001. - S. 236-243. — ISBN 0-387-95284-5 .

Links