EM-algoritme ( eng. Expectation-maximization (EM) algorithm ) er en algoritme, der bruges i matematisk statistik til at finde maksimale sandsynlighedsestimater for parametrene for probabilistiske modeller, i det tilfælde, hvor modellen afhænger af nogle skjulte variable . Hver iteration af algoritmen består af to trin. I E-trinnet (forventning) beregnes den forventede værdi af likelihood-funktionen , mens de latente variable behandles som observerbare . I M-trinnet (maksimering) beregnes det maksimale sandsynlighedsestimat, hvilket øger den forventede sandsynlighed beregnet i E-trinnet. Denne værdi bruges derefter til E-trinnet i den næste iteration. Algoritmen udføres indtil konvergens.
Ofte bruges EM-algoritmen til at adskille en blanding af gaussere .
Lad være nogle af værdierne af de observerede variabler, og vær skjulte variabler. Tilsammen danner de et komplet datasæt. Generelt kan der være nogle tip, der gør det nemmere at løse problemet, hvis det er kendt. For eksempel, hvis der er en blanding af fordelinger , er sandsynlighedsfunktionen let udtrykt i form af parametrene for de individuelle fordelinger af blandingen.
Lad os antage , at det er sandsynlighedstætheden (i det kontinuerlige tilfælde) eller sandsynlighedsfunktionen (i det diskrete tilfælde) af et komplet datasæt med parametre : Denne funktion kan forstås som sandsynligheden for hele modellen, hvis vi betragter den som en funktion af parametrene . Bemærk, at den betingede fordeling af den skjulte komponent under nogle observationer og et fast sæt af parametre kan udtrykkes som følger:
,ved at bruge den udvidede Bayes- formel og den samlede sandsynlighedsformel . Således behøver vi kun at kende fordelingen af den observerede komponent for en fast latent og sandsynligheden for de latente data .
EM-algoritmen forbedrer iterativt den indledende score ved at beregne nye scoreværdier og så videre. Ved hvert trin udføres overgangen til fra som følger:
hvor er den forventede logaritme for sandsynligheden. Med andre ord kan vi ikke umiddelbart beregne den nøjagtige sandsynlighed, men ud fra de kendte data ( ) kan vi finde et efterfølgende estimat af sandsynligheden for forskellige værdier af de latente variable . For hvert sæt værdier og parametre kan vi beregne forventningen til sandsynlighedsfunktionen for dette sæt . Det afhænger af den tidligere værdi, fordi denne værdi påvirker sandsynligheden for de latente variabler .
beregnes som følger:
det vil sige, at dette er en betinget forventning under betingelsen .
Med andre ord er den værdi, der maksimerer (M) den betingede middelværdi (E) af log-sandsynligheden for de givne værdier af de observerede variable og den tidligere værdi af parametrene. I det kontinuerlige tilfælde beregnes værdien således :
Under visse omstændigheder er det praktisk at tænke på EM-algoritmen som to alternerende maksimeringstrin. [1] [2] Overvej funktionen:
hvor q er sandsynlighedsfordelingen af uobserverede variable Z ; p Z | X ( · | x ; θ ) er den betingede fordeling af uobserverede variabler for faste observerbare x og parametre θ ; H er entropien , og D KL er afstanden Kullback-Leibler .
Derefter kan trinene i EM-algoritmen repræsenteres som:
Forventningstrin : Vælg q for at maksimere F : M(aksimisering) trin : Vælg θ for at maksimere F :Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|