Kullback-Leibler distance

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 3. december 2021; checks kræver 2 redigeringer .

Afstand (divergens, divergens) Kullback-Leibler ( engelsk  Kullback-Leibler divergens ), RKL , informationsdiskrepans , adskillende information , informationsgevinst , relativ entropi ( engelsk  relativ entropi ) [1]  - ikke-negativ funktionel , som er et asymmetrisk mål for afstand fra hinanden ven af ​​to sandsynlighedsfordelinger [2] defineret på det fælles rum af elementære begivenheder . Ofte anvendt i informationsteori og matematisk statistik .

Definition og fortolkninger

Kullback-Leibler divergensen af ​​en fordeling med hensyn til (eller relativt set "afstanden fra til ") er angivet med . Det første argument for den funktionelle ( fordeling ) fortolkes normalt som en sand eller a priori postuleret fordeling , det andet ( fordeling ) som en antaget (verificerbar) en. Fordelingen tjener ofte som en tilnærmelse af en fordeling . Værdien af ​​den funktionelle kan forstås som mængden af ​​ignoreret distributionsinformation, hvis den blev brugt til at tilnærme . Dette mål for afstand i informationsteori tolkes også som mængden af ​​informationstab, når den sande fordeling erstattes med distributionen .

I det generelle tilfælde, hvis  der er et mål , som der eksisterer funktioner for absolut kontinuert med hensyn til og , så er Kullback-Leibler-divergensen af ​​fordelingen med hensyn til defineret som

.

Grundlaget for logaritmen i denne formel spiller ikke en væsentlig rolle. Dens valg gør det muligt at fiksere en specifik type funktionel fra en familie af ækvivalente funktionaliteter og er ensbetydende med at vælge måleenheden for Kullback-Leibler-diskrepansen (svarende til situationen med beregning af entropi ), så det er muligt at bruge en logaritme med evt. base større end én. Med andre ord er det funktionelle defineret op til en positiv konstant faktor. De mest almindelige er den naturlige logaritme (af bekvemmelighedsgrunde) såvel som den binære logaritme  - for at måle uoverensstemmelsen i bit (normalt brugt i informationsteori ). Kullback-Leibler divergensen er en dimensionsløs størrelse , uanset dimensionen af ​​de oprindelige tilfældige variable.

Selvom Kullback-Leibler-afstanden (RKL) ofte betragtes som en måde at måle afstanden mellem sandsynlighedsfordelinger på, er denne funktion ikke en metrik i fordelingernes rum, da den ikke opfylder trekantens ulighed og ikke opfylder aksiomet for symmetri :. Dens infinitesimale form, især dens hessiske , giver dog en metrisk tensor , som er kendt som Fisher informationsmetrikken .

Kullback-Leibler-distancen er et særligt tilfælde af en mere generel klasse af uoverensstemmelser kaldet f - uoverensstemmelser , såvel som et særligt tilfælde af Bregman-klassen af ​​uoverensstemmelser . RKL er den eneste divergens af sandsynligheder, der hører til begge klasser.

RKL blev oprindeligt introduceret af Solomon Kullback og Richard Leibler i 1951 som en retningsbestemt divergens mellem to fordelinger. Dette diskuteres i Kullbacks tekst Information Theory and Statistics. [en]

Kullback-Leibler-afstanden tolkes nogle gange også som den informationsgevinst, der opnås, når den bruges i stedet for . Nogle gange bruges forvirrende navne for RKL relativ entropi relativ (betegnet ) eller krydsentropi .

Der er forskellige konventioner om, hvordan man læser notationen . Ofte blot omtalt som uoverensstemmelsen eller afstanden mellem og , men dette formidler ikke den grundlæggende asymmetri i forholdet. Nogle gange siger de "divergens fra (i forhold til) " eller, relativt set, "afstand fra til " (normalt i sammenhæng med relativ entropi eller informationsgevinst). I dette tilfælde tolkes fordelingen som sand.

Særlige definitioner og definitioner i form af Radon-Nikodim-derivatet

For diskrete sandsynlighedsfordelinger og med et antal elementære hændelser defineres Kullback-Leibler-divergensen af ​​en fordeling med hensyn til fordelingen (eller "afstand fra til ") [3] som:

.

Det er med andre ord middelværdien af ​​den logaritmiske forskel mellem sandsynligheder og , hvor middelværdien er taget fra fordelingen . RKL defineres kun hvis , for alle ( absolut kontinuitet ). Når som helst, tolkes bidraget fra det -te led som nul, fordi .

For -dimensionelle absolut kontinuerte fordelinger og Kullback-Leibler-afstanden er givet ved udtrykket [4]

,

hvor og  er fordelingstæthedsfunktionerne og henholdsvis defineret på intervallet .

Mere generelt, hvis og  er sandsynlighedsmålinger på sættet , og er absolut kontinuerlige med hensyn til , så er RKL fra til defineret som:

,

hvor  er Radon-Nikodym-derivatet med hensyn til , og forudsat at udtrykket til højre eksisterer. Tilsvarende kan dette skrives som

.

Det skal bemærkes, at brugen af ​​Radon-Nikodim-derivatet tjener som et formelt middel til at skrive disse udtryk, men afslører ikke deres meningsfulde betydning.

Kullback-Leibler divergensfunktionen er dimensionsløs, men dens værdier kan have forskellige enheder. Så hvis logaritmerne i disse formler er taget i base 2, så måles divergensen (det er også information fra informationsteoriens synspunkt) i bits ; hvis baseret på e (med en naturlig base), så måles divergensen (informationen) i nats . De fleste formler, der indeholder RKL, bevarer deres betydning uanset logaritmens basis.

Karakterisering

Arthur Hobson beviste, at Kullback-Leibler-afstanden er det eneste mål for forskellen mellem sandsynlighedsfordelinger, der opfylder nogle ønskelige egenskaber, der er kanoniske udvidelser til dem, der optræder i almindeligt anvendte karakteriseringer af entropi . [5] Derfor er gensidig information  det eneste mål for gensidig afhængighed, der er underlagt nogle relaterede betingelser, da det kan defineres i termer af RCL .

Der er også en Bayesiansk karakterisering af afstanden Kullback-Leibler. [6]

Motivation

I informationsteorien siger Kraft-McMillan-sætningen , at enhver direkte afkodelig indkodningsordning til indkodning af en besked for at identificere en enkelt værdi , kan ses som repræsenterende en implicit sandsynlighedsfordeling over , hvor  er kodelængden for , i bits. Derfor kan RCL tolkes som den forventede ekstra beskedlængde fra nulmærket, der skal transmitteres, hvis der anvendes en kode, der er optimal for en given (forkert) distribution af Q, sammenlignet med at bruge en kode baseret på den sande fordeling af P .

, hvor  er krydsentropien af ​​P og Q,  er entropien af ​​P.

Bemærk også, at der er en sammenhæng mellem RKL og "hastighedsfunktionen" i teorien om store afvigelser . [7] [8]

Egenskaber

,

hvor og . På trods af antagelsen om, at transformationen var kontinuerlig, er dette ikke nødvendigt i dette tilfælde. Dette viser også, at RKL angiver en værdi i overensstemmelse med dimensionen , da hvis x er en dimensionsvariabel, så har P(x) og Q(x) også en dimension, da det er en dimensionsløs størrelse. Udtrykket under logaritmen forbliver dog dimensionsløst, som det burde. Derfor kan Kullback-Leibler-afstanden på en måde betragtes som en mere fundamental størrelse end nogle andre egenskaber i informationsteorien [9] (såsom selvinformation eller Shannon-entropi ), som kan blive udefineret eller negativ for ikke- diskrete sandsynligheder.

Kullback-Leibler-afstanden for den multivariate normalfordeling

Lad os sige, at vi har to multivariate normalfordelinger , med middelværdi og med (reversible) kovariansmatricer . Hvis to fordelinger har samme dimension k, så er RCL mellem fordelingerne som følger [10] :

Logaritmen i det sidste led skal tages som basis e, da alle undtagen det sidste led er naturlige logaritmer af udtryk, der enten er en hvilken som helst faktor i tæthedsfunktionen eller på anden måde forekommer naturligt. Derfor giver ligningen et resultat målt i nats . Ved at dividere dette udtryk helt med log e 2, får vi fordelingen i bit.

Relation til metrics

Man kunne kalde RCL en " metrik " i rummet af sandsynlighedsfordelinger, men dette ville være forkert, da det ikke er symmetrisk og ikke opfylder trekantens ulighed . Alligevel, da den er en foreløbig metrik , genererer den en topologi i rummet af sandsynlighedsfordelinger . Mere specifikt, hvis er en sekvens af distributioner sådan, at , så siger vi at . Det følger af Pinskers ulighed , at — , hvor sidstnævnte er nødvendig for konvergens i variation .

Ifølge Alfred Renyi (1970, 1961). [11] [12]

Fishers informationsmetrik

Kullback-Leibler-afstanden er dog direkte relateret til metrikken, nemlig Fisher informationsmetrikken . Antag, at vi har sandsynlighedsfordelinger P og Q, som begge er parametriseret af den samme (muligvis multivariate) parameter . Overvej nu to tætte værdier af og , sådan at parameteren kun afviger med et lille tal fra parameteren . Nemlig at udvide i en Taylor-serie op til den første orden, har vi (ved hjælp af Einstein-konventionen )

,

hvor  er en lille ændring i den j. retning, og er den tilsvarende ændringshastighed i sandsynlighedsfordelingen. Da RCL'en har et absolut minimum lig med 0 ved P=Q, det vil sige, at RCL'en har den anden orden af ​​lillehed med hensyn til parametrene . Mere formelt, som for ethvert minimum, forsvinder den første afledte af divergensen

og Taylor-udvidelsen starter fra den anden orden af ​​lillehed

,

hvor hessian skal være ikke-negativ. Hvis det tillades at variere (og udelade underindekset 0), så definerer hessian en (muligvis degenereret) Riemann-metrik i parameterrummet , kaldet Fisher-informationsmetrikken.

Relation til andre dimensioner af informationsteori

Mange andre informationsteoretiske størrelser kan tolkes som at anvende Kullback-Leibler-afstanden til bestemte tilfælde.

Egenværdien er RCL for sandsynlighedsfordelingen fra Kronecker-symbolet , der repræsenterer sikkerheden for, at  - det vil sige antallet af ekstra bits, der skal transmitteres for at bestemme , hvis kun sandsynlighedsfordelingen er tilgængelig for modtageren, ikke det faktum, at .

Gensidig information -

er RCL af produktet af to marginale sandsynlighedsfordelinger fra den fælles sandsynlighedsfordeling  - det vil sige det forventede antal ekstra bits, der skal sendes for at bestemme, og hvis kodet kun ved hjælp af deres marginale fordeling i stedet for den fælles fordeling. Tilsvarende, hvis fællessandsynligheden er kendt, er det det forventede antal ekstra bits, der skal sendes i gennemsnit for at bestemme, om værdien ikke allerede er kendt af modtageren.

Entropi af Shannon -

er antallet af bits, der skal transmitteres for at identificere fra lige sandsynlige udfald, dette er mindre end den ensartede fordeling RCL fra den sande fordeling  - altså mindre end det forventede antal lagrede bits, der skal sendes, hvis værdien er kodet iht . til den ensartede fordeling og ikke den sande fordeling .

Betinget entropi -

er antallet af bit, der skal sendes for at identificere fra lige sandsynlige udfald, dette er mindre end RCL af produktet af distributionerne fra den sande fælles distribution  - det vil sige mindre end det forventede antal lagrede bit, der skal sendes, hvis værdien er kodet i henhold til den ensartede fordeling og ikke med betinget datafordeling og .

Krydsentropien mellem to sandsynlighedsfordelinger måler det gennemsnitlige antal bits, der er nødvendige for at identificere en hændelse fra et sæt af mulige hændelser, hvis et kodningsskema baseret på en given sandsynlighedsfordeling anvendes i stedet for den "sande" fordeling . Krydsentropien for to fordelinger og over det samme sandsynlighedsrum er defineret som følger:

Kullback-Leibler distance og Bayesiansk modifikation

I Bayesiansk statistik kan Kullback-Leibler-afstanden bruges som et mål for informationsgevinsten, når man går fra en forudgående til en bagefter sandsynlighedsfordeling. Hvis en ny kendsgerning opdages , kan den bruges til at ændre (a priori) sandsynlighedsfordelingen til en ny (posterior) sandsynlighedsfordeling ved hjælp af Bayes' sætning :

Denne fordeling har en ny entropi

som kan være mindre eller mere end den oprindelige entropi . Men med hensyn til den nye sandsynlighedsfordeling kan det estimeres, at brug af den oprindelige kode baseret på i stedet for den nye kode baseret på ville tilføje det forventede antal bit til længden af ​​meddelelsen. Dette er således mængden af ​​nyttig information, eller informationsgevinst, vedrørende , som blev opnået ved at finde, at .

Hvis der efterfølgende kommer et andet stykke data, , så kan sandsynlighedsfordelingen for x opdateres yderligere for at give et nyt bedste gæt , . Hvis vi genovervejer informationsgevinsten at bruge , og ikke , viser det sig, at den kan være mere eller mindre end tidligere antaget: , kan være eller , end , og derfor opfylder den samlede informationsgevinst ikke trekantsuligheden:

, kan være større end, mindre end eller lig med

Det eneste, der kan siges, er, at i gennemsnit, hvis man tager gennemsnittet med , vil begge sider give gennemsnittet.

Bayes' eksperimentelle model

Et fælles mål i en eksperimentel Bayesiansk model  er at maksimere den forventede RCL mellem den tidligere og posteriore fordeling. [13] Når posterioren er tilnærmet til en Gauss-fordeling, kaldes modellen, der maksimerer den forventede RCL, Bayesiansk d-optimal .

Særende information

Kullback-Leibler-afstanden kan også fortolkes som den forventede diskriminerende information for over : gennemsnitlig information pr. stikprøve for forskellen til fordel for hypotesen , mod hypotesen, når hypotesen er sand [14] . Et andet navn for denne mængde, givet af Irving John Good , er den forventede bevismasse for over forventet fra hver prøve.

Den forventede evidensvægt for over er ikke den samme som den forventede informationsgevinst, for eksempel for sandsynlighedsfordelingen p(H) for hypotesen ,.

Hver af de to størrelser kan bruges som en nyttefunktion i den Bayesianske forsøgsform til at vælge det optimale næste spørgsmål til undersøgelse, men generelt vil de snarere føre til forskellige eksperimentelle strategier.

På informationsgevinst-entropi-skalaen er der meget lille forskel mellem næsten sikkerhed og fuld sikkerhed - næsten sikkerhed-kodning vil næppe kræve flere bits end fuld sikkerhed-kodning. På den anden side er vægten af ​​beviser underforstået i logit- skalaen, og forskellen mellem de to er enorm, næsten uendelig. Dette kan afspejle forskellen mellem at være næsten sikker (på et sandsynlighedsniveau), for eksempel, at Riemann-hypotesen er sand, og at være helt sikker på, at den er sand, fordi der er et matematisk bevis. To forskellige tabsfunktionsskalaer for usikkerhed er begge nyttige, alt efter hvor godt hver afspejler de særlige omstændigheder ved det problem, der overvejes i problemet.

Princippet om minimumsadskillende information

Ideen om RKL som diskriminerende information fik Kullback til at foreslå princippet om minimumsdiskriminationsinformation  (MDI ) : givet nye fakta, bør en ny distribution vælges fra dem, der er svære at skelne fra den oprindelige distribution ; fordi nye data genererer så lidt informationsgevinst som muligt.

For eksempel, hvis vi har en tidligere fordeling over og , og derefter studere den sande fordeling af og . RCL mellem den nye fælles distribution for og , og den gamle tidligere distribution ville være:

det vil sige summen af ​​RKL for den tidligere fordeling for fra den opdaterede fordeling plus den forventede værdi (den brugte sandsynlighedsfordeling ) af RKL for den tidligere betingede fordeling fra den nye fordeling . (Bemærk, at den ofte senere forventede værdi kaldes den betingede RKL (eller betinget relativ entropi) og betegnes [15] . Dette minimerer hvis over det samlede indhold . Og vi bemærker, at dette resultat forener Bayes' sætning, hvis den nye fordeling faktisk er en funktion, der med sikkerhed repræsenterer , som har én bestemt værdi.

Minimum distinguishing information kan ses som en forlængelse af Laplaces ligegyldighedsprincip (også kendt som princippet om utilstrækkelig grund) og Jaynes ' maksimale entropiprincip . Især er det en naturlig udvidelse af det maksimale entropi-princip fra en diskret til en kontinuert fordeling, for hvilken Shannon-entropien ikke bliver særlig bekvem (se differentialentropi ), men RCL er fortsat lige så relevant.

I ingeniørlitteratur omtales MDI nogle gange som minimum krydsentropiprincippet . At minimere RCL fra med hensyn til svarer til at minimere krydsentropien og , hvilket er passende, hvis man forsøger at vælge en nøjagtig omtrentlig værdi op til .

Eksempel på brug

Lad, baseret på en stikprøve fra fordelingen af ​​en tilfældig variabel, er det nødvendigt at genoprette tætheden af ​​dens fordeling, givet i form af en parametrisk familie , hvor  er argumentet for funktionen,  er en ukendt parameter. Parameterestimatet kan findes som en løsning på problemet med at minimere Kullback-Leibler-afstanden mellem tætheden og den empiriske fordelingstæthed betragtet som "sand",

,

hvor  er Dirac-funktionen :

.

Det er let at se, at løsningen af ​​dette problem fører til et maksimalt sandsynlighedsestimat for parameteren . Hvis den faktiske fordelingstæthed af den stokastiske variabel ikke tilhører familien , kaldes det fundne parameterestimat quasi-likelihood og giver den bedste tilnærmelse af den faktiske fordeling repræsenteret af stikprøven blandt fordelinger med tætheder i forhold til Kullback-Leibler-afstanden .

Noter

  1. ↑ 1 2 Kullback S. Informationsteori og statistik. - John Wiley & Sons, 1959.
  2. Kullback S., Leibler R. A. Om information og tilstrækkelighed // The Annals of Mathematical Statistics. 1951.V.22. nr. 1. S. 79-86.
  3. MacKay, David JC Informationsteori, inferens og læringsalgoritmer. - Første udgave.. - Cambridge University Press, 2003. - C. p. 34.
  4. Biskop C. Mønstergenkendelse og maskinlæring. - 2006. - S. p. 55.
  5. Hobson, Arthur. Begreber i statistisk mekanik. Gordon og Breach. - New York, 1971. - ISBN 0677032404 .
  6. Baez, John; Fritz, Tobias. Teori og anvendelse af kategorier 29.-C. "En Bayesiansk karakterisering af relativ entropi", s. 421-456..
  7. I.N. Sanov. Om sandsynligheden for store afvigelser af stokastiske variable. - 1957. - S. 11-44.
  8. Novak SY ekstreme værdimetoder med ansøgninger om finansiering kap. 14.5. — Chapman & Hall. - 2011. - ISBN 978-1-4398-3574-6 .
  9. Relativ entropi . videolectures.net. Hentet 14. juni 2016. Arkiveret fra originalen 25. december 2018.
  10. Duchi J. "Afledninger til lineær algebra og optimering". - S. 13 .
  11. Rényi A. Sandsynlighedsteori. - 1970. - ISBN 0-486-45867-9 ..
  12. Rényi, A. "Om mål for entropi og information". - 4. Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. - s. 547–561.
  13. Chaloner, K.; Verdinelli, I. "Bayesiansk eksperimentelt design: en anmeldelse". — Statistical Science 10, 1995. — 273–304 s.
  14. Tryk, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). "Afsnit 14.7.2. Afstand Kullback–Leibler". Numeriske opskrifter: The Art of Scientific Computing (3. udgave). Cambridge University Press. ISBN 978-0-521-88068-8 . .
  15. Thomas M. Cover, Joy A. Thomas. Elementer af informationsteori . — John Wiley & sønner. - 1991. - S. s.22.