Entropi maksimum princip

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 8. december 2015; checks kræver 32 redigeringer .

Princippet om maksimal entropi siger, at de mest karakteristiske sandsynlighedsfordelinger af tilstande i et usikkert miljø er dem, der maksimerer det valgte usikkerhedsmål for en given information om miljøets "adfærd". For første gang blev en sådan tilgang brugt af D.Gibbs til at finde ekstreme fordelingsfunktioner af fysiske ensembler af partikler . Efterfølgende foreslog E. Janes en formalisme til at genoprette ukendte love for fordeling af tilfældige variable i nærværelse af restriktioner fra betingelserne for maksimum af Shannons entropi .

Historie

Overvej en diskret tilfældig variabel , der kan tage værdier med sandsynligheder . Sandsynligheden er ikke kendt. Men den matematiske forventning om en eller anden funktion af en given stokastisk variabel er kendt :. Baseret på disse oplysninger, hvad er den forventede værdi af funktionen ?

Ved første øjekast virker opgaven uløselig, da det er nødvendigt at kende sandsynlighedsfordelingen på forhånd , og den indledende information er ikke nok til at finde alle sandsynligheder . Forventningsligningen for funktionen giver sammen med normaliseringsligningen kun to af de ligninger, der er nødvendige for at kompilere et ligningssystem.

Dette problem med at bestemme sandsynlighedsfordelingen i tilfælde, hvor der er ringe eller ingen information om en stokastisk variabel, er lige så gammel som sandsynlighedslæren selv. Laplaces princip om utilstrækkelig grund var et forsøg på at foreslå et sådant udvælgelseskriterium: Det er, at to begivenheder anses for lige sandsynlige, medmindre der er grund til at tro andet.

Det skal bemærkes [1] at sammenhængen mellem statistik og den aksiomatiske sandsynlighedsteori har 2 forskellige tilgange. Frekvens (frekventistiske) tilgang betragter sandsynlighed som en frekvensgrænse , sandsynlighed er noget, der beskriver egenskaberne ved uendeligt store ensembler af binære begivenheder. Den Bayesianske tilgang generaliserer den frekventistiske tilgang, idet den postulerer en ny betydning af sandsynlighed som en kvantitativ karakteristik af ethvert binært eksperiment. Dette giver de samme resultater i beskrivelsen af ​​ensembler som den frekventistiske tilgang, men giver os mulighed for at give kvantitative estimater for binære eksperimenter, hvis udfald ikke er kendt på forhånd, og forbedre estimaterne, efterhånden som ny information om resultaterne bliver tilgængelig; Alt dette giver ingen mening i den frekventistiske forståelse.

Laplace mente for eksempel, at der overhovedet ikke er noget tilfældigt i verden, og hvis der er information om årsagerne til begivenheder, så kan konsekvenserne (selve begivenhederne) forudsiges med 100 % nøjagtighed ( Laplacian determinism ). Denne tilgang til sandsynlighed blev udviklet uafhængigt af fysikeren D. Gibbs (i Gibbs' statistiske mekanik ) og matematikeren K. Shannon (i udviklingen af ​​informationsteori ). Begge modtog en værdi, der udtrykker et mål for usikkerhed om udfaldene af en begivenhed (eller, med andre ord, et mål for usikkerheden af ​​en sandsynlighedsfordeling), som blev kaldt entropi og blev beregnet ved hjælp af lignende formler. Denne lighed blev yderligere gjort opmærksom på fysikeren E. T. Janes i to artikler i 1957 [1] [2] .

Strengt taget var Gibbs ikke en pioner i udviklingen af ​​begrebet fysisk entropi. Selve begrebet entropi blev foreslået af fysikeren R. Clausius , og derefter blev det udviklet af fysikeren L. Boltzmann , og hver af dem fik sin egen entropifunktion. Clausius arbejdede med termodynamiske begreber, mens Boltzmann udviklede molekylær fysik og statistisk mekanik.

På samme måde baserede Shannon sit arbejde på resultaterne af G. Nyquist og R. Hartley , som lagde grundlaget for informationsteori.

Funktionalitet

Antag, at en begivenhed kan eller ikke kan forekomme i et tilfældigt eksperiment. Hvis hændelsen ikke fandt sted, antager vi, at den modsatte hændelse fandt sted . Således begivenhederne og  udgør en komplet gruppe af begivenheder, hvilket betyder, at disse er uforenelige begivenheder, og deres sandsynligheder i summen er lig med én :.

Hvis der overhovedet ikke vides noget om begivenheden , så er det ifølge den subjektive tilgang til sandsynlighed nødvendigt at acceptere, at begivenhederne og er  lige sandsynlige: .

Efterhånden som du får noget information, vil den ene sandsynlighed begynde at opveje den anden, og usikkerheden vil begynde at aftage. I sidste ende, når fuldstændig information er opnået, viser det sig, at , (eller omvendt: , ). Usikkerheden falder derefter til nul.

Det ville være rart at komme med en funktion af disse sandsynligheder, som ville nå et maksimum med fuldstændig usikkerhed og forsvinde med fuldstændig sikkerhed. Og jo mere den ene sandsynlighed opvejer den anden, jo mere "asymmetri" mellem dem, jo ​​mindre værdi tager denne funktion.

Vi kalder denne funktion (funktionel) fordelingens entropi eller fordelingens usikkerhed. Strengt taget er entropi kun et mål for usikkerhed, ikke usikkerhed i sig selv. Men alt her er det samme som i tilfælde af sandsynligheder: sandsynlighed er både muligheden for en begivenhed og målet for denne mulighed. I princippet er det korrekt at sige dit og dat.

Som en sådan funktion kan man for eksempel betragte produktet af sandsynligheder for hændelser og . Betegn og overvej funktionen . Da  en omvendt parabel passerer gennem oprindelsen og punktet , når den sit maksimum ved .

Yderligere, efterhånden som "asymmetrien" af sandsynligheder øges, falder den gradvist, indtil den endelig bliver nul ved eller ved .

Det skal bemærkes, at på grund af symmetri , fordi det er ligegyldigt, hvilken af ​​de to begivenheder, der har en sandsynlighed , og hvilken der har en sandsynlighed .

På den anden side (0,21<0,24), fordi sandsynligheden i dette andet tilfælde er mere "asymmetrisk" end i det første tilfælde.

Bemærk, at funktionen , hvor  er en eller anden koefficient, også klarer de "pligter", der er pålagt den: den når et maksimum ved og et minimum (nul) ved og . Det betyder, at den ønskede funktion kan bestemmes op til en vis koefficient.

Lad nu hele gruppen af ​​begivenheder dannes af tre begivenheder. Det er muligt i dette tilfælde at betragte produktet af deres sandsynligheder som entropi, og det kan endda bevises, at dette produkt når sit maksimum, når alle sandsynligheder er lig med hinanden: .

Her er der dog et problem. Den maksimale entropi for tre begivenheder er  - hvilket er mindre end den maksimale entropi for to begivenheder, hvilket er . Og jeg kunne godt tænke mig, at det var omvendt: Jo flere begivenheder, jo større usikkerhed.

Et andet, mere alvorligt problem er, at hvis sandsynligheden for mindst én begivenhed er nul, så bliver hele produktet af sandsynligheder automatisk nul. Det vil sige, at usikkerheden forsvinder, bliver lig med nul ifølge en sådan funktionel, selvom den faktisk ikke er det. Usikkerhed bør forsvinde, når alle sandsynligheder undtagen én er lig med nul, og denne enkelte sandsynlighed er lig med én. Ikke desto mindre, for to resultater, kan en sådan funktion bruges ganske godt. Men for to udfald og ingen funktionaliteter er nødvendige: hvis forventningen til fordelingen af ​​en eller anden tilfældig variabel er kendt , så giver forventningsligningen sammen med normaliseringsbetingelsen bare et system af to ligninger, hvorfra og er unikt fundet . Hvis der overhovedet ikke vides noget om fordelingen, så sidestilles sandsynligheden med hinanden, og det kan gøres uden nogen funktionaliteter.

Shannons entropi

Claude Shannon pålagde tre betingelser for den ønskede funktion [3] :

  1. skal være en kontinuerlig funktion af variablerne ;
  2. hvis alle sandsynligheder er lige store, så er funktionen en monotont stigende funktion af . Med andre ord, ;
  3. akkordloven. I stedet for at angive sandsynligheden for hændelser direkte, kan du gruppere den første af dem som én hændelse med den tilsvarende sandsynlighed . Resten er som den anden begivenhed med sandsynlighed . Så skal funktionen adlyde betingelsen ;

Sammensætningsloven kræver særlige overvejelser, da det er på dens grundlag, at funktionens form yderligere dannes . Ideen er som følger.

Det tilfældige eksperiment er opdelt i to på hinanden følgende stadier. På det første trin vælges den første (før ) eller den anden (efter ) del af resultaterne med sandsynligheder og . På anden fase vælges selve resultatet fra den valgte del af resultaterne. I dette tilfælde er resultatet fra den valgte del allerede valgt med betingede sandsynligheder , det vil sige forudsat at denne del (i dette tilfælde den første del) er valgt. Shannon siger selv, at hvis valget falder i to faser, skal den indledende entropi være en vægtet sum af de enkelte entropier, altså de betingede entropier.

Den generelle betydning er, at hvis der foretages et tilfældigt valg på det første trin, så tager sandsynligheden og værdierne eller , og den yderligere usikkerhed er lig med kun en af ​​de betingede entropier.

Som et eksempel kan du overveje to grafer:

På den venstre graf er der tre udfald med sandsynligheder , , , der danner en komplet gruppe af hændelser (dvs. ). På den højre graf vælger vi først mellem to muligheder, hver med sandsynlighed . Hvis den anden mulighed vælges, så foretages et andet valg med sandsynligheder og . Entropierne på begge grafer skulle vise sig at være de samme, da man i sidste ende får de samme udfald med samme sandsynlighed. Ifølge kompositionsloven skriver vi .

Her , da den komplette gruppe af begivenheder, der kun består af én begivenhed, der forekommer med hundrede procent sandsynlighed, genererer nul usikkerhed. Samtidig vises koefficienten ifølge Shannon selv, fordi det andet valg kun optræder halvdelen af ​​alle gange.

I kompositionsloven kan det første trin ikke bestå af to muligheder, men af ​​et større antal muligheder med tilsvarende sandsynligheder , , , ...

Sammensætningsloven er en slags generalisering af entropiens additive egenskab, selvom den ikke følger direkte af denne egenskab. Lad et eller andet eksperiment bestå af seks lige sandsynlige udfald. Lad disse resultater opdeles i tre lige store dele: på det første trin vælges en af ​​de tre dele, på det andet trin vælges resultatet inden for den tilsvarende del. Så kan du skrive .

Den resulterende ligning kan omskrives således:

.

Det er klart, generelt .

Men det samme resultat kan opnås ud fra andre overvejelser.

Antag, at der er et tilfældigt eksperiment med lige sandsynlige udfald og et andet tilfældigt eksperiment med lige sandsynlige udfald. Lad disse to tilfældige eksperimenter ikke have noget med hinanden at gøre. Men under alle omstændigheder kan de betragtes som ét kombineret eksperiment, hvor et separat resultat er, at det th udfald af det første eksperiment og det th udfald af det andet eksperiment fandt sted. I et sådant kombineret eksperiment er der allerede lige sandsynlige resultater. Da usikkerheden i de to eksperimenter ikke skulle ændre sig afhængigt af en sådan ændring i synspunkt, så .

Som en konsekvens af dette resultat , hvor  er et ikke-negativt heltal. Hvis , så tager den sidste lighed formen , mens den forbliver en ægte lighed.

Sammensætningsloven giver os mulighed for at udtrykke entropien af ​​en sandsynlighedsfordeling, hvor alle sandsynligheder er rationelle tal, som en vægtet sum af funktioner . Faktisk, lad der være en komplet gruppe af begivenheder af uforenelige begivenheder med sandsynligheder , , ..., , hvor , , er naturlige tal, . Så kan man skrive

.

Fra denne ligning er det allerede muligt at udtrykke .

Faktisk vides det ikke præcist, hvor Shannon har sin kompositionslov fra. Måske ville han bare have, at hans entropi skulle vise sig at ligne Hartleys, og han kom med en sådan betingelse (sammensætningslov), hvorfra Shannons entropi ville blive opnået på en unik måde.

Sætning:

den eneste funktion , der opfylder de tre Shannon-betingelser, der er pålagt den, har formen , hvor  er enhver positiv konstant, og logaritmen tages i en hvilken som helst base større end én.

Bevis .

Beviset reducerer til at finde ud af funktionens form .

For enhver naturlig og enhver vilkårlig stor naturlig kan man finde et så naturligt og ikke-negativt heltal , at (dette er indlysende). Ved at forstærke begge sider af uligheden og dividere med , får vi , hvorfra . Da bunden af ​​den naturlige logaritme er større end én, ændres tegnet på ulighederne ikke.

På den anden side, baseret på monotoniteten af ​​, kan vi skrive , , hvorfra tilsvarende , . Så kan du skrive . Passerer til grænsen med hensyn til , opnår vi . Derfor , hvor  er en vilkårlig positiv konstant,  er en vilkårlig naturlig base af logaritmen (større end én). Konstantens vilkårlighed hænger ikke kun sammen med, at den er reduceret i tæller og nævner, men også med, at logaritmens basis er valgt vilkårligt. Du kan gå til den naturlige logaritme og få . Dette antyder, at logaritmens basis ikke behøver at være et naturligt tal. Yderligere, ved at bruge repræsentationen af ​​funktionen i form af funktionen , kan vi skrive, da ethvert reelt tal kan tilnærmes med en hvilken som helst grad af nøjagtighed med et rationelt tal, og funktionen i sig selv er kontinuerlig (det vil sige, at den ændrer sig ubetydeligt med et lille ændring i argumentet), foreslog Shannon at bruge denne formel for sandsynligheder givet ved reelle tal.

Sætningen er blevet bevist .

Hvis sandsynligheden er nul, er det nødvendigt at betragte produktets grænse  som en tendens til nul:

Shannons maksimale entropi og Lagrange-multiplikatormetoden

Det kan bevises [4] at Shannon-entropien får en maksimal værdi på en ensartet fordeling. For at bevise dette finder vi det betingede maksimum af Shannon-entropien under normaliseringsbetingelsen .

For at gøre dette bruger vi Lagrange-multiplikatormetoden til at finde betingede ekstrema. Denne metode er kort fortalt som følger.

Lad os antage, at det er nødvendigt at finde et lokalt ekstremum af en kontinuert funktion af variable med partielle afledte med hensyn til alle variabler, forudsat at ,..., , hvor ,...  er kontinuerte funktioner med partielle afledte med hensyn til alle variable, . Så er Lagrange-funktionen sammensat af formen , hvor tallene kaldes Lagrange-multiplikatorer.

En nødvendig betingelse for eksistensen af ​​et betinget ekstremum på et tidspunkt er lighed til nul eller ikke-eksistensen af ​​alle partielle afledte af dets Lagrange-funktion på dette tidspunkt. Derfor kompileres og løses et system ud fra de partielle afledte af Lagrange-funktionen, lig med nul, samt ud fra de betingelser, der er pålagt ekstremum. Løsningen af ​​systemet (hvis det eksisterer) er koordinaten for ekstremumet, såvel som værdierne af Lagrange-multiplikatorerne.

I tilfælde af Shannon-entropien har Lagrange-funktionen formen: .

Lad os nedskrive ligningssystemet med den nødvendige betingelse for eksistensen af ​​et ekstremum:

Løser vi det, får vi:

Da alle ligninger er ens, så , .

Så det punkt, hvor et ekstremum kan eksistere, er det eneste. I betragtning af, at funktionen er kontinuert og ikke-negativ bestemt, idet den tager minimumsværdien nul (i det tilfælde, hvor en af ​​sandsynligheden er lig med en, og alle de andre er lig med nul), så er det fundne ekstremum punktet for globalt betinget maksimum, og selve maksimumet er lig med .

Det kan også bevises, at i sættet af sandsynligheder for inkompatible elementære udfald, øger enhver ændring i de to sandsynligheder hen imod deres tilpasning (uden at ændre antallet af udfald selv) entropien af ​​fordelingen.

Det er nemt at bevise det. Da kun to sandsynligheder ændres, for eksempel, og , forbliver de andre sandsynligheder uændrede. Derfor vil de vilkår, der er inkluderet i entropiformlen, forbundet med andre sandsynligheder, forblive uændrede og vil ikke påvirke tilvæksten af ​​entropi. Samtidig forbliver beløbet også uændret (af samme grund). Derfor er det tilstrækkeligt kun at udføre beviset for to uforenelige udfald, der udgør en komplet gruppe af begivenheder - så kan påstanden anses for bevist for et vilkårligt antal udfald.

Betegn og overvej funktionen .

Dens kontra plot er meget lig en omvendt parabel, der passerer gennem oprindelsen. Maksimum nås på punktet . Derudover er denne funktion spejlsymmetrisk i forhold til linjen . Dette følger af, at . Derfor er det ud fra grafen indlysende, at enhver ændring i sandsynligheden for udligning fører til en stigning i entropien.

Entropi af en kontinuerlig fordeling

Shannon skrev oprindeligt ned [3] følgende formel for entropien af ​​en kontinuerlig fordeling, som også er kendt som differentiel entropi :

.

Her  er den ukendte sandsynlighedstæthedsfordelingsfunktion for den stokastiske variabel . (Hvis , så erstattes integranden af ​​dens grænse på dette tidspunkt .) Men i modsætning til Shannons formel for entropien af ​​en diskret fordeling, er denne formel ikke resultatet af nogen afledning (Shannon erstattede simpelthen summens fortegnet med tegnet af integralet). Og strengt taget kan den ikke udledes ved en successiv overgang fra en diskret til en kontinuert entropiformel ved at beregne grænsen for integrale partialsummer af Riemann-integralet [5] (en uendelig værdi vil blive opnået). Ikke desto mindre har differentiel entropi betydningen af ​​den gennemsnitlige usikkerhed i valget af en stokastisk variabel med en vilkårlig fordelingslov, minus usikkerheden af ​​en stokastisk variabel ensartet fordelt i et enhedsinterval.

Ud over differentiel entropi er engelsk også kendt.  Kullback–Leibler divergens og engelsk.  Principle_of_maximum_entropy#Continuous_case . Men yderligere, for at forklare princippet om maksimal entropi, vil det blive brugt netop den differentielle entropi.

Maksimal differentialentropi og variationskalkylen

Det kan bevises, at differentialentropien får en maksimal værdi ved en ensartet fordeling. For at bevise dette finder vi det betingede maksimum af differentialentropien forudsat at .

Under disse forhold er det nødvendigt at finde en sådan funktion , at differentialentropi-integralet tager den maksimale værdi. Det er klart, at i dette tilfælde bliver selve funktionens form en slags variabel, så det er nødvendigt at bruge variationskalkylen [3] , hvis hovedopgave er at finde en funktion, hvorpå den givne funktional når ekstrem. værdier.

Variationsmetoden minder om Lagrange-metoden og er kort fortalt som følger. Lad en funktional være givet med en integrand med kontinuerte første partielle afledede, kaldet Lagrange-funktionen. Hvis denne funktional når et ekstremum på en eller anden funktion , skal en partiel differentialligning være opfyldt for den , kaldet Euler-Lagrange-ligningen . Med andre ord er denne ligning en nødvendig betingelse for eksistensen af ​​et ekstremum af det funktionelle på funktionen . Hvis en yderligere betingelse for formen pålægges funktionen , så kaldes det ønskede ekstremum betinget, og Lagrange-funktionen tager formen , og differentialligningen skal løses allerede for denne nye funktion. Den fundne funktion afhænger ikke kun af , men også af parameteren . Så skal du erstatte betingelserne i integralet og finde .

I tilfælde af differentiel entropi tager Lagrange-funktionen formen . Så , hvorfra Euler-Lagrange ligningen tager formen .

Løsningen til denne ligning er en funktion , det vil sige en konstant på . Vi erstatter det i tilstanden og får .

Det er klart, at en sådan ligning ikke har nogen løsninger, ligesom det er klart, at en stokastisk variabel ikke kan fordeles ensartet over hele området af reelle tal. Lad alle mulige værdier ligge på et eller andet interval . Så hvorfra . _ For alle andre er det sandt .

Ekstreme distributioner

I sig selv giver det fundne funktionelle (Shannons entropi i diskret eller differentiel form) endnu ikke noget. Da intet er kendt om udfaldet af et tilfældigt eksperiment, dikterer princippet om maksimal entropi, at alle udfald gives lige sandsynlighed. Hvis vi taler om en kontinuert stokastisk variabel, så antages det, at den er fordelt ensartet. Men for at udføre en sådan aftale kræves ingen funktionalitet. Den funktionelle tillader kun en kvantitativ sammenligning af usikkerheden ved forskellige fordelinger.

Betydningen af ​​princippet om maksimal entropi begynder at dukke op, når der pålægges begrænsninger på sandsynlighedsfordelingen. Princippet om maksimal entropi i dette tilfælde er at finde den maksimale entropi under de pålagte restriktioner. Den således opnåede fordeling kaldes ekstremal.

Lad os finde entropi-maksimum i tilfælde, hvor nogle begrænsninger er pålagt fordelingen af ​​en tilfældig variabel, for eksempel er nogle af dens momenter kendt. Når man bruger metoden med Lagrange multiplikatorer og metoden til beregning af variationer, vil det blive vist, at:

Der vides intet om den tilfældige variabel (diskrete og kontinuerte tilfælde)

I dette tilfælde foreskriver princippet om maksimal entropi, at den stokastiske variabel er fordelt ensartet. Det er allerede blevet vist tidligere, at Shannon-entropien i enhver (diskret eller kontinuerlig) form antager den størst mulige værdi på en sådan fordeling.

Kun matematisk forventning er kendt (diskret kasus)

Antag, at kun den matematiske forventning til den diskrete sandsynlighedsfordeling af en eller anden tilfældig variabel : er kendt . Hvad er fordelingen i dette tilfælde? Distributionen er underlagt yderligere begrænsninger:

Ifølge princippet om maksimal entropi er det nødvendigt at maksimere funktionen under disse forhold

Vi sammensætter Lagrange-funktionen og finder punkterne for et muligt ekstremum:

Systemet med partielle derivater og pålagte betingelser har formen:

Hvis vi trækker -e fra den første ligning , får vi .

Ved at kombinere den resulterende ligning til et system med normaliseringsbetingelsen og løse den, får vi:

, hvorfra .

Nu følger det af ligningen .

Endelig kan vi ud fra ligningen for forventningen skrive , hvorfra følger .

Endelig kan det oprindelige system repræsenteres som:

Det er ret nemt at bevise, at løsningen til systemets anden ligning altid eksisterer og er unik, selvom den ikke altid kan repræsenteres som en eksplicit funktion af argumentet . Hvis det ønskes (men ikke nødvendigvis), kan det udtrykkes fra den tredje ligning i form af . Men vigtigst af alt, når du substituerer i den første ligning, får du en diskret sandsynlighedsfordeling med forventning .

Da den fundne løsning er unik, er det fundne punkt højst sandsynligt entropiekstremumet, og dette ekstremum er det globale betingede maksimum.

Den fundne sandsynlighedsfordeling kaldes engelsk. Boltzmann_distribution , som også er kendt som Gibbs distribution .  

Kun det andet indledende øjeblik er kendt (diskret tilfælde)

Antag, at kun det andet begyndelsesmoment af den diskrete sandsynlighedsfordeling af en tilfældig variabel er kendt :. Hvad er fordelingen i dette tilfælde?

Det er klart, at denne sag ikke adskiller sig fra den foregående, bortset fra at værdierne skal erstattes af værdierne , skal erstattes af . Den endelige fordeling vil se ud

Det er let at se i dette tilfælde, at hvis , så .

Forventningen og det andet indledende øjeblik er kendt (diskret tilfælde)

Lagrange-funktionen har i dette tilfælde formen

Ligningssystemet, som er en nødvendig betingelse for eksistensen af ​​et ekstremum, har formen:

. Det kan bringes i tankerne

Problemet med at bevise eksistensen og unikheden af ​​en løsning i dette tilfælde er meget vanskeligere. Desuden problemet med at finde parametrene og fra den anden og tredje ligning af systemet. Men hvis beviset er muligt, vil ekstremfordelingen med givne parametre kun have den fundne form.

Kun forventet værdi er kendt (kontinuerlig store og små bogstaver)

Antag, at vi kun kender forventningen til en kontinuert sandsynlighedsfordeling af en eller anden stokastisk variabel : . Hvad er sandsynlighedstæthedsfordelingsfunktionen i dette tilfælde?

Distributionen er underlagt yderligere begrænsninger:

Ifølge princippet om maksimal entropi er det nødvendigt at maksimere funktionen under disse forhold

Vi sammensætter Lagrange-funktionen og finder , for hvilket et ekstremum er muligt :

Euler-Lagrange-ligningen har i dette tilfælde formen .

Dens løsning er funktionen , det vil sige eksponenten.

Det er klart, at arealet under grafen for en sådan funktion kun kan være begrænset, hvis ikke mere end én integrationsgrænse har en tendens til uendelig. Derfor vil vi antage, at en tilfældig variabel kun kan tage værdier på et endeligt eller semi-uendeligt domæne , ikke nødvendigvis blot forbundet. På alle andre punkter vil funktionen blive betragtet som lig med nul.

For at finde værdierne af koefficienterne og , er det nødvendigt at sammensætte et ligningssystem ud fra de betingelser, der er pålagt fordelingen, og løse det. Systemet ser sådan ud:

og kan bringes i tankerne .

Her er alle integralerne "taget", så det kan udtrykkes entydigt mht  . - det er kun nødvendigt at specificere arealet mere specifikt . I dette tilfælde er den fundne løsning unik.

Da koefficienten er unikt udtrykt gennem , så er den unik. På grund af det unikke ved den fundne løsning, maksimerer funktionen det funktionelle . Funktionen har så formen .

Den fundne fordeling kaldes Boltzmann (eller Gibbs) fordeling af en kontinuert stokastisk variabel.

Kun det andet indledende øjeblik kendes (kontinuerligt store og små bogstaver)

Antag, at kun det andet indledende moment af sandsynlighedsfordelingen af ​​en kontinuert stokastisk variabel er kendt : . Hvad er fordelingen i dette tilfælde?

Lagrange-funktionen har i dette tilfælde formen .

Euler-Lagrange-ligningen har formen .

Dens løsning er funktionen .

Det er klart, at arealet under grafen kun kan være begrænset i tilfælde af . Hvis , så opnås en ensartet fordeling, som allerede er blevet overvejet tidligere.

For at finde værdierne af koefficienterne og , skal du sammensætte et ligningssystem ud fra betingelserne pålagt fordelingen og løse det:

Da der er et bestemt Euler-Poisson integral her , kan systemet skrives som:

, hvorfra endelig

Så fordelingen er en normalfordeling med nul middelværdi og varians .

Forventningen og det andet indledende øjeblik er kendt (kontinuerlig kasus)

Lagrange-funktionen har i dette tilfælde formen .

Euler-Lagrange-ligningen har formen .

Dens løsning er funktionen .

Lad os tage det igen .

For at finde værdierne af koefficienterne , , , er det nødvendigt at sammensætte et ligningssystem ud fra betingelserne pålagt fordelingen og løse det:

Graden af ​​et tal i integraler kan repræsenteres som: , hvor , .

Derefter

,

hvor

.

Naturligvis er variansen af ​​fordelingen .

Endelig kan funktionen skrives som .

Så vi fik en normalfordeling med middelværdi og varians .

Det er let at se, at det oprindeligt var muligt at indstille ikke det andet begyndelsesmoment af fordelingen, men dens varians, og stadig ville en normalfordeling med de givne parametre være opnået.

Tabel over ekstreme distributioner

I tabellen nedenfor maksimerer hver anført fordeling entropi under de betingelser, der er pålagt fordelingen, som angivet i den tredje kolonne. Den fjerde kolonne viser definitionsdomænet for den stokastiske variabel.

Tabel over ekstreme fordelinger
Fordeling Fungere

sandsynligheder/densitet

sandsynligheder

Begrænsninger,

overlejret

fordeling

Område

definitioner

tilfældig

mængder

Uniform

(diskret)

Ikke
Uniform

(sammenhængende)

Ikke
Bernoulli
Geometrisk
Eksponentiel
Laplace
engelsk  Asymmetrisk_Laplace_distribution
Pareto
Normal
engelsk  Von_Mises_distribution
Rayleigh
Beta
Cauchy
engelsk  Chi_distribution
chi-kvadrat
engelsk  Erlang_distribution
Gamma
lognormal
Maxwell
Weibulla
Multidimensionel

normal


Binomial
Poisson

Se også

Noter

  1. ↑ 12 Jaynes , ET Informationsteori og statistisk mekanik  (engelsk)  // Fysisk gennemgang  : tidsskrift. - 1957. - Bd. Serie II , nr. 4 . - S. 620-630 . - doi : 10.1103/PhysRev.106.620 . - .
  2. Jaynes, ET Information Theory and Statistical Mechanics II  (engelsk)  // Physical Review  : journal. - 1957. - Bd. Serie II , nr. 2 . - S. 171-190 . - doi : 10.1103/PhysRev.108.171 . - .
  3. ↑ 123 C.E. _ _ Shannon. En matematisk teori om kommunikation . Arkiveret fra originalen den 29. marts 2016.
  4. I.N. Beckman. Informatik. Forelæsningsforløb . — P. Dannelsesstadier af entropibegrebet . Arkiveret fra originalen den 13. december 2016.
  5. V.A. Fursov. Informationsteori. - Samara: SGAU, 2011. - S. 15.

Litteratur

Links