Informationsentropi er et mål for usikkerheden i et bestemt system (i statistisk fysik eller informationsteori ), især uforudsigeligheden af udseendet af enhver karakter i det primære alfabet . I sidstnævnte tilfælde, i fravær af informationstab, er entropien numerisk lig med mængden af information pr. symbol af den transmitterede meddelelse.
For eksempel, i en sekvens af bogstaver, der udgør en sætning på russisk, vises forskellige bogstaver med forskellige frekvenser , så usikkerheden om forekomst for nogle bogstaver er mindre end for andre. Hvis vi tager i betragtning, at nogle kombinationer af bogstaver (i dette tilfælde taler de om entropien af -th orden, se nedenfor ) er meget sjældne, så falder usikkerheden endnu mere.
Binær informationsentropi , i mangel af informationstab, beregnes ved hjælp af Hartley-formlen :
,
hvor er alfabetets magt, er mængden af information i hvert symbol i beskeden. For en tilfældig variabel , der tager uafhængige tilfældige værdier med sandsynligheder ( ), bliver Hartleys formel til Shannons formel:
Denne størrelse kaldes også den gennemsnitlige beskedentropi . Størrelsen kaldes partiel entropi , som kun karakteriserer -e-tilstanden.
Således er systemets entropi summen med det modsatte fortegn af alle de relative frekvenser for forekomst af tilstanden (begivenheden) med tallet , ganget med deres binære logaritmer [1] . Denne definition for diskrete tilfældige hændelser kan formelt udvides til kontinuerlige fordelinger givet af sandsynlighedstæthedsfordelingen , men den resulterende funktionelle vil have lidt forskellige egenskaber (se differentiel entropi ).
Generelt kan basen af logaritmen i definitionen af entropi være alt større end 1 (da et alfabet bestående af kun ét tegn ikke kan formidle information); valget af basis for logaritmen bestemmer entropienheden. For informationssystemer baseret på det binære talsystem er måleenheden for informationsentropi (faktisk information) en smule . I problemer med matematisk statistik kan det være mere bekvemt at bruge den naturlige logaritme , i hvilket tilfælde informationsentropienheden er nat .
Claude Shannon foreslog, at informationsgevinsten er lig med den tabte usikkerhed, og satte kravene til dens måling:
Derfor skal entropifunktionen opfylde betingelserne
Shannon viste [2] , at den eneste funktion, der opfylder disse krav, er
hvor er en positiv konstant (og er egentlig kun nødvendig for at vælge entropienheden; at ændre denne konstant svarer til at ændre logaritmens basis).
Shannon fastslog, at målingen af entropi ( ) anvendt på en informationskilde kan bestemme minimumsbåndbreddekravene til pålidelig transmission af information i form af kodede binære tal. For at udlede Shannon-formlen er det nødvendigt at beregne den matematiske forventning til "mængden af information" indeholdt i figuren fra informationskilden. Shannon-entropimålet udtrykker usikkerheden ved realiseringen af en stokastisk variabel. Entropi er således forskellen mellem informationen indeholdt i en meddelelse og den del af informationen, der er nøjagtigt kendt (eller meget forudsigelig) i meddelelsen. Et eksempel på dette er sprogets redundans – der er tydelige statistiske mønstre i bogstavernes udseende, par af på hinanden følgende bogstaver, tripler osv. (se Markov-kæder ).
Definitionen af Shannons entropi er relateret til begrebet termodynamisk entropi . Boltzmann og Gibbs arbejdede meget med statistisk termodynamik, hvilket bidrog til accepten af ordet "entropi" i informationsteori. Der er en sammenhæng mellem termodynamisk og informationsentropi. For eksempel kontrasterer Maxwells dæmon også informationens termodynamiske entropi, og at få en hvilken som helst mængde information er lig med tabt entropi.
Det er også muligt at bestemme entropien af en stokastisk variabel ved først at introducere begrebet fordelingen af en stokastisk variabel med et endeligt antal værdier: [3]
og egne oplysninger :
Så er entropien defineret som:
Måleenheden for mængden af information og entropi afhænger af basen af logaritmen: bit , nat , trit eller hartley .
Entropi er en størrelse defineret i sammenhæng med en probabilistisk model for en datakilde . For eksempel har det entropi at kaste en mønt:
For en kilde, der genererer en streng, der kun består af bogstaverne "A", er entropien nul: , og antallet af mulige tilstande er: den mulige tilstand (værdi) ("A") og afhænger ikke af bunden af logaritme. Dette er også oplysninger, der også skal tages i betragtning. Et eksempel på hukommelsesenheder, der bruger bits med en entropi lig med nul, men med en informationsmængde lig med én mulig tilstand , det vil sige ikke lig med nul, er databits optaget i ROM , hvor hver bit kun har én mulig stat .
Så det kan for eksempel fastslås empirisk, at entropien i en engelsk tekst er 1,5 bit pr. tegn, hvilket vil variere for forskellige tekster. Graden af entropi af datakilden betyder det gennemsnitlige antal bits pr. dataelement, der kræves til deres (data)kryptering uden tab af information, med optimal kodning.
Alfabetet kan have en sandsynlighedsfordeling, der er langt fra ensartet . Hvis det originale alfabet indeholder tegn, så kan det sammenlignes med et "optimeret alfabet", hvis sandsynlighedsfordeling er ensartet. Forholdet mellem entropien af det originale og optimerede alfabet er effektiviteten af det originale alfabet, som kan udtrykkes som en procentdel. Effektiviteten af det originale symbolske alfabet kan også defineres som dets -ary entropi.
Entropi begrænser den maksimalt mulige tabsfri (eller næsten tabsfri) komprimering, der kan realiseres ved hjælp af et teoretisk typisk sæt eller, i praksis, Huffman -kodning , Lempel-Ziv-Welch- kodning eller aritmetisk kodning .
Generelt er b - entropien (hvor b er 2, 3, …) af en kilde med et indledende alfabet og en diskret sandsynlighedsfordeling, hvor er en sandsynlighed ( ) givet ved:
Især når , får vi den sædvanlige binære entropi, målt i bits . Med får vi en trinær entropi målt i trits (en trit har en informationskilde med tre ligesandsynlige tilstande). Når vi får information målt i nats .
Hvis rækkefølgen af bogstaverne i alfabetet ikke er uafhængig (for eksempel på fransk efterfølges bogstavet "q" næsten altid af "u", og efter ordet "peredovik" i sovjetiske aviser, ordet "produktion" eller "arbejdskraft" blev normalt fulgt), mængden af information, der bæres af sekvensen af sådanne symboler (og dermed entropien) er mindre. Betinget entropi bruges til at redegøre for sådanne fakta.
Den betingede entropi af første orden (svarende til Markov-modellen af første orden) er entropien for alfabetet, hvor sandsynligheden for udseendet af det ene bogstav efter det andet er kendt (det vil sige sandsynligheden for kombinationer af to bogstaver) :
hvor er tilstanden afhængig af det forrige tegn, og er den givne sandsynlighed , der var den forrige karakter.
For eksempel for det russiske sprog uden bogstavet "e" [4] .
Med hensyn til private og generelle betingede entropier er informationstab fuldstændig beskrevet under datatransmission i en støjende kanal. Til dette bruges såkaldte kanalmatricer . For at beskrive tabet på kildesiden (det vil sige, at det sendte signal er kendt), skal du overveje den betingede sandsynlighed for at modtage et symbol af modtageren , forudsat at symbolet blev sendt . I dette tilfælde har kanalmatrixen følgende form:
… | … | |||||
---|---|---|---|---|---|---|
… | … | |||||
… | … | |||||
… | … | … | … | … | … | … |
… | … | |||||
… | … | … | … | … | … | … |
… | … |
Sandsynlighederne placeret langs diagonalen beskriver sandsynligheden for korrekt modtagelse, og summen af alle elementer i enhver række giver 1. Tabene pr. transmitteret signal er beskrevet i form af delvis betinget entropi:
For at beregne transmissionstabet af alle signaler bruges den samlede betingede entropi:
betyder entropien fra kildesiden, betragtes entropien fra modtagersiden på samme måde: i stedet er den angivet overalt (som opsummerer elementerne i strengen, kan du få , og elementerne i diagonalen betyder sandsynligheden for, at nøjagtigt tegnet som blev modtaget blev sendt, det vil sige sandsynligheden for korrekt transmission).
Gensidig entropi eller unionsentropi er designet til at beregne entropien af indbyrdes forbundne systemer (entropien af den fælles fremkomst af statistisk afhængige meddelelser) og er betegnet med , hvor karakteriserer senderen, og - modtageren.
Forholdet mellem transmitterede og modtagne signaler er beskrevet af fælles begivenhedssandsynligheder , og der kræves kun én matrix for fuldt ud at beskrive kanalens egenskaber:
… | … | ||||
… | … | ||||
… | … | … | … | … | … |
… | … | ||||
… | … | … | … | … | … |
… | … |
For et mere generelt tilfælde, når ikke en kanal er beskrevet, men interagerende systemer som helhed, behøver matrixen ikke at være kvadratisk. Summen af alle elementer i kolonnen med tallet giver , summen af rækken med tallet er , og summen af alle elementer i matrixen er 1. Den fælles sandsynlighed for hændelser og beregnes som produktet af den indledende og betingede sandsynlighed:
Betingede sandsynligheder er produceret af Bayes' formel . Der er således alle data til beregning af kilde- og modtagerentropierne:
Gensidig entropi beregnes ved successiv række (eller kolonne) summering af alle matrix sandsynligheder ganget med deres logaritme:
Måleenheden er bit/to tegn, det skyldes, at den gensidige entropi beskriver usikkerheden for et tegnpar: sendt og modtaget. Ved simple transformationer opnår vi også
Gensidig entropi har egenskaben af informationsfuldstændighed - alle betragtede mængder kan opnås fra den.
I 1948, mens han undersøgte problemet med rationel transmission af information gennem en støjende kommunikationskanal, foreslog Claude Shannon en revolutionær probabilistisk tilgang til forståelse af kommunikation og skabte den første ægte matematiske teori om entropi . Hans opsigtsvækkende ideer tjente hurtigt som grundlag for udviklingen af to hovedområder: informationsteori , som bruger begrebet sandsynlighed og ergodisk teori til at studere de statistiske karakteristika ved data- og kommunikationssystemer, og kodningsteori , der hovedsageligt bruger algebraiske og geometriske værktøjer. at udvikle effektive koder.
Begrebet entropi som et mål for tilfældighed blev introduceret af Shannon i hans artikel " A Mathematical Theory of Communication " , offentliggjort i to dele i Bell System Technical Journal i 1948.
Ordbøger og encyklopædier | ||||
---|---|---|---|---|
|