Shannons krypteringskildesætning

I informationsteorien sætter Shannons krypteringskildesætning (eller tavs krypteringssætning) en grænse for den maksimale datakomprimering og en numerisk værdi for Shannons entropi .

Sætningen viser, at (når mængden af ​​data har en tendens til uendelig i en strøm af uafhængige og ligeligt fordelte (IED) stokastiske variabler) er det umuligt at komprimere dataene, så kodeestimatet (gennemsnitligt antal bits pr. symbol) er mindre end Shannon-entropien af ​​de originale data uden tab af informationsnøjagtighed. Det er dog muligt at opnå en kode tæt på Shannon-entropien uden væsentlige tab.

Krypteringskildesætningen for tegnkoder bringer øvre og nedre grænser til den mindst mulige længde af krypterede ord som funktion af inputordets entropi (som er repræsenteret som en tilfældig variabel) og størrelsen af ​​det nødvendige alfabet.

Erklæring

Kildekoden er en mapping (sekvens) fra informationslageret til en sekvens af alfabetiske tegn (normalt bits), således at kildetegnet kan opnås entydigt fra binære cifre (tabsfri kodningskilde) eller opnås med en vis forskel (tabsgivende kodningskilde) . Dette er ideen bag datakomprimering.

Krypteringskilde til tegnkoder

Inden for datalogi siger krypteringskildesætningen (Shannon 1948) at:

En N tilfældig variabel med entropi H ( X ) kan komprimeres til mere end N  H ( X ) bits med ubetydelig risiko for datatab, hvis N går til det uendelige, men hvis komprimeringen er mindre end N  H ( X ) bit, så data, der højst sandsynligt går tabt. (MacKay 2003)."

Krypteringskildesætning for tegnkoder

Lad , betegne to endelige alfabeter, og lad og betegne mængden af ​​alle endelige ord fra disse alfabeter (ordnet).

Antag, at X er en tilfældig variabel, der tager en værdi fra , og f er en dechifrerbar kode fra til , hvor . Lad S repræsentere en stokastisk variabel givet af ordlængden f ( X ).

Hvis f er optimal i den forstand, at den har den mindste ordlængde for X , så

(Shannon 1948).

Bevis for krypteringskildesætningen

Da det er en NOR, er dens tidsserie X 1 , …, Xn også en NOR med entropi H ( X ) i tilfælde af diskrete værdier og med differentiel entropi i tilfælde af kontinuerte værdier. Krypteringskildesætningen siger, at for hvert estimat, der er større end ressourcens entropi, er der et tilstrækkeligt stort n og en kryptering, der tager n NOP-kopier af ressourcen , , , og kortlægger den til binære bits på en sådan måde at det oprindelige tegn kan gendannes fra binære bit, X med en sandsynlighed på mindst .

Bevis

Lad os tage nogle . formlen for, , ser sådan ud:

AEP viser, at for tilstrækkeligt store n er sekvensen genereret fra kilden upålidelig i det typiske tilfælde - , konvergent. I tilfældet for stor nok: n , (se AEP)

Definitionen af ​​typiske sæt indebærer, at de sekvenser, der ligger i et typisk sæt, opfylder:

Læg mærke til det:

mere end

At starte med bits er nok til at skelne enhver streng

Krypteringsalgoritme: indkoderen kontrollerer, om den indkommende sekvens er falsk, hvis ja, returnerer den derefter indekset for den indgående frekvens i sekvensen, hvis ikke, returnerer den et tilfældigt ciffer. numerisk værdi. Hvis inputsandsynligheden er forkert i sekvensen (med en frekvens på ca ), genererer indkoderen ikke en fejl. Det vil sige, at sandsynligheden for fejl er højere end

Bevis for reversibilitet Beviset for reversibilitet er baseret på det faktum, at det er nødvendigt at vise, at for enhver sekvens af størrelse mindre end (i betydningen af ​​eksponenten) vil dække frekvensen af ​​sekvensen afgrænset af 1.

Bevis for krypteringskildesætningen for tegnkoder

Lad ordet længde for hver mulig ( ). Lad os definere , hvor C er valgt på en sådan måde, at: .

Derefter

hvor den anden linje er Gibbs-uligheden og den femte linje er Kraft - uligheden .

for den anden ulighed, vi kan sætte

og så

og

Således opfylder minimum S

Noter