Semantisk information er det semantiske aspekt af information, der afspejler forholdet mellem budskabets form og dets semantiske indhold.
Med udgangspunkt i Claude Shannon 's værker er det generelt accepteret [1] , at informationsbegrebet består af tre aspekter: syntaktisk , semantisk og pragmatisk . Den syntaktiske er relateret til de tekniske problemer med at lagre og overføre information, den semantiske er relateret til betydningen og betydningen af meddelelsers sandhed, den pragmatiske berører spørgsmålene om informations indflydelse på folks adfærd. Teorien om semantisk information udforsker området for menneskelig viden og er en integreret del af udviklingen af kunstig intelligens [2] .
Fremkomsten af semiotikken i det 19. århundrede skabte forudsætningerne for fremkomsten af begrebet semantisk information [3] . Det tog endelig form efter fremkomsten af Mathematical Theory of Communication , skabt af Claude Shannon i 1948 [4] . Shannons teori, der nu betragtes som en teori om syntaktisk information, ignorerer fuldstændigt budskabets betydning. Det var da behovet for at skabe en teori om semantisk information blev realiseret.
I 1952 foreslog Yehoshua Bar-Hillel og Rudolf Carnap en teori om semantisk information baseret på begrebet logiske sandsynligheder [5] . Semantisk information tolkes af forfatterne som et synonym for semantisk indhold, som både sande og falske udtryk har. To hovedmål for mængden af semantisk information i en sætning tages i betragtning . Den første er defineret sådan:
,hvor er den absolutte logiske sandsynlighed for sætningen . Det andet mål er en ikke-lineær funktion af det første:
.Det er interessant for to logisk uafhængige sætninger , og vi har uligheden: , hvor " " er tegnet på det logiske bindeled "AND", hvorimod:
, (*)som er mere velegnet til at måle mængden af information.
For at bestemme værdierne af de logiske sandsynligheder for sætninger konstruerer Bar-Hillel og Carnap et formelt sprog og bruger det til at sammensætte beskrivelser af alle mulige tilstande i universet (det såkaldte " sæt af mulige verdener "). Lad os give et eksempel på et simpelt sprog, hvor der er en konstant (hvorved vi mener pigen Alice) og to prædikater : og , der betegner egenskaberne "smuk" og "smart". Så betyder udtrykket sætningen "Alice er smuk", og udtrykket betyder "Alice er smart". Nu bruger vi den logiske forbindelse "NOT", som vi betegner med symbolet: " ". Så vil udtrykket betyde sætningen "Alice er ikke smuk", og udtrykket - "Alice er ikke smart." Vi kan nu sammensætte alle mulige beskrivelser af universets tilstande til vores ydmyge sprog. Der bliver fire i alt.
Som det kan ses, består hver verden af universet af logisk uafhængige atomsætninger (og deres negationer), kaldet grundlæggende. Normalt bruger formelle sprog en masse konstanter og mange prædikater, og ikke nødvendigvis enkelte . Så antallet af verdener kan være meget stort.
Hvis ingen forudsætninger er givet, så er de logiske sandsynligheder for alle verdener de samme. I dette tilfælde er størrelsen af den absolutte logiske sandsynlighed for sætningen lig med forholdet mellem antallet af verdener, hvor det er sandt, og det samlede antal verdener i universet. I teorien om Bar-Hillel og Carnap er de logiske sandsynligheder for analytiske udtryk de samme og lig med én (da de er sande i alle verdener), og den logiske sandsynlighed for modsigelse er nul. Værdierne af logiske sandsynligheder for syntetiske udtryk er i området fra nul til én.
Jo flere verdener i universet, jo større er usikkerheden (med hensyn til hvilken verden der er sand). Efter at have modtaget beskeden , falder usikkerheden, da de verdener, hvor den er falsk, kan udelukkes fra overvejelse. Semantisk information i en sætning forstås som et sæt af udelukkede verdener (det er angivet med symbolet ). Med hensyn til denne definition skriver forfatterne, at den er i overensstemmelse med det gamle filosofiske princip " omnis determinatio est negatio " (" enhver definition er en undtagelse "). Nu til målingen kan vi skrive:
,hvor er sættets kardinalitet , er kardinaliteten af sættet af alle universets verdener .
Mængden af semantisk information i en besked vedrørende modtagerens viden er defineret som følger:
,hvor er den relative (betingede) logiske sandsynlighed for udsagnets sandhed under forudsætning af, at udtrykket er sandt .
Det er bemærkelsesværdigt, at formlerne i Bar-Hillel og Carnap teorien rent udadtil ligner dem i Shannons teori. Både der og her har vi logaritmer og sandsynligheder . Kun i Shannon er alle sandsynligheder statistiske (det vil sige empiriske ) og ikke logiske.
Hvis den logiske sandsynlighed for udtrykket er mindre end den logiske sandsynlighed for udtrykket , så bringer beskeden ny information til modtageren og beriger dermed hans viden. Hvis det indebærer , så er det ækvivalent , og meddelelsen bærer ikke information til adressaten (da der ikke er noget nyt i det for ham). Hvis udtrykket er en selvmodsigelse, så . Mængden af semantisk information i modsigelsen ifølge Bar-Hillel og Carnap er lig med uendelig . Dette paradoksale resultat blev senere kritiseret af Luciano Floridi.
Selvom teorien om Bar-Hillel og Carnap stadig nyder forskernes opmærksomhed, forårsagede den en strøm af nye ideer. Alexander Kharkevich foreslog at måle værdien af information ved at ændre sandsynligheden for at opnå et bestemt mål, der sker under indflydelse af denne besked [6] . Julius Schrader mente, at mængden af semantisk information i et budskab af enhver art kan vurderes som graden af forandring i modtagerens vidensystem som følge af perceptionen af budskabet [7] . Ideen om det semantiske aspekt af forholdet mellem information og entropi blev først foreslået i 1966 af den sovjetiske filosof og logiker Yevgeny Kazimirovich Voishvillo i hans arbejde " Et forsøg på en semantisk fortolkning af de statistiske begreber information og entropi ".
I sit arbejde fra 2004 angriber Luciano Floridi teorien om Bar Hillel og Carnap fra første linje: " Trekanten har fire sider": ifølge den klassiske teori om semantisk information indeholder denne modsigelse mere semantisk indhold end det betinget sande udsagn " Jorden har kun én måne “ ” [8] . Floridi kaldte dette " Bar-Hillel-Carnap-paradokset ". Han ser løsningen på dette paradoks i, at mængden af semantisk information i meddelelser ikke kun skal afhænge af det semantiske indhold, der er indeholdt i dem, men også af disse meddelelsers sandhedsværdi. Floridi introducerede begrebet en betinget falsk sætning ( kontingent falsk sætning ), som er en sammensætning af dens to bestanddele, hvoraf den ene er sand og den anden er falsk. Et eksempel på en sådan sætning er udsagnet: "Månen kredser om Jorden og indeni er den hul." En sådan sætning rummer samtidig information (for dem, der ikke ved, at Månen kredser om Jorden) og desinformation (i det almindelige liv støder man ofte på dette - desinformation er lettere at fremme, hvis den suppleres med noget information).
Fra klassisk logiks synspunkt er en betinget falsk sætning simpelthen falsk og indeholder kun desinformation. Ovenstående eksempel viser dog, at dette faktisk ikke er tilfældet. Den originale teori om Bar-Hillel og Carnap formår ikke at løse denne antinomi . Derfor afviste Floridi den (som en "svag" teori) og skabte sin egen - "stærk". Han opgav brugen af logiske sandsynligheder og udtalte, at teorien om semantisk information ikke burde ligne Shannons [9] . I hans egen fortolkning er mængden af semantisk information i en besked bestemt af, i hvilken grad denne besked svarer til situationen (det vil sige, hvad der sker et givet sted og på et givet tidspunkt). En inkonsistens opstår enten som følge af beskedens manglende indhold eller som følge af dens unøjagtighed. I sin teori bruger Floridi ikke direkte begrebet desinformation, i stedet introducerer han begrebet om graden af unøjagtighed af betinget falske sætninger. Graden af unøjagtighed i en betinget falsk sætning er lig med:
,hvor er antallet af falske atomudtryk i ; er det samlede antal atomsætninger i . At bestemme sandheden af atomare påstande kræver accept af princippet om a priori alvidenhed. Graden af indholdsløshed af en sand sætning beregnes ved formlen:
,hvor er antallet af verdener i universet, hvor det er sandt; er det samlede antal verdener i universet (bemærk, at værdien ifølge denne definition er nøjagtigt lig med værdien af den logiske sandsynlighed ). Yderligere introducerer Floridi begrebet funktionen af graden af informativitet:
.Mængden af semantisk information i meddelelsen er lig med et vist integral af funktionen af graden af informativitet :
.På trods af alle forskellene mellem den klassiske teori og den Floridiske teori, har de noget til fælles. Hvis er en sand sætning, så er værdien lig med værdien af den logiske sandsynlighed . Målingen ligner målet , men i modsætning til sidstnævnte er det en ikke-lineær funktion . Desværre er der i Floridis teori intet som et mål , der har den bemærkelsesværdige egenskab (*) for logisk uafhængige sætninger.
Problemet rejst af Floridi kan løses inden for en teori baseret på logiske sandsynligheder. Det skal bemærkes, at i begyndelsen af det nuværende århundrede dannede nogle videnskabsmænd en skeptisk holdning til Carnaps induktive logik [10] . Imidlertid har moderne matematikere været i stand til at ændre situationen ved at modificere denne teori [11] [12] [13] . Takket være dette blev interessen for logiske sandsynligheder genoplivet igen.
I [14] foreslås det at modificere den klassiske teori om semantisk information ved at inkludere begrebet desinformation i den, som bæres af et falsk budskab. I den nye teori, som i Floridi-teorien, overvejes mange forskellige situationer (punkter i rum-tid). Den samme sætning i et sprog kan være sand i én situation og falsk i en anden. Da modtageren af meddelelser ikke kan være immun over for fejl i vurderingen af deres sandhed, vurderes mængden af semantisk information separat fra modtagerens synspunkt og fra en alvidende eksperts synspunkt.
I hver specifik situation indeholder en sand besked kun information, og en absolut falsk kun desinformation. En betinget falsk sætning betragtes som en konjunktion : , hvor er den sande del af meddelelsen, er den falske del af meddelelsen. Det kræves, at og være logisk uafhængig (dette er især nødvendigt, så modsigelsen ikke viser sig at være en betinget falsk sætning). Derefter defineres de ikke -normaliserede mål for mængden af information og mængden af misinformation i en betinget falsk sætning fra en eksperts synspunkt som følger:
, .Indekset " ", som markerer symbolerne " " og " " i formlerne, indikerer, at mængderne af information og desinformation betragtes fra en eksperts synspunkt. Normaliserede mål for mængden af semantisk information og desinformation i en betinget falsk sætning fra en eksperts synspunkt:
, .Kontrovers fra ekspertens synspunkt rummer ingen information og en uendelig mængde desinformation. Dette løser Bar-Hillel-Carnap-paradokset. Den uendelige mængde desinformation forklares med, at hvis modsigelsen pludselig forekom nogen sandheden, så ville verden ændre sig for ham til ukendelighed. To ord kan ikke beskrive det. Antag, at modtageren af information har betinget falsk viden , svarende til konjunktionen: , hvor er den sande del af hans viden, er vildfarelse. Så fra en eksperts synspunkt, efter at have modtaget en betinget falsk besked , har adressaten faktisk semantisk information og misinformation i følgende mængder:
, .Hvis modtageren opfatter som en sand sætning, og konjunktionen ikke er en selvmodsigelse, modtog han fra hans synspunkt følgende mængde information:
.Suffikset " " angiver modtagerens vurdering. Det er klart, at kun en ekspert kan bestemme den nøjagtige mængde information (og misinformation) i en indgående besked, og modtageren er kun i stand til mere eller mindre præcise estimater.
En formel beskrivelse af semantisk information gældende for alle slags fysiske systemer (levende og ikke-levende) er givet af matematikeren David Wolpert i hans værk "Semantic information, agency, and nonequilibrium statistical physics": den syntaktiske information, som et fysisk system har om miljøet, og som er kausalt nødvendigt for, at systemet kan opretholde sin egen eksistens i en tilstand af lav entropi.
Tilfældig nødvendighed defineres i form af kontrafaktiske indgreb, der randomiserer sammenhænge mellem systemet og miljøet. Kriteriet for graden af autonomi i et fysisk system er mængden af tilgængelig semantisk information.