Differentielt privatliv er et sæt metoder, der giver de mest nøjagtige forespørgsler til en statistisk database, samtidig med at muligheden for at identificere individuelle poster i den minimeres.
Differentiel privatliv er den matematiske definition af tab af enkeltpersoners følsomme data, når deres personlige oplysninger bruges til at skabe et produkt. Udtrykket blev opfundet af Cynthia Dwork i 2006 [1] men er også brugt i en tidligere publikation af Dwork, Frank McSherry , Kobe Nissim og Adam D. Smith [2] . Arbejdet er især baseret på forskning fra Nissim og Irit Dinur [3] [4] , som viste, at det er umuligt at offentliggøre oplysninger fra en privat statisk database uden at blotlægge nogle af de private oplysninger, og at hele databasen kan videregives ved at offentliggøre resultaterne af et ret lille antal anmodninger [4] .
Efter undersøgelsen blev det klart, at det var umuligt at sikre fortrolighed i statistiske databaser ved hjælp af eksisterende metoder, og som følge heraf var der behov for nye, der ville begrænse risiciene forbundet med tab af private oplysninger indeholdt i statistikkerne. database. Som følge heraf er der blevet skabt nye metoder, der i de fleste tilfælde gør det muligt at levere nøjagtige statistikker fra databasen, samtidig med at de giver et højt niveau af fortrolighed [5] [6] .
Differentieret privatliv er baseret på at indføre tilfældighed i dataene.
Et simpelt eksempel udviklet inden for samfundsvidenskab [7] er at bede en person om at besvare spørgsmålet "Har du attribut A?" efter følgende procedure:
Fortrolighed opstår, fordi det er umuligt at vide med sikkerhed ud fra svaret, om en person har en given egenskab. Ikke desto mindre er disse data signifikante, da positive svar kommer fra en fjerdedel af de mennesker, der ikke har denne egenskab, og tre fjerdedele af dem, der faktisk har den. Således, hvis p er den sande andel af personer med A, så forventer vi at få (1/4) (1- p) + (3/4) p = (1/4) + p / 2 positive svar. Derfor kan man estimere R.
Lad ε være et positivt reelt tal, og A være en sandsynlighedsalgoritme , der tager et sæt data som input (repræsenterer handlingerne fra en betroet part, der har dataene). Betegn billedet af A ved im A . Algoritme A er ε - forskelligt privat , hvis for alle datasæt, og som adskiller sig med ét element (dvs. data fra én person), såvel som alle delmængder S af sættet im A :
hvor P er sandsynligheden.
Ifølge denne definition er differentieret privatliv en betingelse for datapubliceringsmekanismen (det vil sige bestemt af den betroede part, der frigiver oplysninger om datasættet), ikke selve datasættet. Intuitivt betyder dette, at for alle to ens datasæt vil den differentielle private algoritme opføre sig omtrent det samme på begge datasæt. Definitionen giver også en stærk garanti for, at tilstedeværelsen eller fraværet af en person ikke vil påvirke det endelige output af algoritmen.
Antag for eksempel, at vi har en database med medicinske journaler, hvor hver journal er et par af ( Navn , X ), hvor er nul eller én, der angiver, om personen har gastritis eller ej:
Navn | Tilstedeværelse af gastritis (X) |
---|---|
Ivan | en |
Peter | 0 |
Vasilisa | en |
Michael | en |
Maria | 0 |
Antag nu, at en ondsindet bruger (ofte omtalt som en angriber) ønsker at finde ud af, om Mikhail har gastritis eller ej. Lad os også antage, at han ved, hvilken række der indeholder oplysninger om Mikhail i databasen. Antag nu, at en angriber kun har tilladelse til at bruge en specifik form for forespørgsel , der returnerer en delvis sum af de første rækker i en kolonne i databasen. For at finde ud af, om Mikhail har gastritis, udfører angriberen forespørgsler: og beregner derefter deres forskel. I dette eksempel er , og , så deres forskel er . Dette betyder, at feltet "Tilstedeværelse af gastritis" i Mikhails linje skal være lig med . Dette eksempel viser, hvordan individuelle oplysninger kan kompromitteres, selv uden en eksplicit anmodning om en specifik persons data.
Hvis vi fortsætter med dette eksempel, hvis vi bygger datasættet ved at erstatte (Mikhail, 1) med (Mikhail, 0), så vil angriberen være i stand til at skelne fra ved at beregne for hvert datasæt. Hvis en angriber skulle opnå værdier via en ε-differentiel privat algoritme, for en tilstrækkelig lille ε, så ville han ikke være i stand til at skelne mellem de to datasæt.
Mønteksemplet beskrevet ovenfor er -differentiel privat [8] .
Tilfældet, hvor ε = 0 er ideel til at opretholde fortrolighed, da tilstedeværelsen eller fraværet af nogen information om nogen person i databasen ikke påvirker resultatet af algoritmen, men en sådan algoritme er meningsløs med hensyn til nyttig information, da selv med nul antal personer vil det give det samme eller lignende resultat.
Hvis ε har en tendens til uendelig, vil enhver sandsynlighedsalgoritme passe til definitionen, da uligheden altid er opfyldt.
Lad være et positivt heltal, være et datasæt og være en funktion. Følsomheden [9] af funktionen, betegnet med , bestemmes af formlen
over alle par af datasæt og i , der ikke adskiller sig med mere end ét element, og hvor angiver normen .
I ovenstående eksempel på en medicinsk database, hvis vi overvejer følsomheden af funktionen , så er den lig med , da ændring af nogen af posterne i databasen fører til noget, der enten ændres til eller ikke ændres.
På grund af det faktum, at differentieret privatliv er et probabilistisk begreb, har enhver af dens metoder nødvendigvis en tilfældig komponent. Nogle af dem bruger, ligesom Laplaces metode, tilføjelsen af kontrolleret støj til den funktion, der skal beregnes.
Laplace-metoden tilføjer Laplace-støj, det vil sige støjen fra Laplace-fordelingen , som kan udtrykkes som en sandsynlighedstæthedsfunktion, og som har nul middelværdi og standardafvigelse . Lad os definere outputfunktionen som en funktion med reel værdi i formen hvor , og er den forespørgsel, som vi planlagde at udføre i databasen. Det kan således betragtes som en kontinuert stokastisk variabel , hvor
som ikke er mere end (pdf - sandsynlighedstæthedsfunktion eller sandsynlighedstæthedsfunktion). I dette tilfælde kan vi betegne privatlivsfaktoren ε. Er således ifølge definitionen ε-differentiel privat. Hvis vi forsøger at bruge dette koncept i ovenstående eksempel om tilstedeværelsen af gastritis, så for at være en ε-differentiel privat funktion, skal holde , siden ).
Ud over Laplace-støj kan andre typer støj (for eksempel Gaussisk) også bruges, men de kan kræve en lille lempelse af definitionen af differentieret privatliv [10] .
Hvis vi udfører en forespørgsel ε-differentielt sikre gange, og den introducerede tilfældige støj er uafhængig for hver forespørgsel, så vil det totale privatliv være (εt)-differentiel. Mere generelt, hvis der er uafhængige mekanismer: , hvis privatlivsgarantier er henholdsvis lige store, så vil enhver funktion være -differentiel privat [11] .
Desuden, hvis forespørgsler udføres på ikke-overlappende undersæt af databasen, vil funktionen være -differentiel privat [11] .
Differentiel privatliv er generelt designet til at beskytte privatlivets fred mellem databaser, der kun adskiller sig med én linje. Det betyder, at ingen modstander med vilkårlige hjælpeoplysninger kan vide, om en enkelt deltager har givet sine oplysninger. Dette koncept kan dog udvides til en gruppe, hvis vi ønsker at beskytte databaser, der adskiller sig efter rækker, så en angriber med vilkårlig understøttende information ikke kan vide, om individuelle medlemmer har givet deres oplysninger. Dette kan opnås, hvis formlen fra definitionen erstattes af [12] , så for D 1 og D 2 , der er forskellige med rækker
Ved at bruge parameteren (ε/c) i stedet for ε kan du således opnå det ønskede resultat og beskytte strengene. Med andre ord, i stedet for at hvert element er ε-differentiel privat, nu er hver gruppe af elementer ε-differentiel privat, og hvert element er (ε/c)-differentiel privat.
Til dato er der flere anvendelser for differentieret privatliv: