Bragman-divergens

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 20. november 2021; checks kræver 2 redigeringer .

Bragman- divergens eller Bragman-afstand er et mål for afstanden mellem to punkter , defineret som en strengt konveks funktion . De udgør en vigtig klasse af divergenser . Hvis punkterne fortolkes som en sandsynlighedsfordeling , enten som værdier af en parametrisk model , eller som et sæt af observerede værdier, så er den resulterende afstand en statistisk afstand . Den mest elementære Bragman-divergens er den kvadrerede euklidiske afstand .

Bragman-divergenser ligner metrik , men opfylder hverken trekantens ulighed eller symmetri (i det generelle tilfælde), men de opfylder den generaliserede Pythagoras sætning . I informationsgeometri ] fortolkes den tilsvarende statistiske manifold som en flad manifold (eller dobbelt). Dette gør det muligt at generalisere mange optimeringsteknikker til Bragman-divergens, hvilket svarer geometrisk til en generalisering af mindste kvadraters metode .

Bragman-divergensen er opkaldt efter Lev Meerovich Bragman , som foreslog konceptet i 1967.

Definition

Lade være en kontinuerligt differentierbar strengt konveks funktion defineret på et lukket konveks sæt .

Bragman-afstanden forbundet med funktionen F for punkter er forskellen mellem værdien af ​​funktionen F ved punkt p og værdien af ​​førsteordens Taylor-udvidelse af funktionen F ved punkt q , beregnet ved punkt p :

Egenskaber

Her og er de dobbeltpunkter svarende til p og q.

Eksempler

dannes af den negative entropifunktion generaliseret af en konveks funktion

Generalisering af projektiv dualitet

Et nøgleværktøj inden for beregningsgeometri er ideen om projektiv dualitet , som kortlægger punkter til hyperplanet og omvendt, samtidig med at forekomsten og over/under-relationerne bevares. Der er mange typer af projektiv dualitet - den sædvanlige form kortlægger et punkt til et hyperplan . Denne afbildning kan forstås (hvis vi identificerer hyperplanet med normalen) som en konveks konjugeret afbildning, der tager punktet p til dobbeltpunktet , hvor F definerer en d - dimensionel paraboloid .

Hvis vi nu erstatter paraboloiden med en hvilken som helst konveks funktion, får vi endnu en dobbelt mapping, der bevarer incidensen og over/under egenskaberne for den standard projektive dualitet. Det følger heraf, at naturlige dobbeltbegreber for beregningsgeometri, som Voronoi-diagrammet og Delaunay-trianguleringerne , bevarer deres værdi i rum med en afstand defineret af en vilkårlig Bragman-divergens. Algoritmer med "normal" geometri strækker sig naturligt til disse rum [4] .

Generaliseringer af Bragman-divergensen

Bragman-divergenser kan tolkes som begrænsende tilfælde af Jensen-skæv-divergenser [5] (se avisen af ​​Nielsen og Bolz [6] ). Jensen-divergenser kan generaliseres ved hjælp af komparativ konveksitet, og generalisering af grænsetilfældene for disse skæve Jensen-divergenser fører til generaliserede Bragman-divergenser (se papiret af Nielsen og Nock [7] ). Den akkordale divergens af Bragman [8] opnås ved at tage en akkord i stedet for en tangent.

Bragman divergens på andre objekter

Bragman-divergens kan defineres for matricer, funktioner og mål (fordelinger). Bragman-divergensen for matricer inkluderer Stein-tabsfunktionen [9] og Neumann-entropien . Bragman-divergenser for funktioner omfatter total kvadratisk fejl, relativ entropi og kvadratisk bias (se Frigik et al . [3] nedenfor for definitioner og egenskaber). Tilsvarende er Bragman-divergensen også defineret for mængder ved hjælp af den submodulære sætfunktion , kendt som den diskrete analog af den konvekse funktion . Submodulær Bragman-divergens inkluderer en række diskrete mål såsom Hamming-afstand , præcision og genkald , gensidig information og nogle andre afstandsmål på sæt (se Ayer og Bilmes [10] for detaljer og egenskaber ved submodulær Bragman-divergens).

En liste over almindelige Bragman matrix divergenser kan findes i Tabel 15.1 i artiklen af ​​Nock, Magdalow, Bryce, Nielsen [11] .

Ansøgninger

I maskinlæring bruges Bragman divergens til at beregne en modificeret logistisk fejlfunktion, der yder bedre end softmax på støjende data [12] .

Noter

  1. Bauschke, Borwein, 2001 .
  2. Banerjee, Merugu, Dhillon, Ghosh, 2005 .
  3. 1 2 Frigyik, Srivastava, Gupta, 2008 .
  4. Boissonnat, Nielsen, Nock, 2010 .
  5. ↑ Navnet Jensen-Shannon Divergence har slået rod i russisksproget litteratur , selvom Jensen er dansker og bør læses på dansk, ikke på engelsk. Wikipedia har en artikel om Jensen .
  6. Nielsen, Boltz, 2011 .
  7. Nielsen, Nock, 2017 .
  8. Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv : 1810.09113 [cs.LG]. 
  9. For udtrykket Steins tab, se https://www.jstor.org/stable/2241373?seq=1 Arkiveret 17. november 2020 på Wayback Machine
  10. Iyer, Bilmes, 2012 .
  11. Nock, Magdalou, Briys, Nielsen, 2012 , s. 373-402.
  12. Amid, Warmuth, Anil, Koren, 2019 , s. 14987-14996.

Litteratur