I sandsynlighedsteori og statistik er en Gauss-proces en stokastisk proces (et sæt af tilfældige variable indekseret af en eller anden parameter, oftest tid eller koordinater), således at ethvert endeligt sæt af disse tilfældige variable har en multivariat normalfordeling , dvs. enhver finit lineær kombination af dem er normalfordelt. Fordelingen af en Gauss-proces er den fælles fordeling af alle dens stokastiske variable og er derfor en fordeling af funktioner med et kontinuerligt definitionsdomæne.
Hvis vi betragter den Gaussiske proces som en måde at løse maskinlæringsproblemer på, så bruges doven læring og et mål for lighed mellem punkter ( kernefunktion ) til at opnå en forudsigelse af værdien af et usynligt punkt fra træningsprøven. Forecast-begrebet omfatter udover selve punktestimatet information om usikkerhed - en endimensionel Gauss-fordeling. [en]
For at beregne forudsigelserne af nogle kernefunktioner bruges en matrixalgebrametode, kriging .
Gauss-processen er opkaldt efter Carl Friedrich Gauss , da den er baseret på konceptet om en Gauss-fordeling ( normalfordeling ). Den Gaussiske proces kan ses som en uendelig-dimensionel generalisering af multivariate normalfordelinger. Disse processer anvendes i statistisk modellering ; der anvendes især normalitetsegenskaber. For eksempel, hvis en tilfældig proces modelleres som en gaussisk, så kan fordelingen af forskellige afledte størrelser, såsom processens gennemsnitlige værdi over en vis tidsperiode og fejlen i dens estimering ved hjælp af en stikprøve af værdier, opnås eksplicit.
En tilfældig proces med kontinuerlig tid er Gaussisk, hvis og kun hvis for ethvert endeligt sæt af indekser fra sættet af indekser
er en multidimensionel Gaussisk stokastisk variabel . [2] Det samme som enhver lineær kombination har en endimensionel normal (Gauss) fordeling. Ved at bruge de karakteristiske funktioner af stokastiske variabler kan den Gaussiske egenskab formuleres som følger: - Gaussisk, hvis og kun hvis der for ethvert endeligt sæt af indekser er reelle værdier , hvor sådanne for al ligheden
Hvor er den imaginære enhed .
Tallene og er henholdsvis kovarianserne og middelværdierne for variablerne i processerne. [3]
Hovedtræk ved Gaussiske processer er, at de fuldstændigt kan bestemmes af andenordens statistik. [4] Derfor bestemmer kovariansfunktionen fuldstændig processens opførsel, hvis den matematiske forventning til Gauss-processen er lig nul. Det er vigtigt at bemærke, at den ikke-negative bestemthed af en funktion muliggør dens spektrale nedbrydning ved hjælp af Karhunen-Loeve-udvidelsen . Gennem kovariansfunktionen kan man bestemme processens stationaritet , isotropi , glathed og periodicitet . [4] [5]
Stationaritet udtrykker processens opførsel med hensyn til afstanden mellem to punkter og . Hvis processen er stationær, afhænger den af dens punkters relative position, afstanden mellem dem, ellers er den ikke-stationær, det vil sige, at den afhænger af punkternes faktiske position og . Et eksempel er et særligt tilfælde af Ornstein-Uhlenbeck-processen, processen med Brownsk bevægelse : den er stationær.
Hvis en proces kun afhænger af , den euklidiske afstand (ikke retning) mellem og , så siges processen at være isotrop. En stationær og isotrop proces kaldes homogen; [6] i praksis afspejler egenskaberne ved stationaritet og isotropi forskelle (eller rettere deres fravær) i processens adfærd, under hensyntagen til observatørens position.
Essensen af Gaussiske processer er at opnå a priori sandsynlighedsfordelinger, hvis glathed afhænger af den taget kovariansfunktion. [4] Hvis vi forventer, at for "liggende tæt" inputpunkter og deres tilsvarende udgangspunkter og også "liggende tæt på", så er der en antagelse om kontinuitet af funktionen. Hvis vi vil tillade en signifikant bias, skal vi vælge en grovere kovariansfunktion. Eksempler på ekstrem adfærd omfatter Ornstein-Uhlenbeck kovariansfunktionen og den kvadratiske eksponentielle funktion, hvor førstnævnte intetsteds kan differentieres, og sidstnævnte er uendeligt differentierbar.
Periodicitet forstås som induktion af periodiske mønstre i processens adfærd. Formelt opnås dette ved at kortlægge inputværdien til en todimensionel vektor
Der er en række almindelige kovariansfunktioner: [5]
Her . Parameteren er karakteristisk for processens længdeskala (praktisk talt "hvor tæt" to punkter skal være for at påvirke hinanden markant), er Kronecker-symbolet og er standardafvigelsen for støjudsving. Derudover er en modificeret Bessel-funktion og er en gammafunktion beregnet ud fra . Det er vigtigt at bemærke, at en kompleks kovariansfunktion kan defineres som en lineær kombination af andre enklere kovariansfunktioner for at kombinere forskellig information om de tilgængelige datasæt.
Det er klart, at de opnåede resultater afhænger af værdierne af hyperparametre (for eksempel og ), der bestemmer modellens adfærd.
Wienerprocessen (den såkaldte Brownske bevægelse) er et integral af Gaussisk hvid støjproces. Den er ikke stationær , men den har stationære trin.
Ornstein-Uhlenbeck-processen er en stationær Gauss-proces.
En Brownsk bro (svarende til Ornstein-Uhlenbeck-processen) er et eksempel på en Gauss-proces, hvis stigninger ikke er uafhængige .
Fraktionel Brownsk bevægelse er en Gauss-proces, hvis kovariansfunktion er en generalisering af Wiener-procesfunktionen.
Den Gaussiske proces kan bruges som den forudgående sandsynlighedsfordeling af funktioner i Bayesiansk inferens . [5] [8] For ethvert sæt af N punkter i det ønskede funktionsdomæne, tag en multivariat Gauss-fordeling, hvis kovariansmatrixparameter er Gram-determinanten for de N punkter taget med en ønsket kerne, og en prøve fra denne fordeling.
Udledningen af kontinuerte værdier baseret på Gauss-processen bestemt af de tidligere kovarianser er kendt som kriging (regression baseret på Gauss-processen). Derfor er Gaussiske processer nyttige som et kraftfuldt ikke-lineært multidimensionelt interpolationsværktøj . Gaussisk procesregression kan udvides yderligere til at løse både superviserede og uovervågede læringsproblemer ( selvlæring ) .
Når det kommer til det grundlæggende problem med regression baseret på den Gaussiske proces ( kriging ), antages det, at for en Gaussisk proces observeret i koordinater , er værdivektoren blot et af stikprøverne af en multivariat Gauss-fordeling, hvis dimension er lig med antal observerede koordinater . Derfor, under nulfordelingsantagelsen, , hvor er kovariansmatrixen mellem alle mulige par for et givet sæt hyperparametre . [5] Således er logaritmen af den marginale sandsynlighed lig med:
og maksimering af denne marginale sandsynlighed med hensyn til giver en fuldstændig karakterisering af den Gaussiske proces . Det kan bemærkes, at det første udtryk afhænger af modellens manglende evne til at matche de observerede værdier, og det andet udtryk er direkte proportionalt med modellens kompleksitet. Efter at have angivet og lavet en forudsigelse om uobserverede værdier i koordinater , er det tilbage at tegne et plot af prøver fra den forudsigende fordeling , hvor det efterfølgende gennemsnitlige estimat er defineret som
og det efterfølgende estimat af variansen B er defineret som
hvor er kovariansen mellem det nye koordinatestimat og alle andre observerede koordinater for den givne hyperparametriske vektor , og er defineret som før, og er variansen i det punkt , som er dikteret af vektoren . Det er vigtigt at bemærke, at det efterfølgende middelestimat ("punktestimatet") er en lineær kombination af observationerne ; ligeledes er variansen reelt uafhængig af observationer . En kendt flaskehals i Gaussisk procesforudsigelse er, at den beregningsmæssige kompleksitet af forudsigelsen er kubisk i antallet af punkter , dvs. beregningen er muligvis ikke mulig for store datasæt. [4] For at komme uden om dette problem arbejdes der på sparsomme gaussiske processer, som normalt er baseret på ideen om at konstruere et repræsentativt sæt for en given proces . [9] [10]