En naiv Bayes klassifikator er en simpel probabilistisk klassifikator baseret på anvendelsen af Bayes ' sætning med strenge (naive) uafhængighedsantagelser .
Afhængigt af den præcise karakter af den sandsynlige model kan Naive Bayes-klassifikatorer trænes meget effektivt. Mange praktiske applikationer bruger den maksimale sandsynlighed metode til at estimere parametre for naive bayes modeller ; man kan med andre ord arbejde med en naiv Bayesiansk model uden at tro på Bayesiansk sandsynlighed og uden at bruge Bayesianske metoder.
På trods af deres naive udseende og utvivlsomt meget forenklede udtryk, præsterer Naive Bayes-klassifikatorer ofte meget bedre end neurale netværk i mange komplekse virkelige situationer.
Fordelen ved den naive Bayes-klassifikator er den lille mængde data, der kræves til træning, parameterestimering og klassificering.
Den probabilistiske model for klassifikatoren er en betinget model
over afhængig klassevariabel med få resultater eller klasser , afhængig af få variabler . Problemet er, at når antallet af ejendomme er meget stort, eller når en ejendom kan antage et stort antal værdier, så bliver det umuligt at bygge sådan en model på sandsynlighedstabeller. Derfor vil vi omformulere modellen for at gøre den let at bearbejde.
Ved at bruge Bayes' sætning skriver vi
I praksis er kun tælleren for denne brøk af interesse, da nævneren ikke afhænger af og værdierne af egenskaberne er givet, så nævneren er en konstant.
Tælleren svarer til modellens fælles sandsynlighed
som kan omskrives som følger ved brug af gentagne anvendelser af definitionerne af betinget sandsynlighed :
og så videre Nu kan vi bruge de "naive" antagelser om betinget uafhængighed : antag at hver egenskab er betinget uafhængig af enhver anden egenskab ved . Det betyder:
så den fælles model kan udtrykkes som:
Dette betyder, at under antagelsen om uafhængighed kan den betingede fordeling over klassevariablen udtrykkes som:
hvor er en skalafaktor, der kun afhænger af , det vil sige en konstant, hvis værdierne af variablerne er kendte.
Alle modelparametre kan tilnærmes ved relative frekvenser fra træningsdatasættet. Disse er de maksimale sandsynlighedsvurderinger af sandsynligheden. Kontinuerlige egenskaber vurderes typisk gennem normalfordelingen. Statistik beregnes som den matematiske forventning og varians - henholdsvis den aritmetiske middelværdi og standardafvigelsen.
Hvis den givne klasse og egenskabsværdi aldrig forekommer sammen i træningssættet, så vil den sandsynlighedsbaserede score være nul. Dette er et problem, da et nul-estimat ved multiplikation vil resultere i tab af information om andre sandsynligheder. Derfor er det at foretrække at foretage små justeringer af alle sandsynlighedsvurderinger, så ingen sandsynlighed strengt taget er nul.
En naiv bayes-klassifikator kombinerer en model med en beslutningsregel. En generel regel er at vælge den mest sandsynlige hypotese; det er kendt som a posteriori beslutningsreglen ( MAP ). Den tilsvarende klassifikator er en funktion defineret som følger:
Lad os overveje et simpelt eksempel på at anvende en naiv Bayes-klassificeringsanordning på problemet med at klassificere dokumenter efter deres indhold, nemlig at klassificere e- mails i to klasser - spam ( ) og ikke-spam ( ).
Vi vil antage, at dokumenter er udvalgt fra flere klasser af dokumenter, som kan repræsenteres af et sæt ord med en (uafhængig) sandsynlighed for, at det i -te ord i et givet dokument forekommer i et dokument af klasse C :
(For dette problem skal du antage, at sandsynligheden for, at et ord forekommer i et dokument er uafhængig af længden af dokumentet, og at alle dokumenter har samme længde).
Derefter sandsynligheden for et givet dokument D og klasse C
Spørgsmålet vi ønsker at besvare er "hvad er sandsynligheden for, at et givet dokument D tilhører klasse C ?". Med andre ord, hvad er lig med ?
Ifølge Bayes' sætning
Antag, at vi kun har to klasser: S og ¬S ( f.eks. spam og ikke-spam). Derefter
Ved at dividere den ene med den anden får vi sandsynlighedsforholdet
eller (for log-sandsynlighed )
Den faktiske sandsynlighed kan beregnes ud fra den observation, at . For at gøre dette er det nødvendigt at danne et sandsynlighedsrum fra sandsynlighedsfunktionen
, hvorEndelig kan dokumentet klassificeres ved at sammenligne log-sandsynligheden med en tærskel h (f.eks. h=0). Vi har spam hvis
.Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|