Naiv Bayes Classifier

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 2. august 2019; checks kræver 6 redigeringer .

En naiv Bayes klassifikator  er en simpel probabilistisk klassifikator baseret på anvendelsen af ​​Bayes ' sætning med strenge (naive) uafhængighedsantagelser .

Afhængigt af den præcise karakter af den sandsynlige model kan Naive Bayes-klassifikatorer trænes meget effektivt. Mange praktiske applikationer bruger den maksimale sandsynlighed metode til at estimere parametre for naive bayes modeller ; man kan med andre ord arbejde med en naiv Bayesiansk model uden at tro på Bayesiansk sandsynlighed og uden at bruge Bayesianske metoder.

På trods af deres naive udseende og utvivlsomt meget forenklede udtryk, præsterer Naive Bayes-klassifikatorer ofte meget bedre end neurale netværk i mange komplekse virkelige situationer.

Fordelen ved den naive Bayes-klassifikator er den lille mængde data, der kræves til træning, parameterestimering og klassificering.

Naiv Bayes klassificeringsmodel

Den probabilistiske model for klassifikatoren er en betinget model

over afhængig klassevariabel med få resultater eller klasser , afhængig af få variabler . Problemet er, at når antallet af ejendomme er meget stort, eller når en ejendom kan antage et stort antal værdier, så bliver det umuligt at bygge sådan en model på sandsynlighedstabeller. Derfor vil vi omformulere modellen for at gøre den let at bearbejde.

Ved at bruge Bayes' sætning skriver vi

I praksis er kun tælleren for denne brøk af interesse, da nævneren ikke afhænger af og værdierne af egenskaberne er givet, så nævneren er en konstant.

Tælleren svarer til modellens fælles sandsynlighed

som kan omskrives som følger ved brug af gentagne anvendelser af definitionerne af betinget sandsynlighed :

og så videre Nu kan vi bruge de "naive" antagelser om betinget uafhængighed : antag at hver egenskab er betinget uafhængig af enhver anden egenskab ved . Det betyder:

så den fælles model kan udtrykkes som:

Dette betyder, at under antagelsen om uafhængighed kan den betingede fordeling over klassevariablen udtrykkes som:

hvor  er en skalafaktor, der kun afhænger af , det vil sige en konstant, hvis værdierne af variablerne er kendte.

Parameter Estimation

Alle modelparametre kan tilnærmes ved relative frekvenser fra træningsdatasættet. Disse er de maksimale sandsynlighedsvurderinger af sandsynligheden. Kontinuerlige egenskaber vurderes typisk gennem normalfordelingen. Statistik beregnes som den matematiske forventning og varians - henholdsvis den aritmetiske middelværdi og standardafvigelsen.

Hvis den givne klasse og egenskabsværdi aldrig forekommer sammen i træningssættet, så vil den sandsynlighedsbaserede score være nul. Dette er et problem, da et nul-estimat ved multiplikation vil resultere i tab af information om andre sandsynligheder. Derfor er det at foretrække at foretage små justeringer af alle sandsynlighedsvurderinger, så ingen sandsynlighed strengt taget er nul.

Opbygning af en klassifikator baseret på en sandsynlighedsmodel

En naiv bayes-klassifikator kombinerer en model med en beslutningsregel. En generel regel er at vælge den mest sandsynlige hypotese; det er kendt som a posteriori beslutningsreglen ( MAP ). Den tilsvarende klassifikator er en funktion defineret som følger:

Eksempel: spamfiltrering

Lad os overveje et simpelt eksempel på at anvende en naiv Bayes-klassificeringsanordning på problemet med at klassificere dokumenter efter deres indhold, nemlig at klassificere e- mails i to klasser - spam ( ) og ikke-spam ( ).

Vi vil antage, at dokumenter er udvalgt fra flere klasser af dokumenter, som kan repræsenteres af et sæt ord med en (uafhængig) sandsynlighed for, at det i -te ord i et givet dokument forekommer i et dokument af klasse C :

(For dette problem skal du antage, at sandsynligheden for, at et ord forekommer i et dokument er uafhængig af længden af ​​dokumentet, og at alle dokumenter har samme længde).

Derefter sandsynligheden for et givet dokument D og klasse C

Spørgsmålet vi ønsker at besvare er "hvad er sandsynligheden for, at et givet dokument D tilhører klasse C ?". Med andre ord, hvad er lig med ?

Ifølge Bayes' sætning

Antag, at vi kun har to klasser: S og ¬S ( f.eks. spam og ikke-spam). Derefter

Ved at dividere den ene med den anden får vi sandsynlighedsforholdet

eller (for log-sandsynlighed )

Den faktiske sandsynlighed kan beregnes ud fra den observation, at . For at gøre dette er det nødvendigt at danne et sandsynlighedsrum fra sandsynlighedsfunktionen

, hvor

Endelig kan dokumentet klassificeres ved at sammenligne log-sandsynligheden med en tærskel h (f.eks. h=0). Vi har spam hvis

.

Se også

Links

Software produkter