Naiv Bayes Classifier

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 2. august 2019; checks kræver 6 redigeringer .

En naiv Bayes klassifikator er en simpel probabilistisk klassifikator baseret på anvendelsen af Bayes ' sætning med strenge (naive) uafhængighedsantagelser .

Afhængigt af den præcise karakter af den sandsynlige model kan Naive Bayes-klassifikatorer trænes meget effektivt. Mange praktiske applikationer bruger den maksimale sandsynlighed metode til at estimere parametre for naive bayes modeller ; man kan med andre ord arbejde med en naiv Bayesiansk model uden at tro på Bayesiansk sandsynlighed og uden at bruge Bayesianske metoder.

På trods af deres naive udseende og utvivlsomt meget forenklede udtryk, præsterer Naive Bayes-klassifikatorer ofte meget bedre end neurale netværk i mange komplekse virkelige situationer.

Fordelen ved den naive Bayes-klassifikator er den lille mængde data, der kræves til træning, parameterestimering og klassificering.

Naiv Bayes klassificeringsmodel

Den probabilistiske model for klassifikatoren er en betinget model

p(C\midt F_{1},\dots ,F_{n})

over afhængig klassevariabel med få resultater eller klasser , afhængig af få variabler . Problemet er, at når antallet af ejendomme er meget stort, eller når en ejendom kan antage et stort antal værdier, så bliver det umuligt at bygge sådan en model på sandsynlighedstabeller. Derfor vil vi omformulere modellen for at gøre den let at bearbejde. $C$ ${\displaystyle F_{1},\ldots ,F_{n))$ $n$

Ved at bruge Bayes' sætning skriver vi

p(C\mid F_{1},\dots ,F_{n})={\frac {p(C)\ p(F_{1},\dots ,F_{n}\mid C)} {p(F_{1},\dots ,F_{n})}}.

I praksis er kun tælleren for denne brøk af interesse, da nævneren ikke afhænger af og værdierne af egenskaberne er givet, så nævneren er en konstant. $C$ $F_{i}$

Tælleren svarer til modellens fælles sandsynlighed

p(C,F_{1},\dots,F_{n})

som kan omskrives som følger ved brug af gentagne anvendelser af definitionerne af betinget sandsynlighed :

p(C,F_{1},\dots,F_{n})=

=p(C)\ p(F_{1},\dots ,F_{n}\mid C)=

=p(C)\ p(F_{1}\midt C)\ p(F_{2},\dots ,F_{n}\midt C,F_{1})=

=p(C)\ p(F_{1}\midt C)\ p(F_{2}\midt C,F_{1})\ p(F_{3},\dots ,F_{n} \midt C,F_{1},F_{2})=

=p(C)\ p(F_{1}\midt C)\ p(F_{2}\midt C,F_{1})\cdot \ldots \cdot p(F_{n}\midt C ,F_{1},F_{2},F_{3},\dots ,F_{n-1})

og så videre Nu kan vi bruge de "naive" antagelser om betinget uafhængighed : antag at hver egenskab er betinget uafhængig af enhver anden egenskab ved . Det betyder: $F_{i}$ $F_{j}$ $j\neq i$

p(F_{i}\mid C,F_{j})=p(F_{i}\midt C)

så den fælles model kan udtrykkes som:

p(C,F_{1},\dots,F_{n})=p(C)\ p(F_{1}\midt C)\ p(F_{2}\midt C)\ p( F_{3}\midt C)\cdot \ldots \cdot p(F_{n}\midt C)=

=p(C)\prod _{i=1}^{n}p(F_{i}\mid C).

Dette betyder, at under antagelsen om uafhængighed kan den betingede fordeling over klassevariablen udtrykkes som: $C$

p(C\mid F_{1},\dots ,F_{n})={\frac {1}{Z}}p(C)\prod _{i=1}^{n}p( F_{i}\midt C)

hvor er en skalafaktor, der kun afhænger af , det vil sige en konstant, hvis værdierne af variablerne er kendte. $Z=p(F_{1},\dots ,F_{n})$ $F_{1},\dots ,F_{n}$

Parameter Estimation

Alle modelparametre kan tilnærmes ved relative frekvenser fra træningsdatasættet. Disse er de maksimale sandsynlighedsvurderinger af sandsynligheden. Kontinuerlige egenskaber vurderes typisk gennem normalfordelingen. Statistik beregnes som den matematiske forventning og varians - henholdsvis den aritmetiske middelværdi og standardafvigelsen.

Hvis den givne klasse og egenskabsværdi aldrig forekommer sammen i træningssættet, så vil den sandsynlighedsbaserede score være nul. Dette er et problem, da et nul-estimat ved multiplikation vil resultere i tab af information om andre sandsynligheder. Derfor er det at foretrække at foretage små justeringer af alle sandsynlighedsvurderinger, så ingen sandsynlighed strengt taget er nul.

Opbygning af en klassifikator baseret på en sandsynlighedsmodel

En naiv bayes-klassifikator kombinerer en model med en beslutningsregel. En generel regel er at vælge den mest sandsynlige hypotese; det er kendt som a posteriori beslutningsreglen ( MAP ). Den tilsvarende klassifikator er en funktion defineret som følger: ${\mathrm {klassificere}}$

\operatørnavn {klassificere} (f_{1},\dots ,f_{n})=\arg \max _{c}p(C=c)\prod _{i=1}^{n}p (F_{i}=f_{i}\midt C=c)

Eksempel: spamfiltrering

Lad os overveje et simpelt eksempel på at anvende en naiv Bayes-klassificeringsanordning på problemet med at klassificere dokumenter efter deres indhold, nemlig at klassificere e- mails i to klasser - spam ( ) og ikke-spam ( ). $S$ $\neg S$

Vi vil antage, at dokumenter er udvalgt fra flere klasser af dokumenter, som kan repræsenteres af et sæt ord med en (uafhængig) sandsynlighed for, at det i -te ord i et givet dokument forekommer i et dokument af klasse C :

p(w_{i}\mid C)

(For dette problem skal du antage, at sandsynligheden for, at et ord forekommer i et dokument er uafhængig af længden af dokumentet, og at alle dokumenter har samme længde).

Derefter sandsynligheden for et givet dokument D og klasse C

p(D\mid C)=\prod _{i}p(w_{i}\mid C)

Spørgsmålet vi ønsker at besvare er "hvad er sandsynligheden for, at et givet dokument D tilhører klasse C ?". Med andre ord, hvad er lig med ? $p(C\mid D)$

Ifølge Bayes' sætning

p(C\midt D)={p(C) \over p(D)}\,p(D\midt C)

Antag, at vi kun har to klasser: S og ¬S ( f.eks. spam og ikke-spam). Derefter

p(S\mid D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\mid S)

p(\neg S\mid D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\mid \neg S)

Ved at dividere den ene med den anden får vi sandsynlighedsforholdet

{p(S\mid D) \over p(\neg S\midt D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_ {i}\mid S) \over p(w_{i}\midt \neg S)}

eller (for log-sandsynlighed )

\ln {p(S\midt D) \over p(\neg S\midt D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ ln {p(w_{i}\midt S) \over p(w_{i}\midt \neg S)}

Den faktiske sandsynlighed kan beregnes ud fra den observation, at . For at gøre dette er det nødvendigt at danne et sandsynlighedsrum fra sandsynlighedsfunktionen $p(S\mid D)$ ${\displaystyle \ln {p(S\midt D) \over p(\neg S\midt D)))$ $p(S\mid D)+p(\neg S\midt D)=1$

p(S\mid D)={\frac {e^{q}}{1+e^{q}}}

, hvor

{\displaystyle q=\ln {p(S\mid D) \over p(\neg S\midt D)))

Endelig kan dokumentet klassificeres ved at sammenligne log-sandsynligheden med en tærskel h (f.eks. h=0). Vi har spam hvis

\ln {p(S\midt D) \over p(\neg S\midt D)}>h

Se også

Links

Domingos, Pedro & Michael Pazzani (1997) "Om optimaliteten af den simple Bayesianske klassificering under nul-et tab". Machine Learning , 29:103-137. (også online på CiteSeer : [1] )
Rish, Irina. (2001). "En empirisk undersøgelse af den naive Bayes-klassifikator". IJCAI 2001 Workshop om empiriske metoder i kunstig intelligens. (tilgængelig online: PDF Arkiveret 10. december 2017 på Wayback Machine , PostScript )
Hand, DJ, & Yu, K. (2001). "Idiotens Bayes - ikke så dum alligevel?" International Statistical Review. Vol. 69, del 3, side 385-399. ISSN 0306-7734 .
Mozina M, Demsar J, Kattan M, & Zupan B. (2004). "Nomogrammer til visualisering af naiv Bayesian Classifier". I Proc. af PKDD-2004, side 337-348. (tilgængelig online: PDF (utilgængeligt link siden 13-05-2013 [3458 dage] -historie) )
Maron, M.E. (1961). "Automatisk indeksering: En eksperimentel undersøgelse." Journal of the ACM (JACM) 8(3):404-417. (tilgængelig online: PDF )
Minsky, M. (1961). "Trin mod kunstig intelligens." Proces af IRE 49(1):8-30.
McCallum, A. og Nigam K. "En sammenligning af hændelsesmodeller for naiv Bayes-tekstklassificering." I AAAI/ICML-98 Workshop om læring til tekstkategorisering, s. 41-48. Teknisk rapport WS-98-05. AAAI Tryk. 1998. (tilgængelig online: PDF )
Subbotin S. V., Bolshakov D. Yu. Anvendelse af den Bayesianske klassifikator til genkendelse af målklasser. // "Journal of Radioelectronics", 2006, nr. 4 ( tilgængelig online )

Software produkter

jBNC - Bayesian Network Classifier Toolbox

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG