Stemmegenkendelse

Stemmegenkendelse er en form for biometrisk autentificering , der giver dig mulighed for at identificere en person ved en kombination af unikke stemmeegenskaber . Henviser til dynamiske metoder til biometri . Men da en persons stemme kan ændre sig afhængigt af alder, følelsesmæssig tilstand, helbred, hormonelle niveauer og en række andre faktorer, er den ikke helt nøjagtig [1] . Med udviklingen af teknologi til lydoptagelse og gengivelse anvendes genkendelsesteknologi med varierende grad af succes inden for informationssikkerhed , sikkerhed og adgangssystemer og efterforskning .

Historie

Arbejdet med talegenkendelse går tilbage til midten af forrige århundrede. Det første system blev skabt i begyndelsen af 1950'erne: dets udviklere satte sig selv til opgave at genkende tal. Det udviklede system kunne identificere tal , men talt i én stemme, såsom "Audrey"-systemet fra Bell Laboratories . Hun arbejdede ud fra at bestemme formanten i kraftspektret for hver talepassage [2] . Generelt bestod systemet af tre hoveddele: analysatorer og kvantiseringsapparater, netværksmatcher-skabeloner og endelig sensorer. Det blev skabt, henholdsvis på den elementære base af forskellige frekvensfiltre, switches, samt gasfyldte rør som en del af sensorerne [3] .

I slutningen af årtiet dukkede der systemer op, der genkendte vokaler uafhængigt af taleren [4] . I 70'erne begyndte man at bruge nye metoder, der gjorde det muligt at opnå mere perfekte resultater - den dynamiske programmeringsmetode [5] og den lineære forudsigelsesmetode (Linear Predictive Coding - LPC). Hos det førnævnte firma, Bell Laboratories, er der lavet systemer, der bruger netop disse metoder [6] . I 80'erne var det næste skridt i udviklingen af stemmegenkendelsessystemer brugen af skjulte Markov-modeller (Hidden Markov Models - HMM). På dette tidspunkt begyndte de første store stemmegenkendelsesprogrammer at dukke op, såsom Kurzweil tekst-til-tale [7] . I slutningen af 80'erne begyndte man også at bruge metoderne til kunstige neurale netværk (Artificial Neural Network - ANN) [8] . I 1987 dukkede Worlds of Wonders Julie-dukke op på markedet, som var i stand til at forstå stemmen [7] . Og 10 år senere udgav Dragon Systems programmet "NaturallySpeaking 1.0" [9] .

Pålidelighed

De vigtigste kilder til stemmegenkendelsesfejl er:

optagelsesmiljø (niveau og type af miljøstøj, efterklangsniveau );
præsentationseffekt (talens varighed, talerens psykofysiologiske tilstand (sygdom, følelsesmæssig tilstand osv.), sproget i talemeddelelsen, accent, talevolumen);
lav kanalkvalitet (støj, forvrængning af mikrofonen og transmissionskanalen, type kodning i kanalen osv.) [10] .

Kønsgenkendelse kan skelnes som en separat type opgave, som er ganske vellykket løst - med store mængder indledende data bestemmes køn næsten fejlfrit, og i korte passager som en understreget vokal er fejlsandsynligheden 5,3 % for mænd og 3,1 % for kvinder [11] .

Problemet med stemmeimitation blev også overvejet. Undersøgelser fra France Telecom har vist, at professionel stemmeimitation praktisk talt ikke øger sandsynligheden for en identitetsfejl - imitatorer forfalsker kun stemmen eksternt og understreger talens funktioner, men de er ikke i stand til at forfalske stemmens grundlæggende omrids. Selv stemmer fra nære slægtninge, tvillinger vil have en forskel, i det mindste i dynamikken i kontrol [11] . Men med udviklingen af computerteknologi er der opstået et nyt problem, der kræver brug af nye metoder til analyse - stemmetransformation, hvilket øger sandsynligheden for fejl op til 50 % [11] .

For at beskrive systemets pålidelighed er der brugt to kriterier: FRR (False Rejection Rate) - sandsynligheden for et falsk afslag på adgang ( fejl af den første art ) og FAR (False Acceptance Rate) - sandsynligheden for en falsk indrømmelse når systemet fejlagtigt identificerer en anden som sin egen (fejl af anden slags) . Nogle gange er genkendelsessystemer også karakteriseret ved en sådan parameter som EER (Equal Error Rates), som repræsenterer tilfældighedspunktet for sandsynligheden FRR og FAR. Jo mere pålideligt systemet er, jo lavere EER har det [12] .

Værdier af identifikationsfejl for forskellige biometriske modaliteter [10]

biometrisk tegn	Prøve	Testbetingelser	FRR %	LANGT %
Fingeraftryk	FVC 2006	Heterogen befolkning (inklusive håndarbejdere og ældre)	2.2	2.2
ansigt	MBE 2010	Politiets fotobase Database over billeder fra dokumenter	4.0 0,3	0,1 0,1
Stemme	NIST 2010	Tekstuafhængig genkendelse	3..4	1.0
Iris i øjet	ICE 2006	Kontrolleret belysning, bred vifte af billedkvalitet	1.1…1.4	0,1

Ansøgning

Anerkendelse kan opdeles i to hovedområder: identifikation og verifikation . I det første tilfælde skal systemet uafhængigt identificere brugeren med stemmen; i det andet tilfælde skal systemet bekræfte eller afvise den identifikator, som brugeren har præsenteret [11] . Definitionen af den undersøgte taler består i en parvis sammenligning af stemmemodeller, der tager højde for de individuelle karakteristika ved hver enkelt talers tale. Derfor skal vi først indsamle en tilstrækkelig stor database. Og baseret på resultaterne af denne sammenligning kan der dannes en liste over fonogrammer, der med en vis sandsynlighed er talen fra brugeren af interesse for os [11] .

Selvom stemmegenkendelse ikke kan garantere et 100 % korrekt resultat, kan den bruges ganske effektivt inden for områder som retsmedicin og retsmedicin; efterretningstjeneste; anti-terror overvågning; sikkerhed; bank og så videre [11] .

Analyse

Hele processen med at behandle et talesignal kan opdeles i flere hovedstadier:

signalforbehandling;
udvælgelse af kriterier;
højttalergenkendelse.

Hvert trin repræsenterer en algoritme eller et sæt algoritmer, som i sidste ende giver det ønskede resultat [13] .

Stemmens hovedtræk er dannet af tre hovedegenskaber: mekanikken for stemmefoldsoscillationer, stemmekanalens anatomi og artikulationskontrolsystemet. Derudover er det nogle gange muligt at bruge talerens ordbog, hans talevendinger [11] . Hovedtræk, hvorved der træffes en beslutning om højttalerens personlighed, dannes under hensyntagen til alle faktorerne i taleproduktionsprocessen: stemmekilden, resonansfrekvenser i stemmekanalen og deres dæmpning samt dynamikken i artikulationskontrol. Hvis vi overvejer kilderne mere detaljeret, så inkluderer stemmekildens egenskaber: den gennemsnitlige frekvens af grundtonen, konturen og fluktuationer af frekvensen af grundtonen og formen af excitationsimpulsen. De spektrale karakteristika af stemmekanalen er beskrevet af spektrets indhylning og dets gennemsnitlige hældning, formantfrekvenser , langtidsspektrum eller ceptrum . Derudover tages der også hensyn til ords varighed, rytme (stressfordeling), signalniveau, frekvens og varighed af pauser [14] . For at bestemme disse karakteristika er man nødt til at bruge ret komplekse algoritmer, men da for eksempel fejlen i formantfrekvenser er ret stor, kan ceptrumkoefficienter for forenklingen beregnes ud fra spektrets indhylning eller overføringsfunktionen af stemmekanalen fundet af den lineære forudsigelsesmetode anvendes. Ud over de nævnte ceptrum-koefficienter anvendes også deres første og anden tidsforskelle [11] . Denne metode blev først foreslået af Davis og Mermelstein [15] .

Cepstral analyse

I værker om stemmegenkendelse er den mest populære metode den cepstrale transformation af spektret af talesignaler [11] . Metodens skema er som følger: i et tidsinterval på 10 - 20 ms beregnes det aktuelle effektspektrum, og derefter anvendes den inverse Fourier-transformation af logaritmen af dette spektrum (cepstrum), og koefficienterne findes: , - øvre frekvens i talesignalspektret, - effektspektrum. Antallet af cepstrale koefficienter n afhænger af den nødvendige udjævning af spektret og varierer fra 20 til 40. Hvis der anvendes en båndpasfilterbank , beregnes de diskrete cepstrale transformationskoefficienter som , hvor Y(m) er udgangssignalet for det m-te filter, er den n-te cepstrum-koefficient. $c_{n}={\frac {1}{\Theta }}\int _{0}^{\Theta }{\mid S(j,\omega ,t)\mid }^{2}\ exp ^{-jn\omega \Omega }d\omega$ $\Omega =2{\frac {2\pi }{\Theta )),\Theta$ ${\displaystyle {\mid S(j,\omega ,t)\midt }^{2))$ ${\displaystyle c_{n}=\sum _{m=1}^{N}\log {Y(m)^{2))\cos ({\frac {\pi n}{M))(m- {\frac {1}{2))))))$ $c_{n}$

Der tages højde for høreegenskaber ved en ikke-lineær transformation af frekvensskalaen, normalt i kridtskalaen [11] . Denne skala er dannet på basis af tilstedeværelsen i øret af de såkaldte kritiske bånd , således at signaler af enhver frekvens inden for det kritiske bånd ikke kan skelnes. Mel-skalaen beregnes som , hvor f er frekvensen i Hz, M er frekvensen i mel. Eller en anden skala bruges - bark , sådan at forskellen mellem de to frekvenser, lig med det kritiske bånd, er lig med 1 bark. Frekvens B beregnes som . Koefficienterne fundet i litteraturen omtales nogle gange som MFCC - Mel Frequiency Cepstral Coefficients. Deres antal går fra 10 til 30. Brugen af første og anden tidsforskelle af cepstrakoefficienterne tredobler dimensionen af beslutningsrummet, men forbedrer effektiviteten af højttalergenkendelse [11] . $M(f)=1125\ln {(1+{\frac {f}{700))))$ $B=13\operatørnavn {arctg{(0.00076f)}} +3.5\operatørnavn {arctg{\frac {f}{7500}}}$

Cepstrum beskriver formen af indhylningen af signalspektret, som er påvirket af både egenskaberne af excitationskilden og funktionerne i vokalkanalen. I eksperimenter fandt man ud af, at spektrets indhylning kraftigt påvirker genkendelsen af stemmen. Derfor er brugen af forskellige metoder til spektrumindhylningsanalyse til stemmegenkendelse fuldt ud berettiget [11] .

Metoder

Da mange systemer bruger rummet af cepstralkoefficienter, deres første og anden forskel, er der meget opmærksomhed på konstruktionen af beslutningsregler. De mest populære metoder til at tilnærme sandsynlighedstætheden i funktionsrummet med en vægtet blanding af normalfordelinger ( GMM - Gauss Mixture Models), støttevektormaskinen (SVM - Support Vector Machines), metoden for skjulte Markov-modeller (HMM - Hidden) Markov-modeller), kunstige neurale netværk , såvel som modifikationer af faktoranalyse [11] .

GMM-metoden følger af teoremet, at enhver sandsynlighedstæthedsfunktion kan repræsenteres som en vægtet sum af normalfordelinger:

${\displaystyle p(x|\lambda )=\sum _{j=1}^{k}{\omega _{j}\phi (\chi ,\Theta _{j))))))$ ; er højttalermodellen k er antallet af modelkomponenter; — vægten af komponenterne er sådan, at det er fordelingsfunktionen af det flerdimensionale argument [11] . , - dens vægt, k - antallet af komponenter i blandingen. Her er n dimensionen af trækrummet, er vektoren for matematisk forventning af den j. komponent af blandingen og er kovariansmatrixen . $\lambda$ ${\omega _{j))$ $\sum _{j=1}^{n}{\omega _{j}}=1.$ $\phi (\chi ,\Theta _{j})$ ${\displaystyle \chi ,\Theta _{j))$ $\phi (\chi ,\Theta _{j})=p(\chi \mid \mu _{j},R_{j})={\frac {1}{({2\pi}) ^{\frac {n}{2}}{\mid R_{j}\mid }^{\frac {1}{2}}}}\exp {\frac {-1(\chi -\mu _{ j})^{T}R_{j}^{-1}(\chi -\mu _{j})}{2}}$ ${\displaystyle \omega _{j))$ $\mu _{j}\in \mathbb {R} ^{n}$ ${\displaystyle R_{j}\in \mathbb {R} ^{n\ gange n))$

Meget ofte bruger systemer med denne model en diagonal kovariansmatrix. Den kan bruges til alle modelkomponenter eller endda til alle modeller. For at finde kovariansmatricen, vægte, middelvektorer, bruges ofte EM- algoritmen . Ved indgangen har vi en træningssekvens af vektorer X = {x 1 , . . . , x T }. Modelparametrene initialiseres med initialværdier, og derefter revurderes parametrene ved hver iteration af algoritmen. For at bestemme de indledende parametre bruges en klyngealgoritme , såsom K- betydningsalgoritmen . Efter at sættet af træningsvektorer er blevet opdelt i M klynger, kan modelparametrene defineres som følger: startværdierne falder sammen med centrene for klyngerne, kovariansmatricerne beregnes ud fra de vektorer, der falder ind i denne klynge, vægten af komponenterne bestemmes af andelen af vektorerne i denne klynge blandt det samlede antal træningsvektorer. ${\displaystyle \mu _{j))$

Parametrene revurderes i henhold til følgende formler:

beregning af a posteriori sandsynligheder (Estimat-trin): . ${\displaystyle p(i|\chi _{t},\lambda )={\frac {\omega _{i}\phi (\chi _{t},\Theta _{i})}{ \sum _{j=1}^{k}{\omega _{j}\phi (\chi _{t},\Theta _{j})))}}$
beregning af nye modelparametre (maksimeringstrin): ; ; . Trinnene gentages, indtil konvergensen af parametrene [16] er nået . $\omega _{j}={\frac {\sum _{j=1}^{k}{p(i|\chi _{j},\lambda ))){T))$ ${\mu _{i}={\frac {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )\chi_{t))} {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda ))))))$ ${R_{i}={\frac {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )(\chi _{t}-\mu _{i}){(\chi _{t}-\mu _{i})}^{T))}{\sum _{t=1}^{n}{p(i|\chi _{ t},\lambda )}}}}}$

GMM kan også kaldes en udvidelse af vektorkvantiseringsmetoden ( centroidmetoden ). Når du bruger det, oprettes en kodebog for ikke-overlappende områder i feature-rummet (ofte ved hjælp af K-betyder klyngedannelse). Vektorkvantisering er den enkleste model i kontekstuafhængige genkendelsessystemer [11] .

Støttevektormaskinen (SVM) konstruerer et hyperplan i et multidimensionelt rum, der adskiller to klasser - parametrene for målhøjttaleren og parametrene for højttalere fra referencebasen. Hyperplanet beregnes ved hjælp af støttevektorer - valgt på en speciel måde. En ikke-lineær transformation af rummet af målte parametre til et eller andet rum af træk af en højere dimension vil blive udført, da den adskillende overflade muligvis ikke svarer til hyperplanet. Adskillelsesfladen i hyperplanet er konstrueret af støttevektormaskinen, hvis betingelsen om lineær adskillelighed i det nye featurerum er opfyldt. Succesen af SMM-applikationen afhænger således af den valgte ikke-lineære transformation i hvert enkelt tilfælde. Support Vector Machines bruges ofte med GMM eller HMM. Normalt, for korte sætninger af et par sekunders varighed, er fonemfølsomme HMM'er [11] bedre brugt til en kontekstafhængig tilgang .

Popularitet

Ifølge den New York-baserede konsulentvirksomhed International Biometric Group er den mest almindelige teknologi fingeraftryksscanning. Det bemærkes, at fra 127 millioner dollars indtægter fra salg af biometriske enheder, er 44% andelen af fingeraftryksscannere. Ansigtsgenkendelsessystemer er næstefterspurgte med 14 %, efterfulgt af håndfladegenkendelse (13 %), stemmegenkendelse (10 %) og irisgenkendelse (8 %). Signaturbekræftelsesenheder udgør 2 % af denne liste. Nogle af de mest kendte producenter på markedet for stemmebiometri er Nuance Communications, SpeechWorks, VeriVoice [17] .

I februar 2016 offentliggjorde The Telegraph en artikel, der meddelte, at kunder i den britiske bank HSBC vil kunne få adgang til konti og foretage transaktioner ved hjælp af stemmeidentifikation. Overgangen skulle finde sted i begyndelsen af sommeren [18] .

Noter

↑ E. K. Bragina, S. S. Sokolov. Moderne metoder til biometrisk autentificering: gennemgang, analyse og definition af udviklingsmuligheder // Vestnik ASTU. - 2016. - Nr. 61 . — ISSN 1812-9498 .
↑ KH Davis, R. Biddulph og S. Balashek. Automatisk genkendelse af talte cifre // J. Acoust. soc. Er..
↑ BH Juang & Lawrence R. Rabiner. Automatisk talegenkendelse – en kort historie om teknologiudviklingen // USCB. - 2004. - Oktober. Arkiveret fra originalen den 20. december 2016.
↑ JW Forgie og CD Forgie,. Resultater opnået fra et computerprogram til vokalgenkendelse // J. Acoust. soc. Am., 31.
↑ H. Sakoe og S. Chiba. Dynamisk programmeringsalgoritmeoptimering til talte ordgenkendelse // ASSP.
↑ F. Itakura og S. Saito, "Analysesyntesetelefoni baseret på maksimumsandsynlighedsmetoden", rapporter fra den 6. internationale kongres om akustik
↑ 1 2 Talegenkendelse gennem årtierne: Hvordan vi endte med Siri , PCWorld . Arkiveret fra originalen den 6. december 2016. Hentet 14. december 2016.
↑ JK Baker. Stokastisk modellering til automatisk taleforståelse. — Akademisk Presse.
↑ Nuance Dragon Naturally Speaking, medicinsk transskription, software til stemmegenkendelse . www.dragon-medical-transcription.com. Hentet 14. december 2016. Arkiveret fra originalen 13. august 2015. (ubestemt)
↑ 1 2 Yu. N. Matveev Teknologier til biometrisk identifikation af en person ved stemme og andre modaliteter
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Personlighedsgenkendelse med stemmen: en analytisk gennemgang
↑ Funktioner ved biometrisk identifikation (utilgængeligt link) . Hentet 2. december 2016. Arkiveret fra originalen 19. maj 2017. (ubestemt)
↑ Tassov K. L., Dyatlov R. A. Metode til at identificere en person med stemmen
↑ Kuwabara H., Sagisaka Y. (1995)
↑ Davis S., Mermelstein P. (1980)
↑ E.A. Pervushin. Gennemgang af de vigtigste metoder til højttalergenkendelse // Matematiske strukturer og modellering. – 2011.
↑ International Biometric Group (IBG) annoncerer 13. november webcast og udgivelse af den biometriske markeds- og industrirapport 2009-2014 - FindBiometrics , FindBiometrics ( 11. november 2008). Arkiveret fra originalen den 30. november 2016. Hentet 29. november 2016.
↑ Tim Wallace . Adgangskodernes død: HSBC lancerer stemme- og fingeraftryks-id , The Telegraph (19. februar 2016). Arkiveret fra originalen den 30. november 2016. Hentet 29. november 2016.

Kilder

Yu. N. Matveev- teknologier til biometrisk personlig identifikation ved stemme og andre modaliteter — ISSN 0236-3933. Bulletin af MSTU im. N. E. Bauman. Ser. "Instrumentfremstilling". 2012
V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Personlighedsgenkendelse ved stemme: en analytisk gennemgang — ISSN 1819-5822 Informationsprocesser, bind 12, nr. 1, s. 1-30
Tassov K. L., Dyatlov R. A. Metoden til at identificere en person med stemmen. Engineering Journal: Science and Innovation, 2013, nr. 6. URL: http://engjournal.ru/catalog/it/biometric/1103.html
Lamel LF, Gauvain JL (2000). Højttalerbekræftelse over telefonen. Journal Speech Communication - Højttalergenkendelse og dets kommercielle og retsmedicinske applikationer
Kuwabara H., Sagisaka Y. (1995). Akustiske egenskaber ved højttalerens individualitet: Kontrol og konvertering. Talekommunikation
Davis S., Mermelstein P. (1980). Sammenligning af parametriske repræsentationer for monosyllabisk ordgenkendelse i kontinuerligt talte sætninger. IEEE Trans. Akustik, tale, signalproces.