Stemmegenkendelse

Stemmegenkendelse  er en form for biometrisk autentificering , der giver dig mulighed for at identificere en person ved en kombination af unikke stemmeegenskaber . Henviser til dynamiske metoder til biometri . Men da en persons stemme kan ændre sig afhængigt af alder, følelsesmæssig tilstand, helbred, hormonelle niveauer og en række andre faktorer, er den ikke helt nøjagtig [1] . Med udviklingen af ​​teknologi til lydoptagelse og gengivelse anvendes genkendelsesteknologi med varierende grad af succes inden for informationssikkerhed , sikkerhed og adgangssystemer og efterforskning .

Historie

Arbejdet med talegenkendelse går tilbage til midten af ​​forrige århundrede. Det første system blev skabt i begyndelsen af ​​1950'erne: dets udviklere satte sig selv til opgave at genkende tal. Det udviklede system kunne identificere tal , men talt i én stemme, såsom "Audrey"-systemet fra Bell Laboratories . Hun arbejdede ud fra at bestemme formanten i kraftspektret for hver talepassage [2] . Generelt bestod systemet af tre hoveddele: analysatorer og kvantiseringsapparater, netværksmatcher-skabeloner og endelig sensorer. Det blev skabt, henholdsvis på den elementære base af forskellige frekvensfiltre, switches, samt gasfyldte rør som en del af sensorerne [3] .

I slutningen af ​​årtiet dukkede der systemer op, der genkendte vokaler uafhængigt af taleren [4] . I 70'erne begyndte man at bruge nye metoder, der gjorde det muligt at opnå mere perfekte resultater - den dynamiske programmeringsmetode [5] og den lineære forudsigelsesmetode (Linear Predictive Coding - LPC). Hos det førnævnte firma, Bell Laboratories, er der lavet systemer, der bruger netop disse metoder [6] . I 80'erne var det næste skridt i udviklingen af ​​stemmegenkendelsessystemer brugen af ​​skjulte Markov-modeller (Hidden Markov Models - HMM). På dette tidspunkt begyndte de første store stemmegenkendelsesprogrammer at dukke op, såsom Kurzweil tekst-til-tale [7] . I slutningen af ​​80'erne begyndte man også at bruge metoderne til kunstige neurale netværk (Artificial Neural Network - ANN) [8] . I 1987 dukkede Worlds of Wonders Julie-dukke op på markedet, som var i stand til at forstå stemmen [7] . Og 10 år senere udgav Dragon Systems programmet "NaturallySpeaking 1.0" [9] .

Pålidelighed

De vigtigste kilder til stemmegenkendelsesfejl er:

Kønsgenkendelse kan skelnes som en separat type opgave, som er ganske vellykket løst - med store mængder indledende data bestemmes køn næsten fejlfrit, og i korte passager som en understreget vokal er fejlsandsynligheden 5,3 % for mænd og 3,1 % for kvinder [11] .

Problemet med stemmeimitation blev også overvejet. Undersøgelser fra France Telecom har vist, at professionel stemmeimitation praktisk talt ikke øger sandsynligheden for en identitetsfejl - imitatorer forfalsker kun stemmen eksternt og understreger talens funktioner, men de er ikke i stand til at forfalske stemmens grundlæggende omrids. Selv stemmer fra nære slægtninge, tvillinger vil have en forskel, i det mindste i dynamikken i kontrol [11] . Men med udviklingen af ​​computerteknologi er der opstået et nyt problem, der kræver brug af nye metoder til analyse - stemmetransformation, hvilket øger sandsynligheden for fejl op til 50 % [11] .

For at beskrive systemets pålidelighed er der brugt to kriterier: FRR (False Rejection Rate) - sandsynligheden for et falsk afslag på adgang ( fejl af den første art ) og FAR (False Acceptance Rate) - sandsynligheden for en falsk indrømmelse når systemet fejlagtigt identificerer en anden som sin egen (fejl af anden slags) . Nogle gange er genkendelsessystemer også karakteriseret ved en sådan parameter som EER (Equal Error Rates), som repræsenterer tilfældighedspunktet for sandsynligheden FRR og FAR. Jo mere pålideligt systemet er, jo lavere EER har det [12] .

Værdier af identifikationsfejl for forskellige biometriske modaliteter [10]

biometrisk tegn Prøve Testbetingelser FRR % LANGT %
Fingeraftryk FVC 2006 Heterogen befolkning (inklusive håndarbejdere og ældre) 2.2 2.2
ansigt MBE 2010 Politiets fotobase

Database over billeder fra dokumenter

4.0

0,3

0,1

0,1

Stemme NIST 2010 Tekstuafhængig genkendelse 3..4 1.0
Iris i øjet ICE 2006 Kontrolleret belysning, bred vifte af billedkvalitet 1.1…1.4 0,1

Ansøgning

Anerkendelse kan opdeles i to hovedområder: identifikation og verifikation . I det første tilfælde skal systemet uafhængigt identificere brugeren med stemmen; i det andet tilfælde skal systemet bekræfte eller afvise den identifikator, som brugeren har præsenteret [11] . Definitionen af ​​den undersøgte taler består i en parvis sammenligning af stemmemodeller, der tager højde for de individuelle karakteristika ved hver enkelt talers tale. Derfor skal vi først indsamle en tilstrækkelig stor database. Og baseret på resultaterne af denne sammenligning kan der dannes en liste over fonogrammer, der med en vis sandsynlighed er talen fra brugeren af ​​interesse for os [11] .

Selvom stemmegenkendelse ikke kan garantere et 100 % korrekt resultat, kan den bruges ganske effektivt inden for områder som retsmedicin og retsmedicin; efterretningstjeneste; anti-terror overvågning; sikkerhed; bank og så videre [11] .

Analyse

Hele processen med at behandle et talesignal kan opdeles i flere hovedstadier:

Hvert trin repræsenterer en algoritme eller et sæt algoritmer, som i sidste ende giver det ønskede resultat [13] .

Stemmens hovedtræk er dannet af tre hovedegenskaber: mekanikken for stemmefoldsoscillationer, stemmekanalens anatomi og artikulationskontrolsystemet. Derudover er det nogle gange muligt at bruge talerens ordbog, hans talevendinger [11] . Hovedtræk, hvorved der træffes en beslutning om højttalerens personlighed, dannes under hensyntagen til alle faktorerne i taleproduktionsprocessen: stemmekilden, resonansfrekvenser i stemmekanalen og deres dæmpning samt dynamikken i artikulationskontrol. Hvis vi overvejer kilderne mere detaljeret, så inkluderer stemmekildens egenskaber: den gennemsnitlige frekvens af grundtonen, konturen og fluktuationer af frekvensen af ​​grundtonen og formen af ​​excitationsimpulsen. De spektrale karakteristika af stemmekanalen er beskrevet af spektrets indhylning og dets gennemsnitlige hældning, formantfrekvenser , langtidsspektrum eller ceptrum . Derudover tages der også hensyn til ords varighed, rytme (stressfordeling), signalniveau, frekvens og varighed af pauser [14] . For at bestemme disse karakteristika er man nødt til at bruge ret komplekse algoritmer, men da for eksempel fejlen i formantfrekvenser er ret stor, kan ceptrumkoefficienter for forenklingen beregnes ud fra spektrets indhylning eller overføringsfunktionen af ​​stemmekanalen fundet af den lineære forudsigelsesmetode anvendes. Ud over de nævnte ceptrum-koefficienter anvendes også deres første og anden tidsforskelle [11] . Denne metode blev først foreslået af Davis og Mermelstein [15] .

Cepstral analyse

I værker om stemmegenkendelse er den mest populære metode den cepstrale transformation af spektret af talesignaler [11] . Metodens skema er som følger: i et tidsinterval på 10 - 20 ms beregnes det aktuelle effektspektrum, og derefter anvendes den inverse Fourier-transformation af logaritmen af ​​dette spektrum (cepstrum), og koefficienterne findes: , - øvre frekvens i talesignalspektret, - effektspektrum. Antallet af cepstrale koefficienter n afhænger af den nødvendige udjævning af spektret og varierer fra 20 til 40. Hvis der anvendes en båndpasfilterbank , beregnes de diskrete cepstrale transformationskoefficienter som , hvor Y(m) er udgangssignalet for det m-te filter,  er den n-te cepstrum-koefficient.

Der tages højde for høreegenskaber ved en ikke-lineær transformation af frekvensskalaen, normalt i kridtskalaen [11] . Denne skala er dannet på basis af tilstedeværelsen i øret af de såkaldte kritiske bånd , således at signaler af enhver frekvens inden for det kritiske bånd ikke kan skelnes. Mel-skalaen beregnes som , hvor f er frekvensen i Hz, M er frekvensen i mel. Eller en anden skala bruges - bark , sådan at forskellen mellem de to frekvenser, lig med det kritiske bånd, er lig med 1 bark. Frekvens B beregnes som . Koefficienterne fundet i litteraturen omtales nogle gange som MFCC - Mel Frequiency Cepstral Coefficients. Deres antal går fra 10 til 30. Brugen af ​​første og anden tidsforskelle af cepstrakoefficienterne tredobler dimensionen af ​​beslutningsrummet, men forbedrer effektiviteten af ​​højttalergenkendelse [11] .

Cepstrum beskriver formen af ​​indhylningen af ​​signalspektret, som er påvirket af både egenskaberne af excitationskilden og funktionerne i vokalkanalen. I eksperimenter fandt man ud af, at spektrets indhylning kraftigt påvirker genkendelsen af ​​stemmen. Derfor er brugen af ​​forskellige metoder til spektrumindhylningsanalyse til stemmegenkendelse fuldt ud berettiget [11] .

Metoder

Da mange systemer bruger rummet af cepstralkoefficienter, deres første og anden forskel, er der meget opmærksomhed på konstruktionen af ​​beslutningsregler. De mest populære metoder til at tilnærme sandsynlighedstætheden i funktionsrummet med en vægtet blanding af normalfordelinger ( GMM  - Gauss Mixture Models), støttevektormaskinen (SVM - Support Vector Machines), metoden for skjulte Markov-modeller (HMM - Hidden) Markov-modeller), kunstige neurale netværk , såvel som modifikationer af faktoranalyse [11] .

GMM-metoden følger af teoremet, at enhver sandsynlighedstæthedsfunktion kan repræsenteres som en vægtet sum af normalfordelinger:

;  er højttalermodellen k er antallet af modelkomponenter;  — vægten af ​​komponenterne er sådan, at det er fordelingsfunktionen af ​​det flerdimensionale argument [11] . , - dens vægt, k - antallet af komponenter i blandingen. Her er n dimensionen af ​​trækrummet,  er vektoren for matematisk forventning af den j. komponent af blandingen og er kovariansmatrixen .

Meget ofte bruger systemer med denne model en diagonal kovariansmatrix. Den kan bruges til alle modelkomponenter eller endda til alle modeller. For at finde kovariansmatricen, vægte, middelvektorer, bruges ofte EM- algoritmen . Ved indgangen har vi en træningssekvens af vektorer X = {x 1 , . . . , x T }. Modelparametrene initialiseres med initialværdier, og derefter revurderes parametrene ved hver iteration af algoritmen. For at bestemme de indledende parametre bruges en klyngealgoritme , såsom K- betydningsalgoritmen . Efter at sættet af træningsvektorer er blevet opdelt i M klynger, kan modelparametrene defineres som følger: startværdierne falder sammen med centrene for klyngerne, kovariansmatricerne beregnes ud fra de vektorer, der falder ind i denne klynge, vægten af ​​komponenterne bestemmes af andelen af ​​vektorerne i denne klynge blandt det samlede antal træningsvektorer.

Parametrene revurderes i henhold til følgende formler:

  • beregning af a posteriori sandsynligheder (Estimat-trin): .
  • beregning af nye modelparametre (maksimeringstrin): ; ; . Trinnene gentages, indtil konvergensen af ​​parametrene [16] er nået .

GMM kan også kaldes en udvidelse af vektorkvantiseringsmetoden ( centroidmetoden ). Når du bruger det, oprettes en kodebog for ikke-overlappende områder i feature-rummet (ofte ved hjælp af K-betyder klyngedannelse). Vektorkvantisering er den enkleste model i kontekstuafhængige genkendelsessystemer [11] .

Støttevektormaskinen (SVM) konstruerer et hyperplan i et multidimensionelt rum, der adskiller to klasser - parametrene for målhøjttaleren og parametrene for højttalere fra referencebasen. Hyperplanet beregnes ved hjælp af støttevektorer - valgt på en speciel måde. En ikke-lineær transformation af rummet af målte parametre til et eller andet rum af træk af en højere dimension vil blive udført, da den adskillende overflade muligvis ikke svarer til hyperplanet. Adskillelsesfladen i hyperplanet er konstrueret af støttevektormaskinen, hvis betingelsen om lineær adskillelighed i det nye featurerum er opfyldt. Succesen af ​​SMM-applikationen afhænger således af den valgte ikke-lineære transformation i hvert enkelt tilfælde. Support Vector Machines bruges ofte med GMM eller HMM. Normalt, for korte sætninger af et par sekunders varighed, er fonemfølsomme HMM'er [11] bedre brugt til en kontekstafhængig tilgang .

Popularitet

Ifølge den New York-baserede konsulentvirksomhed International Biometric Group er den mest almindelige teknologi fingeraftryksscanning. Det bemærkes, at fra 127 millioner dollars indtægter fra salg af biometriske enheder, er 44% andelen af ​​fingeraftryksscannere. Ansigtsgenkendelsessystemer er næstefterspurgte med 14 %, efterfulgt af håndfladegenkendelse (13 %), stemmegenkendelse (10 %) og irisgenkendelse (8 %). Signaturbekræftelsesenheder udgør 2 % af denne liste. Nogle af de mest kendte producenter på markedet for stemmebiometri er Nuance Communications, SpeechWorks, VeriVoice [17] .

I februar 2016 offentliggjorde The Telegraph en artikel, der meddelte, at kunder i den britiske bank HSBC vil kunne få adgang til konti og foretage transaktioner ved hjælp af stemmeidentifikation. Overgangen skulle finde sted i begyndelsen af ​​sommeren [18] .

Noter

  1. E. K. Bragina, S. S. Sokolov. Moderne metoder til biometrisk autentificering: gennemgang, analyse og definition af udviklingsmuligheder // Vestnik ASTU. - 2016. - Nr. 61 . — ISSN 1812-9498 .
  2. KH Davis, R. Biddulph og S. Balashek. Automatisk genkendelse af talte cifre // J. Acoust. soc. Er..
  3. BH Juang & Lawrence R. Rabiner. Automatisk talegenkendelse – en kort historie om teknologiudviklingen  // USCB. - 2004. - Oktober. Arkiveret fra originalen den 20. december 2016.
  4. JW Forgie og CD Forgie,. Resultater opnået fra et computerprogram til vokalgenkendelse // J. Acoust. soc. Am., 31.
  5. H. Sakoe og S. Chiba. Dynamisk programmeringsalgoritmeoptimering til talte ordgenkendelse // ASSP.
  6. F. Itakura og S. Saito, "Analysesyntesetelefoni baseret på maksimumsandsynlighedsmetoden", rapporter fra den 6. internationale kongres om akustik
  7. ↑ 1 2 Talegenkendelse gennem årtierne: Hvordan vi endte med Siri , PCWorld . Arkiveret fra originalen den 6. december 2016. Hentet 14. december 2016.
  8. JK Baker. Stokastisk modellering til automatisk taleforståelse. — Akademisk Presse.
  9. Nuance Dragon Naturally Speaking, medicinsk transskription, software til stemmegenkendelse . www.dragon-medical-transcription.com. Hentet 14. december 2016. Arkiveret fra originalen 13. august 2015.
  10. ↑ 1 2 Yu. N. Matveev Teknologier til biometrisk identifikation af en person ved stemme og andre modaliteter
  11. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Personlighedsgenkendelse med stemmen: en analytisk gennemgang
  12. Funktioner ved biometrisk identifikation (utilgængeligt link) . Hentet 2. december 2016. Arkiveret fra originalen 19. maj 2017. 
  13. Tassov K. L., Dyatlov R. A. Metode til at identificere en person med stemmen
  14. Kuwabara H., Sagisaka Y. (1995)
  15. Davis S., Mermelstein P. (1980)
  16. E.A. Pervushin. Gennemgang af de vigtigste metoder til højttalergenkendelse // Matematiske strukturer og modellering. – 2011.
  17. International Biometric Group (IBG) annoncerer 13. november webcast og udgivelse af den biometriske markeds- og industrirapport 2009-2014 - FindBiometrics  , FindBiometrics (  11. november 2008). Arkiveret fra originalen den 30. november 2016. Hentet 29. november 2016.
  18. Tim Wallace . Adgangskodernes død: HSBC lancerer stemme- og fingeraftryks-id , The Telegraph  (19. februar 2016). Arkiveret fra originalen den 30. november 2016. Hentet 29. november 2016.

Kilder

  1. Yu. N. Matveev- teknologier til biometrisk personlig identifikation ved stemme og andre modaliteter — ISSN 0236-3933. Bulletin af MSTU im. N. E. Bauman. Ser. "Instrumentfremstilling". 2012
  2. V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Personlighedsgenkendelse ved stemme: en analytisk gennemgang — ISSN 1819-5822 Informationsprocesser, bind 12, nr. 1, s. 1-30
  3. Tassov K. L., Dyatlov R. A. Metoden til at identificere en person med stemmen. Engineering Journal: Science and Innovation, 2013, nr. 6. URL: http://engjournal.ru/catalog/it/biometric/1103.html
  4. Lamel LF, Gauvain JL (2000). Højttalerbekræftelse over telefonen. Journal Speech Communication - Højttalergenkendelse og dets kommercielle og retsmedicinske applikationer
  5. Kuwabara H., Sagisaka Y. (1995). Akustiske egenskaber ved højttalerens individualitet: Kontrol og konvertering. Talekommunikation
  6. Davis S., Mermelstein P. (1980). Sammenligning af parametriske repræsentationer for monosyllabisk ordgenkendelse i kontinuerligt talte sætninger. IEEE Trans. Akustik, tale, signalproces.

Links