Tale genkendelse

Talegenkendelse  er den automatiske proces med at konvertere et talesignal til digital information (f.eks. tekstdata ). Det omvendte problem er talesyntese .

Historie

Den første talegenkendelsesanordning dukkede op i 1952 , den kunne genkende de tal , en person talte . [1] I 1962 blev IBM Shoebox introduceret på New York Computer Technology Fair .

I 1963 blev der i USA præsenteret miniaturegenkendelsesenheder med en fiberoptisk hukommelsesenhed kaldet "Septron" ( Sceptron , men udtales [ˈseptrɑːn] uden "k"), udviklet af ingeniører fra Sperry Corporation, [2] at udføre en eller anden sekvens af handlinger til bestemte sætninger, som den menneskelige operatør udtaler. "Septroner" var velegnede til brug inden for fast (kablet) kommunikation til automatisering af opkald med stemme og automatisk optagelse af dikteret tekst ved teletype , kunne bruges i den militære sfære (til stemmestyring af komplekse prøver af militært udstyr ), luftfart (at skabe "smart avionik ", der reagerer på piloten og besætningsmedlemmerne),kommandoer automatiserede kontrolsystemer osv. [2] [3] [4] styresignaler til udstyret ombord og en stemme med enstavelse, der svarer ham vedr. muligheden for at gennemføre den opgave, han har stillet [5] .

Kommercielle talegenkendelsesprogrammer dukkede op i begyndelsen af ​​halvfemserne. Normalt bruges de af personer, der på grund af en håndskade ikke er i stand til at skrive en stor mængde tekst. Disse programmer (såsom Dragon NaturallySpeaking, VoiceNavigator) oversætte brugerens stemme til tekst og dermed aflæsse hans hænder. Oversættelsessikkerheden for sådanne programmer er ikke særlig høj, men den forbedres gradvist med årene.

Stigningen i computerkraft for mobile enheder gjorde det muligt at oprette programmer til dem med en talegenkendelsesfunktion. Blandt sådanne programmer er det værd at bemærke Microsoft Voice Command-applikationen, som giver dig mulighed for at arbejde med mange applikationer ved hjælp af din stemme. Du kan f.eks. aktivere musikafspilning i afspilleren eller oprette et nyt dokument.

Brugen af ​​talegenkendelse bliver stadig mere populær på forskellige forretningsområder, for eksempel kan en læge på en klinik udtale diagnoser, der straks vil blive indtastet på et elektronisk kort. Eller et andet eksempel. Sikkert har alle mindst én gang i deres liv drømt om at bruge deres stemme til at slukke lyset eller åbne vinduet. For nylig er automatisk talegenkendelse og -syntesesystemer blevet brugt i stigende grad i interaktive telefonapplikationer. I dette tilfælde bliver kommunikationen med stemmeportalen mere naturlig, da valget i den kan foretages ikke kun ved hjælp af toneopkald, men også ved hjælp af stemmekommandoer. Samtidig er genkendelsessystemer uafhængige af højttalere, det vil sige, de genkender enhver persons stemme.

Det næste trin i talegenkendelsesteknologier kan betragtes som udviklingen af ​​de såkaldte silent access interfaces (silent speech interfaces, SSI). Disse talebehandlingssystemer er baseret på modtagelse og behandling af talesignaler på et tidligt stadium af artikulationen. Dette trin i udviklingen af ​​talegenkendelse er forårsaget af to væsentlige mangler ved moderne genkendelsessystemer: overdreven følsomhed over for støj, samt behovet for klar og tydelig tale, når man får adgang til genkendelsessystemet. Den SSI-baserede tilgang er at bruge nye, støjfrie sensorer til at komplementere de behandlede akustiske signaler.

Klassifikation af talegenkendelsessystemer

Talegenkendelsessystemer er klassificeret: [6]

For automatiske talegenkendelsessystemer tilvejebringes støjimmunitet først og fremmest ved brug af to mekanismer: [7]

Metoder og algoritmer til talegenkendelse

"... det er indlysende, at talesignalbehandlingsalgoritmer i en taleopfattelsesmodel bør bruge det samme system af begreber og relationer, som en person bruger" [8] [9] .

I dag er talegenkendelsessystemer bygget på principperne for genkendelse[ af hvem? ] former for anerkendelse [ ukendt udtryk ] . De metoder og algoritmer, der hidtil er blevet brugt, kan opdeles i følgende store klasser: [10] [11]

Klassificering af talegenkendelsesmetoder baseret på sammenligning med standarden.

  • Dynamisk programmering - midlertidige dynamiske algoritmer (Dynamic Time Warping).

Kontekstafhængig klassifikation. Når det implementeres, skelnes separate leksikalske elementer fra talestrømmen - fonemer og allofoner, som derefter kombineres til stavelser og morfemer.

  • Diskriminerende analysemetoder baseret på Bayesiansk diskrimination;
  • Skjulte Markov-modeller;
  • Neurale netværk (neurale netværk).

Den dynamiske tidslinjetransformationsalgoritme bruges til at bestemme, om talesignaler repræsenterer den samme originale talte sætning.

Arkitektur af genkendelsessystemer

En af arkitekturerne for automatiske talebehandlingssystemer baseret på statistiske data kan være som følger. [12] [13]

  • Støjreduktionsmodul og nyttig signalseparation.
  • Akustisk model - giver dig mulighed for at evaluere genkendelsen af ​​et talesegment i form af lighed på lydniveauet. For hver lyd bygges der i første omgang en kompleks statistisk model, der beskriver udtalen af ​​denne lyd i tale.
  • Sprogmodel - giver dig mulighed for at bestemme de mest sandsynlige sekvenser af ord. Kompleksiteten i at bygge en sprogmodel afhænger i høj grad af det specifikke sprog. Så for det engelske sprog er det nok at bruge statistiske modeller (de såkaldte N-grammer). For sprog med høj bøjning (sprog, hvor der er mange former af det samme ord), som russisk hører til, giver sprogmodeller, der kun er bygget kun ved hjælp af statistik, ikke længere en sådan effekt - for mange data er nødvendige for pålideligt at vurdere den statistiske forhold mellem ord. Derfor bruges hybridsprogmodeller, der bruger det russiske sprogs regler, information om ordleddet og ordets form og den klassiske statistiske model.
  • En dekoder er en softwarekomponent i et genkendelsessystem, der kombinerer de data, der opnås under genkendelse fra akustiske og sproglige modeller og, baseret på deres kombination, bestemmer den mest sandsynlige rækkefølge af ord, som er slutresultatet af kontinuerlig talegenkendelse.

Stadier af anerkendelse [12]

  1. Talebehandling begynder med en vurdering af kvaliteten af ​​talesignalet. På dette stadium bestemmes niveauet af interferens og forvrængning.
  2. Evalueringsresultatet kommer ind i det akustiske tilpasningsmodul, som styrer modulet til beregning af de taleparametre, der kræves til genkendelse.
  3. Segmenter, der indeholder tale, vælges i signalet, og taleparametre evalueres. Der er et udvalg af fonetiske og prosodiske probabilistiske karakteristika til syntaktisk, semantisk og pragmatisk analyse. (Evaluering af information om ordled, ordform og statistiske sammenhænge mellem ord.)
  4. Dernæst kommer taleparametrene ind i hovedblokken i genkendelsessystemet - dekoderen. Dette er den komponent, der matcher input-talestrømmen med informationen, der er lagret i de akustiske og sproglige modeller og bestemmer den mest sandsynlige rækkefølge af ord, som er det endelige genkendelsesresultat.

Tegn på følelsesmæssigt farvet tale i genkendelsessystemer

De grundlæggende begreber, der karakteriserer parametrene for menneskelig tale forbundet med form, størrelse, dynamik af ændringer i den taledannende kanal og beskriver en persons følelsesmæssige tilstand, kan opdeles i fire grupper af objektive træk, der gør det muligt at skelne mellem tale mønstre: spektral-temporal, ceptral, amplitude-frekvens og tegn på ikke-lineær dynamik. Flere detaljer, hver gruppe af funktioner: [9] [14] [15]

Spektral-temporale træk

Spektralfunktioner:

  • Den gennemsnitlige værdi af spektret af det analyserede talesignal;
  • Normaliserede middelværdier af spektret;
  • Relativ opholdstid for signalet i spektrets bånd;
  • Normaliseret opholdstid for signalet i spektrets bånd;
  • Medianværdi af talespektrum i bånd;
  • Relativ kraft af talespektrum i bånd;
  • Variation af talespektrets konvolutter;
  • Normaliserede værdier for variationen af ​​konvolutterne i talespektret;
  • Krydskorrelationskoefficienter for spektralindhylninger mellem spektrumbånd.

Midlertidige tegn:

  • Segmentets varighed, fonemer;
  • segmenthøjde;
  • Segmentformfaktor.

Spektral-temporale træk karakteriserer talesignalet i dets fysiske og matematiske essens baseret på tilstedeværelsen af ​​tre typer komponenter:

  1. periodiske (tonale) sektioner af en lydbølge;
  2. ikke-periodiske sektioner af en lydbølge (støj, eksplosiv);
  3. afsnit, der ikke indeholder talepauser.

Spektral-temporale træk gør det muligt at afspejle originaliteten af ​​tidsseriens form og spektret af stemmeimpulser hos forskellige individer og træk ved filtreringsfunktionerne i deres talekanaler. De karakteriserer funktionerne i talestrømmen, der er forbundet med dynamikken i omstruktureringen af ​​artikulationsorganerne i talerens tale, og er integrerede egenskaber ved talestrømmen, hvilket afspejler det særlige ved forholdet eller synkronismen af ​​bevægelsen af ​​artikulationsorganerne i talen. højttaler.

Cepstrale tegn
  • Mel-frekvens cepstrale koefficienter;
  • Lineære forudsigelseskoefficienter korrigeret for ujævn følsomhed af det menneskelige øre;
  • Registreringsfrekvens effektfaktorer;
  • Lineære forudsigelse spektrum koefficienter;
  • Lineære forudsigelse af cepstrum-koefficienter.

De fleste moderne automatiske talegenkendelsessystemer fokuserer på at udtrække frekvensresponsen fra den menneskelige stemmekanal, mens de kasserer excitationssignalets karakteristika. Dette forklares af det faktum, at koefficienterne for den første model giver bedre adskillelighed af lyde. For at adskille excitationssignalet fra vokalkanalsignalet anvendes cepstral analyse .

Amplitude-frekvens funktioner
  • Intensitet, amplitude
  • Energi
  • Pitch Frequency (PCH)
  • Formant frekvenser
  • Jitter (jitter) - jitter frekvensmodulation af grundtonen (støjparameter);
  • Shimmer (shimmer) - amplitudemodulation på grundtonen (støjparameter);
  • Radial basis nuklear funktion
  • Ikke-lineær Teager-operatør

Amplitude-frekvensfunktioner gør det muligt at opnå estimater, hvis værdier kan variere afhængigt af parametrene for den diskrete Fourier-transformation (vinduets type og bredde), såvel som med mindre skift af vinduet over prøven . Et talesignal repræsenterer akustisk lydvibrationer af kompleks struktur, der forplanter sig i luften, og som er karakteriseret i forhold til deres frekvens (antal vibrationer pr. sekund), intensitet (oscillationsamplitude) og varighed. Amplitude-frekvensskilte bærer den nødvendige og tilstrækkelige information til en person på et talesignal med en minimum perceptionstid. Men brugen af ​​disse funktioner tillader ikke, at de fuldt ud kan bruges som et værktøj til at identificere følelsesmæssigt farvet tale.

Tegn på ikke-lineær dynamik
  • Poincaré kortlægning;
  • Rekursivt diagram;
  • Den maksimale karakteristiske indikator for Lyapunov er den følelsesmæssige tilstand af en person, som svarer til en bestemt geometri af attraktoren (faseportræt); [16]
  • Faseportræt (attraktion);
  • Kaplan-York dimensionen er et kvantitativt mål for en persons følelsesmæssige tilstand, fra "rolig" til "vrede" (deformation og efterfølgende skift af talesignalspektret). [16] .

For gruppen af ​​tegn på ikke-lineær dynamik betragtes talesignalet som en skalarværdi observeret i det menneskelige stemmesystem. Processen med taleproduktion kan betragtes som ikke-lineær og kan analyseres ved metoder til ikke-lineær dynamik. Opgaven med ikke-lineær dynamik er at finde og studere i detaljer de grundlæggende matematiske modeller og virkelige systemer, der udgår fra de mest typiske forslag om egenskaberne af individuelle elementer, der udgør systemet, og lovene for interaktion mellem dem. På nuværende tidspunkt er metoderne til ikke-lineær dynamik baseret på den grundlæggende matematiske teori, som er baseret på Takens-sætningen, som bringer et stringent matematisk grundlag til ideerne om ikke-lineær autoregression og beviser muligheden for at genoprette faseportrættet af en attraktor fra en tidsserie eller fra en af ​​dens koordinater. (En attraktor er et sæt punkter eller et underrum i faserummet, som fasebanen nærmer sig efter henfaldet af transienter.) Estimater af signalegenskaberne fra de rekonstruerede talebaner bruges i konstruktionen af ​​ikke-lineær deterministisk fase-rum modeller af de observerede tidsserier. De afslørede forskelle i form af attraktorer kan bruges til diagnostiske regler og funktioner, der gør det muligt at genkende og korrekt identificere forskellige følelser i et følelsesmæssigt farvet talesignal.

Indstillinger for talekvalitet

Talekvalitetsparametre for digitale kanaler: [17]

  • Stavelsesforståelighed af tale;
  • Fraseforståelighed af tale;
  • Talekvalitet sammenlignet med talekvaliteten af ​​referencestien;
  • Talekvalitet under virkelige arbejdsforhold.

Grundlæggende begreber

  • Taleforståelighed er det relative antal korrekt modtagne taleelementer (lyde, stavelser, ord, sætninger), udtrykt som en procentdel af det samlede antal transmitterede elementer.
  • Talekvalitet er en parameter, der kendetegner den subjektive vurdering af talelyden i det testede taletransmissionssystem.
  • Det normale taletempo er at tale med en hastighed, hvor den gennemsnitlige varighed af kontrolsætningen er 2,4 sekunder.
  • Accelereret talehastighed - tale med en hastighed, hvor den gennemsnitlige varighed af kontrolsætningen er 1,5-1,6 s.
  • Genkendelighed af talerens stemme er lytternes evne til at identificere lyden af ​​stemmen med en bestemt person, som lytteren tidligere kender.
  • Semantisk forståelighed er en indikator for graden af ​​korrekt gengivelse af informationsindholdet i tale.
  • Integral kvalitet er en indikator, der karakteriserer lytterens generelle indtryk fra den modtagne tale.

Ansøgning

Brugervenlighed blev erklæret for at være den største fordel ved talesystemer . Talekommandoer skulle redde slutbrugeren fra behovet for at bruge berøring og andre metoder til datainput og -kommandoer.

Vellykkede eksempler på brug af talegenkendelsesteknologi i mobilapplikationer er: Indtastning af en adresse med stemmen i Yandex.Navigator, Google Now stemmesøgning.

Ud over mobile enheder er talegenkendelsesteknologi meget brugt i forskellige forretningsområder:

  • Telefoni: automatisering af behandlingen af ​​indgående og udgående opkald ved at skabe selvbetjeningstalesystemer, især til: indhentning af baggrundsinformation og rådgivning, bestilling af tjenester/varer, ændring af parametre for eksisterende tjenester, udførelse af undersøgelser, forespørgsler, indsamling af information, information og andre scenarier;
  • "Smart Home"-løsninger: stemmegrænseflade til styring af "Smart Home"-systemer;
  • Husholdningsapparater og robotter: stemmegrænseflade for elektroniske robotter; stemmestyring af husholdningsapparater osv.;
  • Desktops og bærbare computere: stemmeinput i computerspil og applikationer;
  • Biler: stemmestyring i bilens interiør - for eksempel et navigationssystem;
  • Sociale tilbud til mennesker med handicap.

Se også

Noter

  1. Davies, KH, Biddulph, R. og Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits , J. Acoust. soc. Er. 24 (6) s. 637-642
  2. 1 2 Klass, Philip J. Fiber Optic Device Recognizes Signals . // Aviation Week & Space Technology . - NY: McGraw-Hill , 1962. - Vol. 77 - nr. 20 - s. 94-101.
  3. Hukommelsesceller . // Militær anmeldelse . - April 1963. - Bd. 43 - nej. 4 - s. 99.
  4. Armagnac, Alden P. "Fortæl det til Sceptron!" // Populærvidenskab . - April 1963. - Bd. 182 - nr. 4 - s. 120.
  5. Stemmestyret computer testet . // Luftforsvarsartilleri . - Forår 1983. - Nej. 2 - s. 54.
  6. Konto suspenderet . Hentet 10. marts 2013. Arkiveret fra originalen 27. november 2013.
  7. Moderne problemer inden for talegenkendelse. . Hentet 6. juni 2020. Arkiveret fra originalen 6. juni 2020.
  8. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf  (utilgængeligt link)
  9. 1 2 Kilde . Hentet 29. april 2013. Arkiveret fra originalen 21. august 2013.
  10. Kilde . Hentet 25. april 2013. Arkiveret fra originalen 15. september 2012.
  11. Kilde . Hentet 25. april 2013. Arkiveret fra originalen 22. december 2014.
  12. 1 2 Talegenkendelse | Center for taleteknologier | MDG . Hentet 20. april 2013. Arkiveret fra originalen 28. april 2013.
  13. Kilde . Hentet 29. april 2013. Arkiveret fra originalen 4. marts 2016.
  14. Analyse af tegnene på en følelsesmæssigt farvet tekst . Hentet 6. juni 2020. Arkiveret fra originalen 6. juni 2020.
  15. Kilde . Hentet 1. maj 2013. Arkiveret fra originalen 4. marts 2016.
  16. 1 2 Afhandling om emnet "Forskning af en persons psykofysiologiske tilstand baseret på de følelsesmæssige tegn på tale" abstrakt om specialet VAK 05.11.17, 05.13.01 - Enhed .... Hentet 30. april 2013. Arkiveret fra originalen 14. oktober 2013.
  17. GOST R 51061-97. TALEKVALITETSPARAMETRE. SYSTEMER MED LAVHASTIGHED TALETRANSMISSION OVER DIGITALE KANALER. (utilgængeligt link) . Hentet 29. april 2013. Arkiveret fra originalen 3. september 2014. 

Links