Talegenkendelse er den automatiske proces med at konvertere et talesignal til digital information (f.eks. tekstdata ). Det omvendte problem er talesyntese .
Den første talegenkendelsesanordning dukkede op i 1952 , den kunne genkende de tal , en person talte . [1] I 1962 blev IBM Shoebox introduceret på New York Computer Technology Fair .
I 1963 blev der i USA præsenteret miniaturegenkendelsesenheder med en fiberoptisk hukommelsesenhed kaldet "Septron" ( Sceptron , men udtales [ˈseptrɑːn] uden "k"), udviklet af ingeniører fra Sperry Corporation, [2] at udføre en eller anden sekvens af handlinger til bestemte sætninger, som den menneskelige operatør udtaler. "Septroner" var velegnede til brug inden for fast (kablet) kommunikation til automatisering af opkald med stemme og automatisk optagelse af dikteret tekst ved teletype , kunne bruges i den militære sfære (til stemmestyring af komplekse prøver af militært udstyr ), luftfart (at skabe "smart avionik ", der reagerer på piloten og besætningsmedlemmerne),kommandoer automatiserede kontrolsystemer osv. [2] [3] [4] styresignaler til udstyret ombord og en stemme med enstavelse, der svarer ham vedr. muligheden for at gennemføre den opgave, han har stillet [5] .
Kommercielle talegenkendelsesprogrammer dukkede op i begyndelsen af halvfemserne. Normalt bruges de af personer, der på grund af en håndskade ikke er i stand til at skrive en stor mængde tekst. Disse programmer (såsom Dragon NaturallySpeaking, VoiceNavigator) oversætte brugerens stemme til tekst og dermed aflæsse hans hænder. Oversættelsessikkerheden for sådanne programmer er ikke særlig høj, men den forbedres gradvist med årene.
Stigningen i computerkraft for mobile enheder gjorde det muligt at oprette programmer til dem med en talegenkendelsesfunktion. Blandt sådanne programmer er det værd at bemærke Microsoft Voice Command-applikationen, som giver dig mulighed for at arbejde med mange applikationer ved hjælp af din stemme. Du kan f.eks. aktivere musikafspilning i afspilleren eller oprette et nyt dokument.
Brugen af talegenkendelse bliver stadig mere populær på forskellige forretningsområder, for eksempel kan en læge på en klinik udtale diagnoser, der straks vil blive indtastet på et elektronisk kort. Eller et andet eksempel. Sikkert har alle mindst én gang i deres liv drømt om at bruge deres stemme til at slukke lyset eller åbne vinduet. For nylig er automatisk talegenkendelse og -syntesesystemer blevet brugt i stigende grad i interaktive telefonapplikationer. I dette tilfælde bliver kommunikationen med stemmeportalen mere naturlig, da valget i den kan foretages ikke kun ved hjælp af toneopkald, men også ved hjælp af stemmekommandoer. Samtidig er genkendelsessystemer uafhængige af højttalere, det vil sige, de genkender enhver persons stemme.
Det næste trin i talegenkendelsesteknologier kan betragtes som udviklingen af de såkaldte silent access interfaces (silent speech interfaces, SSI). Disse talebehandlingssystemer er baseret på modtagelse og behandling af talesignaler på et tidligt stadium af artikulationen. Dette trin i udviklingen af talegenkendelse er forårsaget af to væsentlige mangler ved moderne genkendelsessystemer: overdreven følsomhed over for støj, samt behovet for klar og tydelig tale, når man får adgang til genkendelsessystemet. Den SSI-baserede tilgang er at bruge nye, støjfrie sensorer til at komplementere de behandlede akustiske signaler.
Talegenkendelsessystemer er klassificeret: [6]
For automatiske talegenkendelsessystemer tilvejebringes støjimmunitet først og fremmest ved brug af to mekanismer: [7]
"... det er indlysende, at talesignalbehandlingsalgoritmer i en taleopfattelsesmodel bør bruge det samme system af begreber og relationer, som en person bruger" [8] [9] .
I dag er talegenkendelsessystemer bygget på principperne for genkendelse[ af hvem? ] former for anerkendelse [ ukendt udtryk ] . De metoder og algoritmer, der hidtil er blevet brugt, kan opdeles i følgende store klasser: [10] [11]
Klassificering af talegenkendelsesmetoder baseret på sammenligning med standarden.
Kontekstafhængig klassifikation. Når det implementeres, skelnes separate leksikalske elementer fra talestrømmen - fonemer og allofoner, som derefter kombineres til stavelser og morfemer.
Den dynamiske tidslinjetransformationsalgoritme bruges til at bestemme, om talesignaler repræsenterer den samme originale talte sætning.
En af arkitekturerne for automatiske talebehandlingssystemer baseret på statistiske data kan være som følger. [12] [13]
Stadier af anerkendelse [12]
De grundlæggende begreber, der karakteriserer parametrene for menneskelig tale forbundet med form, størrelse, dynamik af ændringer i den taledannende kanal og beskriver en persons følelsesmæssige tilstand, kan opdeles i fire grupper af objektive træk, der gør det muligt at skelne mellem tale mønstre: spektral-temporal, ceptral, amplitude-frekvens og tegn på ikke-lineær dynamik. Flere detaljer, hver gruppe af funktioner: [9] [14] [15]
Spektral-temporale trækSpektralfunktioner:
Midlertidige tegn:
Spektral-temporale træk karakteriserer talesignalet i dets fysiske og matematiske essens baseret på tilstedeværelsen af tre typer komponenter:
Spektral-temporale træk gør det muligt at afspejle originaliteten af tidsseriens form og spektret af stemmeimpulser hos forskellige individer og træk ved filtreringsfunktionerne i deres talekanaler. De karakteriserer funktionerne i talestrømmen, der er forbundet med dynamikken i omstruktureringen af artikulationsorganerne i talerens tale, og er integrerede egenskaber ved talestrømmen, hvilket afspejler det særlige ved forholdet eller synkronismen af bevægelsen af artikulationsorganerne i talen. højttaler.
Cepstrale tegnDe fleste moderne automatiske talegenkendelsessystemer fokuserer på at udtrække frekvensresponsen fra den menneskelige stemmekanal, mens de kasserer excitationssignalets karakteristika. Dette forklares af det faktum, at koefficienterne for den første model giver bedre adskillelighed af lyde. For at adskille excitationssignalet fra vokalkanalsignalet anvendes cepstral analyse .
Amplitude-frekvens funktionerAmplitude-frekvensfunktioner gør det muligt at opnå estimater, hvis værdier kan variere afhængigt af parametrene for den diskrete Fourier-transformation (vinduets type og bredde), såvel som med mindre skift af vinduet over prøven . Et talesignal repræsenterer akustisk lydvibrationer af kompleks struktur, der forplanter sig i luften, og som er karakteriseret i forhold til deres frekvens (antal vibrationer pr. sekund), intensitet (oscillationsamplitude) og varighed. Amplitude-frekvensskilte bærer den nødvendige og tilstrækkelige information til en person på et talesignal med en minimum perceptionstid. Men brugen af disse funktioner tillader ikke, at de fuldt ud kan bruges som et værktøj til at identificere følelsesmæssigt farvet tale.
Tegn på ikke-lineær dynamikFor gruppen af tegn på ikke-lineær dynamik betragtes talesignalet som en skalarværdi observeret i det menneskelige stemmesystem. Processen med taleproduktion kan betragtes som ikke-lineær og kan analyseres ved metoder til ikke-lineær dynamik. Opgaven med ikke-lineær dynamik er at finde og studere i detaljer de grundlæggende matematiske modeller og virkelige systemer, der udgår fra de mest typiske forslag om egenskaberne af individuelle elementer, der udgør systemet, og lovene for interaktion mellem dem. På nuværende tidspunkt er metoderne til ikke-lineær dynamik baseret på den grundlæggende matematiske teori, som er baseret på Takens-sætningen, som bringer et stringent matematisk grundlag til ideerne om ikke-lineær autoregression og beviser muligheden for at genoprette faseportrættet af en attraktor fra en tidsserie eller fra en af dens koordinater. (En attraktor er et sæt punkter eller et underrum i faserummet, som fasebanen nærmer sig efter henfaldet af transienter.) Estimater af signalegenskaberne fra de rekonstruerede talebaner bruges i konstruktionen af ikke-lineær deterministisk fase-rum modeller af de observerede tidsserier. De afslørede forskelle i form af attraktorer kan bruges til diagnostiske regler og funktioner, der gør det muligt at genkende og korrekt identificere forskellige følelser i et følelsesmæssigt farvet talesignal.
Talekvalitetsparametre for digitale kanaler: [17]
Brugervenlighed blev erklæret for at være den største fordel ved talesystemer . Talekommandoer skulle redde slutbrugeren fra behovet for at bruge berøring og andre metoder til datainput og -kommandoer.
Vellykkede eksempler på brug af talegenkendelsesteknologi i mobilapplikationer er: Indtastning af en adresse med stemmen i Yandex.Navigator, Google Now stemmesøgning.
Ud over mobile enheder er talegenkendelsesteknologi meget brugt i forskellige forretningsområder:
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |
|
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |