Talesyntese

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 23. juni 2021; checks kræver 32 redigeringer .

Syntese af tale  - i bred forstand - genoprettelse af formen af ​​et talesignal i henhold til dets parametre [1] ; i snæver forstand - dannelsen af ​​et talesignal fra en trykt[ klargør ] tekst . En del af kunstig intelligens .

Talesyntese er  først og fremmest alt, hvad der er forbundet med den kunstige fremstilling af menneskelig tale.

En talesynthesizer  er en ramme, der er i stand til at oversætte tekst/billeder til tale i software og/eller hardware.

Stemmemotoren  er direkte et tekst/kommando-til-tale system/kerne, den kan også eksistere uafhængigt af computeren.

Anvendelse af talesyntese

Talesyntese kan være påkrævet i alle tilfælde, hvor modtageren af ​​oplysninger er en person. Kvaliteten af ​​en talesynthesizer bedømmes primært ud fra dens lighed med den menneskelige stemme, samt dens evne til at blive forstået. Den enkleste syntetiserede tale kan skabes ved at kombinere dele af optaget tale, som derefter vil blive lagret i en database. Og mærkeligt nok støder vi allerede på denne måde at syntetisere på overalt, nogle gange uden overhovedet at være opmærksom på det.

Metoder til talesyntese

Alle metoder til talesyntese kan opdeles i grupper: [2]

Parametrisk syntese

Parametrisk talesyntese er den ultimative operation i vocodersystemer , hvor et talesignal er repræsenteret af et sæt af et lille antal konstant skiftende parametre. Parametrisk syntese er tilrådeligt at bruge i tilfælde, hvor sættet af meddelelser er begrænset og ikke ændres for ofte. Fordelen ved denne metode er evnen til at optage tale for ethvert sprog og enhver taler . Kvaliteten af ​​parametrisk syntese kan være meget høj (afhængig af graden af ​​informationskomprimering i den parametriske repræsentation). Parametrisk syntese kan dog ikke anvendes på vilkårlige, ikke-foruddefinerede meddelelser.

Kompilationssyntese

Kompilationssyntese er reduceret til at komponere en besked fra en forudindspillet ordbog over indledende synteseelementer. Størrelsen af ​​synteseelementer er ikke mindre end et ord. Det er klart, at indholdet af syntetiserede meddelelser er fastsat af ordbogens volumen. Som regel overstiger antallet af ordbogsenheder ikke flere hundrede ord. Hovedproblemet ved kompilering af syntese er mængden af ​​hukommelse til lagring af en ordbog. I denne henseende anvendes forskellige metoder til kompression/kodning af talesignalet. Kompilativ syntese har en bred praktisk anvendelse. I vestlige lande er en række forskellige enheder (fra militærfly til husholdningsapparater) udstyret med stemmesvarssystemer. I Rusland blev stemmesvarssystemer indtil for nylig brugt hovedsageligt inden for militært udstyr, nu bruges de i stigende grad i hverdagen, for eksempel i mobiloperatørernes hjælpetjenester, når de indhenter oplysninger om status for en abonnents konto.

Fuldfør talesyntese i henhold til reglerne

Fuld talesyntese efter regler (eller syntese ved trykt tekst) giver kontrol over alle parametre for talesignalet og kan således generere tale fra en tidligere ukendt tekst. I dette tilfælde gemmes parametrene opnået under analysen af ​​talesignalet i hukommelsen på samme måde som reglerne for at kombinere lyde til ord og sætninger . Syntese implementeres ved at modellere stemmekanalen ved hjælp af analog eller digital teknologi. Desuden, i processen med at syntetisere, indtastes værdierne af parametrene og reglerne for tilslutning af fonemer sekventielt med et bestemt tidsinterval, for eksempel 5-10 ms. Metoden til talesyntese ud fra trykt tekst (syntese efter regler) er baseret på programmeret viden om akustiske og sproglige begrænsninger og bruger ikke direkte elementer af menneskelig tale. I systemer baseret på denne syntesemetode skelnes der mellem to tilgange. Den første tilgang er rettet mod at bygge en model af det menneskelige taleproducerende system, det er kendt som artikulatorisk syntese . Den anden tilgang er formantsyntese efter reglerne . Forståeligheden og naturligheden af ​​sådanne synthesizere kan bringes til værdier, der kan sammenlignes med egenskaberne ved naturlig tale.

Syntese af tale i henhold til reglerne ved hjælp af tidligere huskede segmenter af naturligt sprog er en slags talesyntese ifølge reglerne, som er blevet udbredt på grund af fremkomsten af ​​muligheden for at manipulere et talesignal i en digitaliseret form. Afhængigt af størrelsen af ​​de indledende synteseelementer skelnes følgende typer syntese:

Normalt bruges halvstavelser som sådanne elementer - segmenter, der indeholder halvdelen af ​​konsonanten og halvdelen af ​​vokalen ved siden af ​​den. I dette tilfælde er det muligt at syntetisere tale fra en forudbestemt tekst, men det er vanskeligt at kontrollere intonationskarakteristika. Kvaliteten af ​​en sådan syntese svarer ikke til kvaliteten af ​​naturlig tale, da forvrængninger ofte forekommer ved grænserne for difonsting. At kompilere tale fra forudindspillede ordformer løser heller ikke problemet med højkvalitets syntese af vilkårlige meddelelser, da de akustiske og prosodiske (varighed og intonation) karakteristika af ord ændrer sig afhængigt af typen af ​​sætning og ordets plads i sætningen . Denne position ændres ikke, selv når der bruges store mængder hukommelse til at gemme ordformer.

Domæneorienteret syntese

Domænespecifik syntese kompilerer forudindspillede ord såvel som sætninger for at skabe komplette talebeskeder. Det bruges i applikationer, hvor mangfoldigheden af ​​systemtekster vil være begrænset til et bestemt emne/domæne, såsom togmeddelelser og vejrudsigter . Denne teknologi er nem at bruge og har været brugt kommercielt i lang tid: den er også blevet brugt til fremstilling af elektroniske enheder såsom talende ure og regnemaskiner . Naturligheden af ​​lyden af ​​disse systemer kan potentielt være høj på grund af det faktum, at mangfoldigheden af ​​sætningstyper er begrænset og nøje matcher intonationen af ​​de originale optagelser. Og da disse systemer er begrænset af valget af ord og sætninger i databasen, kan de ikke længere bruges bredt inden for menneskelig aktivitet, bare fordi de er i stand til at syntetisere kombinationer af ord og sætninger, som de er programmeret til.

Historie

I slutningen af ​​det 18. århundrede skabte den danske videnskabsmand Christian Kratzenstein , et fuldgyldigt medlem af Det Russiske Videnskabsakademi , en model af den menneskelige stemmekanal, der var i stand til at udtale fem lange vokaler ( a , e , og , o , u ). Modellen var et system af akustiske resonatorer af forskellige former, der producerede vokallyde ved hjælp af vibrerende siv, der blev ophidset af luftstrømmen. I 1778 supplerede den østrigske videnskabsmand Wolfgang von Kampelen Kratzensteins model med modeller af tungen og læberne og præsenterede en akustisk -mekanisk talemaskine, der var i stand til at gengive bestemte lyde og deres kombinationer. Hvæsen og fløjten blev blæst ved hjælp af en speciel håndbetjent pels. I 1837 introducerede videnskabsmanden Charles Wheatstone en forbedret version af maskinen, der var i stand til at producere vokaler og de fleste konsonanter . Og i 1846 demonstrerede Joseph Faber sit taleorgan Euphonia , hvor man forsøgte at syntetisere ikke kun tale, men også sang.

I slutningen af ​​det 19. århundrede skabte den berømte videnskabsmand Alexander Bell sin egen "talende" mekaniske model, som i design meget ligner Wheatstone-maskinen. Med fremkomsten af ​​det 20. århundrede begyndte de elektriske maskiners æra, og videnskabsmænd fik mulighed for at bruge lydbølgegeneratorer og bygge algoritmiske modeller på basis af dem.

I 1930'erne udviklede Bell Labs- medarbejder Homer Dudley , der arbejdede på problemet med at finde måder at reducere den nødvendige båndbredde i telefoni for at øge dens sendekapacitet, VOCODER (en forkortelse for engelsk  stemme  -stemme, engelsk  koder  - encoder) er et tastatur. -styret elektronisk analysator og talesynthesizer. Dudleys idé var at analysere stemmesignalet, skille det ad og resyntetisere det til en mindre krævende linjebåndbredde. En forbedret version af Dudleys vocoder , VODER, blev introduceret på verdensudstillingen i New York i 1939 [3] .

De første talesynthesizere lød temmelig unaturlige, og ofte var det knap muligt at skelne de fraser, de gengav. Kvaliteten af ​​syntetiseret tale er dog konstant blevet forbedret, og den tale, der genereres af moderne talesyntesesystemer, kan nogle gange ikke skelnes fra ægte menneskelig tale. Men på trods af succesen med elektroniske talesynthesizere, er forskning inden for mekaniske talesynthesizere stadig i gang, for eksempel til brug i humanoide robotter . [fire]

De første computerbaserede talesyntesesystemer begyndte at dukke op i slutningen af ​​1950'erne , og den første tekst-til-tale-synthesizer blev skabt i 1968 .

I 2005 forudsagde Kurzweil, at da værdi for pengene ville gøre talesynthesizere billigere og mere tilgængelige, ville flere mennesker drage fordel af at bruge tekst-til-tale-programmer. [5]

Nutid og fremtid

Indtil videre er det for tidligt at tale om en lovende fremtid for de kommende årtier for talesyntese efter reglerne , da lyden stadig mest af alt minder om robotters tale, og nogle steder er det også svært at forstå tale. Det, vi nøjagtigt kan afgøre, er, om en talesynthesizer taler med en mandlig eller kvindelig stemme, og nogle gange skelner vi stadig ikke mellem de finesser, der ligger i den menneskelige stemme. Derfor har udviklingsteknologien delvist vendt sig væk fra selve konstruktionen af ​​syntesen af ​​talesignaler, men fortsætter stadig med at bruge den enkleste stemmeoptagelsessegmentering.

Hybrid talesyntese kan bruges til at hacke sig ind i talegenkendelsessystemer . [6]

Se også

Noter

  1. I denne definition er omdannelsen af ​​lydtryk til elektrisk spænding og omvendt i en mikrofon og telefon, samt optagelse og afspilning, for eksempel fra magnetiske medier, ikke syntese. Sampling og kvantisering af et talesignal i pulskodemodulation er heller ikke relateret til talesyntese, men genereringen af ​​et talesignal i vocodersystemer kan betragtes som syntese.
  2. Sorokin V. N. Syntese af tale. — M.: Nauka, 1992, s. 392.
  3. Dennis Klatts History of Speech Synthesis Arkiveret 4. juli 2006 side på Wayback Machine , dedikeret til historien om udviklingen af ​​talesynthesizere, præsenterer lydfiler med optagelser af forskellige talesynthesizere. Der er en fil, der optager lyden af ​​Homer Dudleys vocoder.
  4. For eksempel arbejder japanske videnskabsmænd fra Takanishi Laboratory ved Waseda University på en antropomorf model af en talende robot. Deres seneste udvikling ( 2005 ) - Waseda Talker No.5 modellen - har hele sættet af taleinstrumenter: lunger, strubehoved, blød gane, tunge, tænder, læber osv. I alt har alle disse organer 18 frihedsgrader. Fra deres Anthropomorphic Talking Robot Waseda-Talker Series- side Arkiveret 17. juli 2007. Du kan se mere detaljerede oplysninger, herunder fotos og videoer.
  5. Ray Kurzweil. Singulariteten er nær: når mennesker transcenderer biologien . - New York: Viking, 2005. - xvii, 652 sider s. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
  6. UNDERSØGELSE AF STEMMEVERIFIKATIONENS MODSTAND OVER FOR ANgreb VED BRUG AF SYNTESESYSTEMET. — Journal of Instrumentation Arkiveret 23. januar 2015 på Wayback Machine . - Februar 2014.

Litteratur

Links