Stemmekloning

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 28. juni 2016; checks kræver 25 redigeringer .

Lydkloning ( engelsk voice changing, voice cloning ) er en teknologi, der implementerer en ændring i en persons stemme, produceret ved hjælp af software og hardware, både i realtid og i en forsinket batch-tilstand.

Teknologien gør det muligt at simulere de personlige egenskaber ved en persons tale med et ret komplet match med originalen, kaldet "kopimålet".

Generel teknologivurdering

I øjeblikket er talegenkendelsessystemer relativt veludviklede . De bruges til stemmestyring af forskellige husholdningsapparater (i telefoner, bilstereosystemer og slutter med vaskemaskiner). Den omvendte proces - udtrækning af ord fra et lydsignal og syntetisering af tale - støder på en række vanskeligheder.

Softwareprodukter

Programmer anses for at tilhøre kategorien "Voice Changing Software" eller "Voice Changer":

Morphvox
stemmeskifter
Voice Anonymizer

Også SDK-pakker:

Voice Cloning Toolkit til Festival og HTS (Mac) Arkiveret 28. maj 2011 på Wayback Machine - Forskningspakke fra Speech Technology Research Centre og Junichi Yamagishi fra University of Edinburgh

Service via hjemmeside og telefon

Tidligere nogle virksomheder kommercielt en opkalds stemmeskiftetjeneste over telefonen i realtid. Dette blev gjort som følger:

Tidligere bestilte abonnenten (kunden) på hjemmesiden et opkald tilbage til sin telefon og et opkald til telefonen af "kopimålet", og systemet blev forsynet med prøver af kundens stemmer og "kopimålet";
Så beordrede abonnenten et opkald tilbage til sin telefon og telefonen til den abonnent, han var interesseret i. Systemet forbandt abonnenten, signalet fra ham gik gennem virksomhedens server, hvor frekvenskarakteristika og klangfarvning af stemmen ændrede sig til parametrene for personens stemme - "kopimålet". Abonnenten hørte kundens ord, men for ham lød disse ord (tilsyneladende) som en persons stemme - "kopimål".

Teknologibeskrivelse

Teknologien til talekloning i en telefonsamtale i realtid er baseret baseret på kendte algoritmer til matematisk behandling af talebæresignalet [1] [2, 4]. Samtidig bruger deDFT - metoder til analyse af frekvenser i et diskret signal (ved hjælp af en speciel Fourier-transformationsmetode ) opnået ved at digitalisere et analogt telefonsignal ved hjælp af smalbåndstale-codec G.729 [2] [5, 6, 7, 8 ]. Syntesen af ændret tale baseret på bæresignalet, det vil sige den resulterende "klonede stemme", realiserer muligheden for maksimal bevarelse af de personlige akustiske egenskaber af den kopierede originale stemme: fonetiske træk ved udtale, accent og endda artefakter som f.eks. stammende [3] [9]. Det er således umuligt at identificere højttalerens kunstighed, selv med speciel behandling og matematisk analyse af det originale telefonsignal. Ulovlig brug af talekloningsteknologi er strengt forbudt i overensstemmelse med det særlige beskyttelsesprogram for onlinetjenesten, der leverer denne tjeneste. Den beskrevne teknologi til stemmekloning i telefonnetværk var ifølge skaberne det seneste produkt, der ikke havde nogen analoger før.

Tidligere niveau

De eksisterende systemer til at skabe maskintale har vist sig godt i visse tekniske nicher: i bilnavigationssystemer, armbåndsure, elektroniske "læse" oversætterordbøger og så videre. I sådanne systemer er opgaven med at efterligne en bestemt persons stemme ikke indstillet, derfor er den resulterende maskintale heller ikke personlig og er let genkendelig på grund af dens udtalte kunstige oprindelse.

Tidligere var forsøg på at syntetisere en bestemt persons tale baseret på princippet om at skabe en "kerne" af en taleklon, som indeholder et komplet sæt af akustiske, fonetiske og prosodiske funktioner - individuelle taleegenskaber. Dette krævede en ret detaljeret personlig database over den "kopierede" stemme. Den person, hvis stemme skulle kopieres, skulle læse en lang forberedt tekst, specielt designet og indeholdende et stort antal fonemer, for at maksimere funktionerne i talerens tale.

Dette gav visse vanskeligheder, da det er kendt, at en almindelig person bliver træt selv efter 15 minutters kontinuerlig læsning, og efter 20 minutters læsning kan hans stemme endda bryde fuldstændigt. Selv for en professionel foredragsholder er 45 minutters uafbrudt læsning, mens hele komplekset af individuelle karakteristika ved tale bevares, en ret vanskelig opgave. Kravene til kvaliteten af stemmeoptagelsen var også meget høje - det var nødvendigt at udelukke forskellige former for støj, der kunne forstyrre modelleringen. Den personaliserede optagelse af den oprindelige stemme opnået på denne måde blev udsat for frekvensanalyse og matematisk behandling, og beregningsprocessen tog ofte mere end én dag. Derefter kunne den individuelle stemmedatabase for en bestemt person bruges af en talesynthesizer. Naturligvis indsnævrede varigheden af kodningsprocessen og, vigtigst af alt, behovet for at optage referencetale i et studiemiljø betydeligt anvendelsesområdet for talekopieringssystemet under normale forhold.

Noter

↑ Abe M., Nakamura S., Shikano K. og Kuwabara H. "Stemmekonvertering gennem vektorkvantisering", i Proc. af Int. Konf. om Akust., Tale og Sig. Proc. ICASSP, New York, USA, apr. 1988, bind. 1, s. 655-658.
↑ Levine S. og Smith JO "A sines+transients+noise audio repræsentation for data compression and time/pitch scale modifications", i Proc. 105. konv. AudioEng. Soc., fortryk #4781, sep. 1998.
↑ Huang X., Acero A., Hon HW. "Talesprogsbehandling: en guide til teori, algoritmer og systemudvikling", Prentice Hall, NJ, 2001. - s. 980.

Litteratur

B. M. Lobanov, L. I. Tsirulnik "Computersyntese og kloning af tale", Minsk "Belarusian Science", 2008, 316 sider.
Abe M., Nakamura S., Shikano K. og Kuwabara H. "Stemmekonvertering gennem vektorkvantisering", i Proc. af Int. Konf. om Akust., Tale og Sig. Proc. ICASSP, New York, USA, apr. 1988, bind. 1, s. 655-658.
Patent nr.: US 6615174B1, sep. 2, 2003.
ITU-T Rec. G.729, "Kodning af tale ved 8 kbit/s ved hjælp af konjugeret-struktur algebraisk-kode-exciteret lineær - forudsigelse (CS-ACELP)", Mar. 1996.
Levine S. og Smith JO "A sines+transients+noise audio repræsentation for data compression and time/pitch scale modifications", i Proc. 105. konv. AudioEng. Soc., fortryk #4781, sep. 1998.
Talkin D. "Robust algorithm for pitch tracking" i "Speech Coding and Synthesis", Kleijn, WB og Palival, KK Eds. Elsevier, Amsterdam, Holland, 1995.
Grocholevski S. "Første database for talt polsk", i Proc. Int. Konf. On Language Resources and Evaluation, Grenada, 1998, s. 1059-1062.
KY Lee, Y Zhao, "Statistiske konverteringsalgoritmer for tonehøjdekonturer baseret på prosodiske sætninger". Proceedings of the International Conference "Speech Prosody 2004". (SP 2004)", Nara, Japan 23.-26. marts 2004.
Huang X., Acero A., Hon HW. "Talesprogsbehandling: en guide til teori, algoritmer og systemudvikling", Prentice Hall, NJ, 2001. - s. 980.