Lydkloning ( engelsk voice changing, voice cloning ) er en teknologi, der implementerer en ændring i en persons stemme, produceret ved hjælp af software og hardware, både i realtid og i en forsinket batch-tilstand.
Teknologien gør det muligt at simulere de personlige egenskaber ved en persons tale med et ret komplet match med originalen, kaldet "kopimålet".
I øjeblikket er talegenkendelsessystemer relativt veludviklede . De bruges til stemmestyring af forskellige husholdningsapparater (i telefoner, bilstereosystemer og slutter med vaskemaskiner). Den omvendte proces - udtrækning af ord fra et lydsignal og syntetisering af tale - støder på en række vanskeligheder.
Programmer anses for at tilhøre kategorien "Voice Changing Software" eller "Voice Changer":
Også SDK-pakker:
Tidligere nogle virksomheder kommercielt en opkalds stemmeskiftetjeneste over telefonen i realtid. Dette blev gjort som følger:
Teknologibeskrivelse
Teknologien til talekloning i en telefonsamtale i realtid er baseret baseret på kendte algoritmer til matematisk behandling af talebæresignalet [1] [2, 4]. Samtidig bruger deDFT - metoder til analyse af frekvenser i et diskret signal (ved hjælp af en speciel Fourier-transformationsmetode ) opnået ved at digitalisere et analogt telefonsignal ved hjælp af smalbåndstale-codec G.729 [2] [5, 6, 7, 8 ]. Syntesen af ændret tale baseret på bæresignalet, det vil sige den resulterende "klonede stemme", realiserer muligheden for maksimal bevarelse af de personlige akustiske egenskaber af den kopierede originale stemme: fonetiske træk ved udtale, accent og endda artefakter som f.eks. stammende [3] [9]. Det er således umuligt at identificere højttalerens kunstighed, selv med speciel behandling og matematisk analyse af det originale telefonsignal. Ulovlig brug af talekloningsteknologi er strengt forbudt i overensstemmelse med det særlige beskyttelsesprogram for onlinetjenesten, der leverer denne tjeneste. Den beskrevne teknologi til stemmekloning i telefonnetværk var ifølge skaberne det seneste produkt, der ikke havde nogen analoger før.
Tidligere niveau
De eksisterende systemer til at skabe maskintale har vist sig godt i visse tekniske nicher: i bilnavigationssystemer, armbåndsure, elektroniske "læse" oversætterordbøger og så videre. I sådanne systemer er opgaven med at efterligne en bestemt persons stemme ikke indstillet, derfor er den resulterende maskintale heller ikke personlig og er let genkendelig på grund af dens udtalte kunstige oprindelse.
Tidligere var forsøg på at syntetisere en bestemt persons tale baseret på princippet om at skabe en "kerne" af en taleklon, som indeholder et komplet sæt af akustiske, fonetiske og prosodiske funktioner - individuelle taleegenskaber. Dette krævede en ret detaljeret personlig database over den "kopierede" stemme. Den person, hvis stemme skulle kopieres, skulle læse en lang forberedt tekst, specielt designet og indeholdende et stort antal fonemer, for at maksimere funktionerne i talerens tale.
Dette gav visse vanskeligheder, da det er kendt, at en almindelig person bliver træt selv efter 15 minutters kontinuerlig læsning, og efter 20 minutters læsning kan hans stemme endda bryde fuldstændigt. Selv for en professionel foredragsholder er 45 minutters uafbrudt læsning, mens hele komplekset af individuelle karakteristika ved tale bevares, en ret vanskelig opgave. Kravene til kvaliteten af stemmeoptagelsen var også meget høje - det var nødvendigt at udelukke forskellige former for støj, der kunne forstyrre modelleringen. Den personaliserede optagelse af den oprindelige stemme opnået på denne måde blev udsat for frekvensanalyse og matematisk behandling, og beregningsprocessen tog ofte mere end én dag. Derefter kunne den individuelle stemmedatabase for en bestemt person bruges af en talesynthesizer. Naturligvis indsnævrede varigheden af kodningsprocessen og, vigtigst af alt, behovet for at optage referencetale i et studiemiljø betydeligt anvendelsesområdet for talekopieringssystemet under normale forhold.