Registrering af stemmeaktivitet

VAD ( English  Voice Activity Detection ), samt Silence Suppression (fra  engelsk  -  "silence suppression") - detektering af stemmeaktivitet i det akustiske inputsignal for at adskille aktiv tale fra baggrundsstøj eller stilhed. En stemme tolket som støj kan generere "klip" fra samtalen (chipping). Baggrund fortolket som stemme resulterer i reduceret kompressionseffektivitet (f.eks. i DTX ).

Fordele og anvendelser

Ved digitalisering af stemme kan signalfragmenter, der er klassificeret som aktiv tale, kodes yderligere og komprimeres af et hvilket som helst audio-codec (for eksempel CELP ), når det bruges i software til at skelne mellem menneskelig stemme og baggrundsstøj i kodet tale.

Ved at bruge VAD-mekanismen (eller Silence Suppression) kan du spare på datatransmission over en kommunikationskanal , da et talebrud (bestemt af signalniveauet) ikke digitaliseres eller kodes , og "tomme" pakker med tavshed transmitteres derfor ikke over netværket. Dette er meget vigtigt for pakketransmission (som er transmission i TCP / IP-netværk), da hver protokol på alle niveauer af OSI-modellen (transport, netværk osv.) udover selve dataene tilføjer sin egen serviceinformation til hver datapakke. Som et resultat vokser pakkestørrelsen betydeligt. Således er udelukkelsen af ​​"tomme" pakker med lille støj en nem måde at spare trafik og som følge heraf øge kanalgennemstrømningen. Af denne grund bruges VAD-mekanismen ret ofte sammen med forskellige codecs til effektiv komprimering i IP-telefoni .

Ulemper og hvordan man fjerner dem

Problemet med VAD er, at som følge af undertrykkelse af tavshed (faktisk lyd på lavt niveau), hører lytteren slet ikke nogen identifikationssignaler (vejrtrækning, snusen og andre små lyde, der ledsager direkte tale). Det giver nogle problemer, for i almindelig tale bliver alt hørt. Fraværet af den sædvanlige støj under stemmegengivelse forårsager ubehag og reducerer niveauet af opfattelse og forståelse.

For at løse dette problem, på siden af ​​den anden abonnent (eller lytter), kan emulering af ledsagende lyde, kaldet comfort noise generation (CNG) (den omvendte proces for VAD), bruges.

Se også

Links