MPEG-1 lydlag 3 | |
---|---|
Udvidelse | .mp3[en] |
MIME -type | audio/mpeg [2] , audio/MPA [3] og audio/mpa-robust [4] |
Udvikler | Fraunhofer Society , Karlheinz Brandenburg , Heinz Gerhäuser [d] , Bernhard Grill [d] og Harald Popp [d] |
offentliggjort | 1993 |
Formattype | lydformat |
Mediefiler på Wikimedia Commons |
MP3 (mere præcist engelsk MPEG-1/2/2.5 Layer 3 ; men ikke MPEG-3 ) er et filformat udviklet af MPEG -teamet til lagring af lydinformation . Formatet blev licenseret , men den 23. april 2017 udløb alle patenter og licensafgifter ophørte [5] .
MP3 er et af de mest almindelige og populære digitale lydkodningsformater . Det er meget brugt i fildelingsnetværk til evaluerende musikdownloads . Formatet kan afspilles på næsten alle populære operativsystemer , på de fleste bærbare lydafspillere og understøttes også af alle moderne modeller af musikcentre og dvd-afspillere .
MP3-formatet bruger en komprimeringsalgoritme med tab, der er designet til at reducere mængden af data, der kræves for at afspille en optagelse, og give en lydgengivelseskvalitet tæt på originalen (efter de fleste lytteres mening), men med et mærkbart kvalitetstab, når det høres. på et kvalitetslydsystem . Princippet om komprimering er at reducere nøjagtigheden af nogle dele af lydstrømmen, som praktisk talt ikke kan skelnes til at høre på det allestedsnærværende udstyr til lydgengivelse med lav troværdighed (f.eks. det dominerende flertal af bærbare enheder, lydkort, stereoanlæg, bilradioer og andet ikke-specielt udstyr), såvel som for personer i ældre alder, på grund af naturlige aldersrelaterede ændringer i høreapparatet, men er i de fleste tilfælde tydeligt skelnelige på high-fidelity lydudstyr . Denne metode kaldes perceptuel kodning [6] . På samme tid, i det første trin, opbygges et lyddiagram i form af en sekvens af korte tidsintervaller, derefter fjernes information, der ikke kan skelnes af det menneskelige øre, fra det, og den resterende information lagres i en kompakt form. Denne fremgangsmåde ligner den komprimeringsmetode, der bruges ved komprimering af billeder til JPEG-format . [ klargør ] Oprettelse af en MP3 med en gennemsnitlig bithastighed på 128 kbps resulterer i en fil, der er cirka 1/11 af størrelsen af den originale CD-Audio-fil ( det ukomprimerede CD-Audio-format i sig selv har en bithastighed på 1411,2 kbps). MP3-filer kan oprettes ved høj eller lav bitrate, hvilket påvirker kvaliteten af den resulterende fil.
MP3 blev udviklet af en arbejdsgruppe fra Fraunhofer Institute ( tysk: Fraunhofer-Institut für Integrierte Schaltungen ) ledet af Karlheinz Brandenburg og University of Erlangen-Nuremberg i samarbejde med AT&T Bell Labs og Thomson (Johnson, Stoll, Deeri, etc.) .
Udviklingen af MP3 var baseret på det eksperimentelle codec ASPEC (Adaptive Spectral Perceptual Entropy Coding). Den første MP3-koder var L3Enc , udgivet i sommeren 1994. Et år senere dukkede den første software MP3-afspiller op - Winplay3 .
Ved udvikling af algoritmen blev der udført tests på ganske specifikke populære sammensætninger. Suzanne Vegas " Tom's Diner " blev hovedsangen . Derfor vittigheden om, at "MP3 blev skabt udelukkende for den behagelige lytning af Brandenburgs yndlingssang", og Vega begyndte at blive kaldt "MP3's moder".
En næsten komplet standard dukkede op i det offentlige domæne den 6. december 1991 .
Den 23. april 2017 udløb de sidste patenter for formatet, og royaltybetalinger fra software og indlejrede leverandører blev stoppet [7] [8] . Fraunhofer Instituttet annoncerede opsigelsen af licenseringen af formatet på sin officielle hjemmeside [9] . Og selvom mp3-formatet stadig er meget populært blandt brugerne, er de fleste radiostationer og tv-kanaler skiftet til at bruge moderne codecs, der giver bedre komprimering og mindre tab af lydkvalitet.
Ligesom JPEG-formatet bruger MP3 spektral klipning ifølge den psykoakustiske model . Lydsignalet er opdelt i segmenter af samme varighed, som hver efter behandling pakkes ind i sin egen ramme (ramme). Dekomponering til et spektrum kræver kontinuiteten af inputsignalet, derfor bruges de forrige og næste rammer også til beregninger. I lydsignalet er der harmoniske med en mindre amplitude og harmoniske, der ligger tæt på mere intense - sådanne harmoniske er afskåret, da det gennemsnitlige menneskelige øre ikke altid kan bestemme tilstedeværelsen eller fraværet af sådanne harmoniske. Denne funktion af hørelsen kaldes maskeringseffekten . Det er også muligt at erstatte to eller flere nærliggende toppe med én i gennemsnit (hvilket som regel fører til lydforvrængning). Afskæringskriteriet bestemmes af outputstrømkravet. Da hele spektret er relevant, afskæres højfrekvente harmoniske ikke, som i JPEG , men fjernes kun selektivt for at reducere informationsstrømmen på grund af spektrets sjældenhed. Efter spektral "fejning" anvendes matematiske metoder til kompression og pakning i rammer. Hver frame kan have flere containere, hvilket giver dig mulighed for at gemme information om flere streams (venstre og højre kanal eller centerkanal og kanalforskel). Kompressionsforholdet kan varieres, også inden for én ramme. Rækken af mulige bitrate -værdier er 8-320 kbit/s .
Tidligere var det en udbredt opfattelse, at 128 kbps -optagelse var velegnet til musik beregnet til at lytte til de fleste mennesker, hvilket giver lydkvaliteten fra Audio-CD . I virkeligheden er alt meget mere kompliceret. For det første afhænger kvaliteten af den resulterende MP3 ikke kun af bithastigheden, men også af kodningsprogrammet ( codec ) (standarden specificerer ikke kodningsalgoritmen, den beskriver kun præsentationsmetoden). For det andet, ud over den fremherskende CBR (Constant Bitrate)-tilstand (hvor med andre ord hvert sekund af lyd er kodet med det samme antal bits), er der ABR (Average Bitrate) og VBR (Variable Bitrate)-tilstande. For det tredje er 128 kbps-grænsen vilkårlig, da den blev valgt i æraen af dannelsen af formatet, hvor afspilningskvaliteten for de fleste digitale lydsystemer som regel var lavere end i dag. Groft sagt svarer udsagnet om "Audio-CD-kvalitet" ved 128 kbps til grænsen for relativt behagelig lytning til musik, hvorunder der er en kraftig lydforringelse i alle MP3-kodningsprogrammer.
I 2008 er MP3-filer med en bitrate på 192 kbps de mest almindelige, hvilket indirekte kan tyde på, at flertallet anser denne bitrate for tilstrækkelig. Den faktiske opfattede "kvalitet" afhænger af kildelydfilen, lytteren og deres lydsystem. Nogle musikelskere foretrækker at komprimere musik i "maksimal kvalitet" - 320 kbps, eller endda skifte til tabsfri codecs, såsom FLAC . Der er også en mening blandt musikelskere / audiofile , at nogle samples (fragmenter af en lydoptagelse) ikke er modtagelige for komprimering med tab af høj kvalitet: ved alle mulige bithastigheder er det ikke svært at skelne komprimeret lyd fra originalen. Der er dog også alvorlige indvendinger [10] :
Det er helt indlysende, at (lad os tage det med en margen) en bitrate på 256 kbps i langt de fleste tilfælde burde være mere end nok til behagelig opfattelse af musik fra en CDA-kilde (44 kHz/16 bit/stereo). Dette er indlysende ikke kun fra min hjemmedyrkede test, men også fra analysen af professionelle blindtest (for eksempel den tyske udgave af "c't", juni 2000): selv i dem er eksperter ikke altid i stand til at " gæt" lyden komprimeret til 256 kbps, desuden foregår testning i særligt forberedte lokaler og på dyrt udstyr, og eksperten ved, hvad han skal "lytte" for at mærke komprimeringen.
Der er tre versioner af MP3-formatet til forskellige behov: MPEG-1 , MPEG-2 og MPEG-2.5 . De adskiller sig i de mulige intervaller for bitrate og samplinghastighed:
Da MP3-formatet understøtter to-kanals (stereo) kodning, er der 4 tilstande:
CBR står for Constant Bit Rate , det vil sige en konstant bitrate , som indstilles af brugeren og ikke ændres, når værket kodes. Således svarer hvert sekund af stykket til det samme antal kodede bits af data (selv når du koder tavshed). CBR kan være nyttigt til kanalbegrænsede mediestrømme; i et sådant tilfælde bruger kodningen datakanalens fulde muligheder. Til lagring er denne kodningstilstand ikke optimal, da den ikke kan tildele nok plads til komplekse segmenter af det originale produkt, mens den spilder plads på simple segmenter. Højere bithastigheder (over 256 kbps ) kan løse dette problem ved at allokere mere plads til data, men også proportionelt øge filstørrelsen.
VBR står for Variable Bit Rate , det vil sige en variabel bithastighed eller variabel bithastighed , som ændres dynamisk af indkoderprogrammet under indkodning, afhængigt af mætningen af det kodede lydmateriale og den kodningskvalitet, som er indstillet af brugeren (f.eks. , stilhed er kodet med en minimum bithastighed). Denne MP3-kodningsmetode er den mest progressive og udvikles og forbedres stadig, da lydmateriale af forskellig mætning kan kodes med en vis kvalitet, som normalt er højere end når gennemsnitsværdien er indstillet i CBR-metoden. Desuden er filstørrelsen reduceret på grund af fragmenter, der ikke kræver en høj bitrate. Ulempen ved denne kodningsmetode er vanskeligheden ved at forudsige størrelsen af outputfilen. Men denne ulempe ved VBR-kodning er ubetydelig i sammenligning med dens fordele. En anden ulempe er, at VBR anser stillere fragmenter for at være "ubetydelige" lydinformationer, så det viser sig, at hvis du lytter meget højt, vil disse fragmenter være af dårlig kvalitet, mens CBR laver stille og høje fragmenter med samme bitrate.
VBR-formatet forbedres konstant takket være den konstante forbedring af den matematiske model af codecs, især efter udgivelsen af en opdateret version af den gratis LAME MP3-codec (version 3.99.3), variabel bitrate-kodning, ifølge udviklerne , er kvalitativt bedre end CBR og endnu mere ABR. CBR 320 kbps-formatet er dog stadig placeret som garanterer maksimal kvalitet (det bruges f.eks. i "--preset insane"-forudindstillingen).
ABR står for Average Bit Rate , det vil sige gennemsnitlig bitrate , som er en hybrid af VBR og CBR: bithastigheden i kbps indstilles af brugeren, og programmet varierer den, og justerer den konstant til den angivne bithastighed. Således vil codec'et omhyggeligt bruge de maksimalt og mindst mulige bitrate-værdier, da det risikerer ikke at passe ind i den brugerspecificerede bitrate. Dette er en klar ulempe ved denne metode, da den påvirker kvaliteten af outputfilen, som vil være lidt bedre end ved brug af CBR, men værre end ved brug af VBR. På den anden side tillader denne metode den mest fleksible indstilling af bithastigheden (det kan være et hvilket som helst tal mellem 8 og 320, mod kun multipla af 16 i CBR-metoden) og beregning af outputfilstørrelsen.
Typer af programmer, der er nødvendige for at konvertere filformater. De mest almindelige MP3-codecs.
En MP3-fil består af flere MP3-fragmenter (frames), som igen består af en header og en datablok. En sådan sekvens af fragmenter kaldes en elementær strøm . Fragmenter er ikke uafhængige elementer (et "reservoir af bytes") og kan derfor ikke hentes vilkårligt. Datablokken i en MP3-fil indeholder komprimeret lydinformation i form af frekvenser og amplituder. Ovenstående diagram viser, at en MP3-header består af en markør, der bruges til at finde det korrekte MP3-fragment. Dette efterfølges af en bit, der angiver, at MPEG- standarden bliver brugt , og to bit, der angiver, at lag 3 bliver brugt; med andre ord definerer den MPEG-1 Audio Layer 3 eller MP3. Følgende værdier kan variere afhængigt af MP3-filtypen. ISO / IEC 11172-3 - standarden definerer en række værdier for hver overskriftssektion sammen med en generel specifikation for den. De fleste MP3-filer indeholder i øjeblikket ID3-metadata , der går forud for eller efter MP3-segmentet; de er også vist i diagrammet.
Tags (fra det engelske tag - label, label, tag) - tags inden for grænserne af en MP3-fil (i begyndelsen og/eller i slutningen). De kan indeholde oplysninger om forfatterskab, album, udgivelsesår, albumcover og tekster og andre oplysninger om nummeret. I senere versioner af taggene er det muligt at gemme andre data om lydoptagelsen. Der er forskellige versioner af tags (se: ID3 ).
Tekniske mangler. Antallet af lydkanaler er begrænset til to, i modsætning til AAC og Vorbis . Der er også en hård grænse for den mulige samplingsfrekvens: der er ingen måde at indstille en vilkårlig samplinghastighed på. Den maksimale samplinghastighed for MP3 er 48 kHz, mens den maksimale samplinghastighed for Vorbis er 192 kHz, og for AAC er den 96 kHz. I MP3 er det kun muligt at gemme ved følgende samplingsfrekvenser: 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100 og 48000 Hz.
Lovlige begrænsninger. MP3-patentet ejes af Alcatel-Lucent , som krævede licens til nogle anvendelser af formatet (MP3-relaterede patenter udløb 23. april 2017 ).
I USA blev opfindelser offentliggjort i mere end et år[ hvornår? ] , kan ikke patenteres; for patenter udstedt før 8. juni 1995 (næsten en komplet standard blev gjort offentligt tilgængelig den 6. december 1991) var det dog muligt at forlænge deres vilkår. Kendte patenter vedrørende MP3-dekryptering udløb i USA i december 2012; ifølge andre data, kun i betragtning af patenter indgivet før december 1992, skete dette ikke i september 2015 [ 12] [13] .
I 2017 udløb alle patenter relateret til dette format, da de ikke blev fornyet af ophavsretsindehaverne [5] .
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |
|
MPEG (Moving Picture Experts Group) | |
---|---|
MPEG-1 sektioner | |
MPEG-2 sektioner |
|
MPEG-4 sektioner |
|
MPEG-7 sektioner |
|
MPEG-21 sektioner |
|
MPEG-D sektioner |
|
Lydkomprimering | |
---|---|
Codecs | |
Tale/stemme | |
Tabsfri |
|
Standarder og formater | |
mediebeholdere | |
---|---|
Video/lyd | |
Lyd | |
musik |
|
Raster | |
Vektor | |
Kompleks |