Fonografie Techniek

DATAREDUCTIE

WAT THEORIE EN PRAKTIJK ROND HET THEMA DATAREDUCTIE Op de AES conferenties was sinds het begin van de jaren negentig datareduc­tie een belang­rijk thema, omdat in de toekomst op allerlei gebieden niet aan ontlasting van opslag-, transmis­sie- en weergave­media is te ontkomen. Ook de miniatu­risatie eist zijn tol.Dat geldt bv. voor:- digitale telefoonverbindingen (ISDN - Integrated Services Digital Network)- digitale radioprogramma's langs terrestrische weg (DAB in 1995?)- digitale radioprogramma's per satelliet (Astra): (MUSICAM)- 5-kanaals Surround Sound bij TV binnen de V.S. HDTV normen- de al bekende DCC- en de MD Intussen is er een tweede, betere generatie MD en wordt voortdurend bij­schaafwerk aan DCC gedaan met behulp van 18- en dadelijk mogelijk 20-bit oplossend vermogen. Aan het theoretische 'psycho-akoestische model' van het menselijk gehoorma­tig perceptievermogen wordt steeds verder gewerkt.Deze ontwikkeling is destijds onder andere op gang gebracht door Zwicker van de TU München. Fundamenteel onderzoek werd gedaan door het IRT (Münchensinstituut voor radio techniek) en het Fraunhofer Instituut in Erlangen. Terug naar het begin:In 1956 publiceerde Zwicker zijn boek Das Ohr als Nachrichtenempfänger, dat sinds 1967 sinds een nieuwe druk snel de bijbel van de psycho-akoestici werd. Dat boek is de samenvatting van decennia lang onderzoek en introdu­ceerde termen als "Mithörschwelle", "Frequenzgruppe" en "Lautheit". Feite­lijk was dat onderzoek gericht op een zinvolle, praktische realisatie van geluidsoverlast metingen, die met de echte oorgevoeligheid rekening houden. Aan praktische toepassingen van het ontdekte werd nog weinig concreet gedacht. ISDN: aan de basis stond Seitzer in Erlangen, al in 1981 een patentaanvraag voor "hoogwaardige geluidstransmissie via het digitale ISDN telefoonnet". Het patent werd niet verleend. Immers met slechts 64 kilobit/s valt niet aan redelijke kwaliteit te denken. De cd werkt met de elfvoudige waarde van 768kbit/s/kanaal. (DCC werkt met ca. 192 kbit/s/kanaal, MD met 140kbit/s/ka­naal). DAB is in wezen een bedenksel van het IRT, waar Theile in 1986 werkt aan het digitale alternatief van FM stereo. Hij vroeg patent aan voor een "transmis­sieprocédé voor digitale radio programma's". Het is erop gericht, de maskeringseffecten van het gehoor ten dienste te stellen van datareductie. In een vervolg daarop uit 1987 is reeds het codeerprin­cipe beschreven, dat grote overeenkomst vertoont met het door Philips bij DCC toegepaste PASC. Als basis diende steeds de door Zwicker beschreven eigenschap van het oor, dat als een 'filterbank' (met frequentiegroepen) zou werken. Maar daarna trad een scheiding der geesten op:- het IRT werkte met MASCAM, een subband-coder- Fraunhofer koos voor een transformatie-coder, OCF, die uitliep op Sony's ATRAC. Ook elders werd aan datareductie geknutseld. Eind 1989 was bekend, dat worldwide 14 verschillende codeermethodes waren ontwikkeld. Hoogste tijd om normalisatiepogingen te ondernemen!De ISO (Internationale Standaardisatie Organisatie) en de MPEG (Motion Picture Expert Group) sloegen de handen ineen en nodigden de betrokkenen uit tot samenwerking en een kritische luistertest door deskundigen.In 1990 vond die plaats en twee systemen werden uitverkoren: - MASCAM dat met behulp van het Franse Thomson evolueerde tot MUSICAM- OCF werd ontwikkeld tot ASPEC De gemeenschappelijke norm moest MPEG worden, nauwkeuriger geformuleerd MPEG 1, waarin in een paar (kwaliteits)lagen de concurrerende principes werden ondergebracht.In 1991 werd MPEG 1 na discussie en modificaties aanvaard.De drie lagen verschillen van elkaar in wezen door hun complexiteit, die met verminderde datarate toeneemt.Wanneer een relatief hoge datarate - bv. 386 kbit/s zoals bij DCC - ter beschikking is, dan werkt de decoder volgens Layer 1 en is eenvoudig en dus goedkoop realiseerbaar.Wanneer men daarentegen met een lage datarate - van bv. 64 kbit/s, zoals voor het digitale telefoonnet ISDN - werken, dan zijn in Layer 3 ingewikkel­de, dus duurdere codeerprocedures nodig. Stamboom van de MPEG norm met zijn 3 lagen: IRT (MASCAM)                                              vereenvoudigde versie                                                                                                                                             LAYER 1Philips                         MUSICAM                    CCETT                                                                                                                                             LAYER 2AT & T                        (PXFM) Fraunhofer OCF         ASPEC                                                                                                          LAYER 3Thomson                    MSC CNET (Layer 3 combineert het beste van ASPEC en MUSICAM) Intussen wordt hard aan MPEG 2 gewerkt. De 2e tak van datareductie is bedoeld voor speciale toepassingen. De codering is niet slechts compatibel met MPEG 1, maar het systeem biedt bovendien ruimte aan vijf audiokanalen voor Surround doeleinden, een subwoofer kanaal en ruimte voor 7 extra mono taalkanalen. Bij al deze psycho-akoestische modellen gaat het om nabootsingen, die het functioneren van het menselijk oor, het reageren op afzonderlijke tonen of smalbandige ruis beschrijven. Dat zijn dus testsignalen, die niets met gewone muziek of spraak te maken hebben, maar die een goed inzicht geven in hoormechanismen.Deze in een psycho-akoestisch model beschreven mechanismes worden steeds verder ontwikkeld en dus steeds nauwkeuriger. Het MPEG proces maakt het gelukkig mogelijk om al die verbeteringen door een datalijst te wijzigen in te voeren. Het is dus een evolutionair proces: de codering kan voortdurend worden aangepast en verbeterd; de decodering blijft hetzelfde. Alle goede dingen in drieën1) Weglaten wat onder de gehoordrempel valt2) Weglaten wat wordt gemaskeerd. Bovendien is bekend, dat onze oren in het presencegebied (de middentonen) het gevoeligst zijn en dat ze de hoogste en laagste tonen minder goed oplossen; in die extreme frequentiebanden kan dus wat zuiniger met de bit toewijzing worden omgesprongen, zodat er meer voor het gevoelige gebied overblijven.3) Efficiënter coderen wat overblijft Het principe van ATRAC en PASC De Adaptive TRAnsform Coder (ATRAC) werkt zoals gezegd als "transformatie coder", terwijl het bij de Precision Adaptive Subband Coding (PASC) gaat om de splitsing van het muzieksignaal via een "polyfase filter". Alleen het uitgangspunt is hetzelfde. Het muzieksignaal wordt om te beginnen in verschil­lende frequentiebanden gesplitst. Wat binnen die banden aan audiosignalen onder de gehoordrempel blijft wordt onderdrukt en geëlimi­neerd: wat je niet waarneemt, hoeft ook niet te worden gecodeerd. Dat spaart bits.Bij PASC voor DCC wordt zo 3/4 van het voor de volwaardige cd gebruikte materiaal "vergeten", bij ATRAC voor de MD zelfs 4/5 deel. (Bij de video datareductie, zoals die o.a. bij registratie van films op CD-i wordt bedreven, geldt zelfs een datareductie van 1:130!).Hoezeer beide principes op elkaar lijken, toch zijn beide in detail heel verschillend.Allereerst is het goed om de relatie tussen tijd- en frequentiebereik voor ogen te houden: het geluidssignaal bestaat uit een met de tijd veranderende geluidsdruk, waarbij de wisselsnelheid overeenkomt met de frequentie en de wisselende geluidsdruk met de amplitude.Elke sinusvormige trilling kan in de tijd gezien dus als een streepje in het frequentiespectrum worden afgebeeld. Bij meerdere trillingen tegelijk - bij muziek dus - worden dat veel frequentielijntjes.Tijd- en frequentiebereik staan mathematisch met elkaar in verband via een zogenaamde transformatie. Om die transformatie te kunnen realiseren, moet het in de tijd plaatshebbende verloop van het muzieksignaal (dat intussen is omgezet in een elektrische spanning) in kleine mootjes worden gesplitst. Deze worden vervolgens in het frequentiebereik getransformeerd. Hierbij bestaat een nauw verband tussen de grootte van de brokken (Sample-lengte) en de laagste grensfrequentie. Lage frequenties vergen bijvoorbeeld langere waarden. Zover de theorie.In de praktijk ziet het er wat anders uit. Daar wordt het analoge muzieksig­naal meteen aan het begin al met een A/D omzetter gecodeerd in een digitale datastroom, waarmee de eerder beschreven transformaties en filteringen betrekkelijk makkelijk kunnen worden uitgevoerd. PASC De Philips ontwikkeling PASC werkt met 32 bandpasses van constante breedte en komt overeen met de genormeerde MPEG 1, LAYER 1 procedure. Binnen deze filters worden de daarin aanwezige spectrale muziekaandelen gekwantiseerd, waarbij de bitlengte wordt bepaald op grond van het psycho-akoestische model. Deze is zo bepaald, dat optredende kwantiseringsruis ook bij het kwantiseren met weinig bits onhoorbaar blijft. Op deze manier in het mogelijk voortdurend op basis van de muziekinhoud elke deelband een optimum aan bits toe te kennen.Slechts bij uitzondering is het hele 16-bit oplossend vermogen van de cd vereist. Dat zou bv. mogelijk kunnen zijn wanneer één enkele frequentie moet worden gecodeerd. Dan zou uit het volle bitreservoir kunnen worden geput om hoorbare neveneffecten zo gering mogelijk te houden.Verdere ontwikkelingen van PASC werken reeds met 18-bit oplossend vermogen en dat kan nog oplopen. Voor de betreffende software zorgt met name Tony Griffith van Decca. Hierbij komt nog, dat met deze techniek - zover nodig - zelfs kleine muzieksignalen met het volledige oplossend vermogen kunnen worden gecodeerd. Dat is meteen de verklaring voor het feit, dat ook in de zachtste muziekpassages - in tegenstelling tot bij de cd - bij PASC de kwantiseringsruis onhoorbaar blijft en de opname "schoner' klinkt.Door aanpassing van de coëfficiëntenlijst in het psycho-akoestische model is bovendien een voortschrijdende verbetering mogelijk.Na de bit toedeling voor de 32 deelbanden volgt ook bij PASC een datacom­pressie - een efficiënter manier van coderen - net als bij ATRAC. ATRAC Bij Sony's ATRAC wordt het hele muziekspectrum in drie sectoren gesplitst, namelijk eentje voor het laag (van 0 tot 5,5kHz), het midden (5,5 - 11kHz) en het hoog (11 - 20kHz). De clou van ATRAC is nu, dat de aftastlengte (blokgrootte) overeenkomstig het frequentiebereik wordt omgeschakeld. Voor het lage tonen gebied bedraagt deze bv. 11,6ms, voor het hoge tonen dito slechts 1,45ms.Deze omschakeling tussen diverse bloklengtes is nodig om te zorgen dat de codering net zo bliksemsnel kan reageren op een plotselinge trommelslag als op een vervormingsvrije weergave van een lage pedaaltoon van het orgel.Die omschakeling tussen de bloklengtes - weten we nu - werkte bij de 1e generatie MD ATRAC apparaten niet of niet goed.Vervolgens wordt binnen de drie frequentiegebieden het muzieksignaal nogmaals gesplitst. In het lage tonen gebied in 256 delen, in het midden- en hoge tonen gebied elk in 128 frequentiebanden. De energie van het muzieksig­naal in die banden wordt nu overeenkomstig een psycho-akoestisch model gewogen, waarbij onhoorbare gedeeltes worden onderdrukt en weggewerkt. Daarna volgt een verdere datareductie, waarbij bijvoorbeeld tien achtereen­volgende nullen niet tienmaal afzonderlijk worden genoteerd, maar als 10x0 worden weggeschreven. MetingenHel mooi met NMR apparatuur, die Noise-to-Mask-Ratio vaststelt.Dan blijkt, dat met DCC alleen in het hoogste frequentiebereik foutjes optreden. Bij de 1e generatie MD spullen kwamen pre-echo's tot wel 11ms voor, bij de nieuwe is dat gereduceerd tot 2ms, terwijl DCC op ca. 2,5ms komt. Pre-echo's zijn verdwenenEen bezwaar van de bit spaarregeling is, dat aan het geluidsspectrum stoorenergie in de vorm van kwantiseringsruis wordt toegevoegd. Dit is vooral een probleem bij de verwerking van signalen met veel transiënten. Die stoorenergie wordt namelijk over het betreffende tijdvenster van een samengevat blok verdeeld. Dat kan er toe leiden, dat de kwantiseringsruis in de stilte voor bv. een piano-aanslag valt: vroeger spraken we al van pre-echo.Psycho-akoestisch onderzoek leerde, dat 2 tot 3ms onhoorbaar is. Maar bij een duur van 11ms, die geen uitzondering is moet een trucje bij het coderen worden toegepast: bij een aanlag, een impuls wordt meteen op een kortere bloklengte omgeschakeld. Bij ATRAC gebeurde dat niet of slecht. In dit opzicht is de ATRAC schakeling verbeterd. Hoorbare effecten/verschillenBij MD: Minder pre-echo's, betere transiëntweergave, wat minder 'snel en vitaal', licht geremd, wat blekere klankkleuren, iets ingeperkte ruimtelijk­heid, dus kwalitatief nog steeds achterblijvend bij DCC en CD.Bij DCC: minstens gelijkwaardig aan cd, soms minder kwantiseringsruis, klank is rijker, rijper, rustiger, heeft meer reserve. De toekomst: blauwe laser?De aangekondigde blauwe laser zal vooral betekenis hebben voor de nieuwe beeldplaat. Bewegende beelden vragen om een verwerkingscapaciteit van 200 miljoen bit/s wat gangbare TV programma's betreft. Met behulp van uitgekien­de algoritmes kan dat tot 1/130 worden gereduceerd wil ongeveer VHS beeld­band kwaliteit overblijven.Ander probleem is, dat zelfs dan de opslagcapaciteit van een 12cm cd (3,4gigabit) slechts voldoende is voor 7 minuten beeldregistratie in S-VHS kwaliteit. Daarom wordt gezocht naar een grotere opslagcapaciteit van de cd.Op zo'n cd gaat met behulp van optische registratie des te meer info naarmate de diameter van de schrijvende en aftastende laser kleiner is. Met de nu gangbare infrarood laser (met een golflengte van 780nm) houdt het met een spoorbreedte van 1,6mu op, want het licht gedraagt zich bij deze geringe afmetingen niet langer als straal maar als golf. Daarom kan met lenzen ook geen kleiner brandpunt dan ca. 1mu worden bereikt.Uitkomst kan licht met een kortere golflengte, dus bv. blauw (425nm) of groen (532nm) bieden.Helaas functioneert een laser in dit bereik slechts via omwegen. Men laat een krachtige infrarood laser in een kristal stralen. De atomen van dat kristal gaan in het krachtige elektromagnetische veld van het licht vervormen. Daarbij ontstaan - net als bij een overstuurde versterker - harmonischen, die hier doel van de oefening zijn: blauw laserlicht. Alleen het rendement van deze operatie is gering. Een door Pioneer en Dupont gefabriceerde blauwe laser liet van het 100mW ingangsvermogen slechts 3mW blauw licht over. Te weinig om er iets mee te kunnen. Toekomstmuziek dus. Flash chipOok nog toekomstmuziek is de eventuele "Flash Chip", waaraan o.a. het Fraunhofer instituut werkt: de muzikale creditcard. Het is thans mogelijk om 10 minuten muziek met een datarate van 2x64kbit/s (= stereo FM kwaliteit) op een creditcard grote memory card onder te brengen. In 1997 hoopt men al op een 64-MB module, goed voor een uur stereomuziek. Alleen: die module zal nog onbetaalbaar zijn. Men rekent nog op een jaar of tien ontwikkeling, totdat de Flash Chip een serieuze concurrent van de cd kan worden. (een tekst uit 1995……)