Dynamika, głośność i inne aspekty płyty CD-Audio

2010-02-27
Wersja 1.1 aktualizacja 28.01.11

Tytułem wstępu.

W niniejszym opracowaniu chciałbym zwrócić uwagę na kilka głównych zagadnień związanych z cyfrową reprezentacją dźwięku zapisanego na płytach CD-Audio w formacie PCM z naciskiem na:

1) dynamikę dźwięku,
2) poziom głośności.

Pojecie dynamiki jest często nieprecyzyjnie rozumiane, co prowadzi do wielu nadużyć interpretacyjnych.
Na wstępie należy rozdzielić pojęcie dynamiki w ujęciu muzycznym od dynamiki w ujeciu elektroakustycznym. Oczywiście w pewnym sensie pojęcia te się uzupełniają, natomiast na potrzeby niniejszj pulikacji skupimy się na tym drugim ujęciu.
 
Ponieważ chciałbym, aby opisywane tutaj zagadnienia dotarły do możliwie szerokiej grupy osób, postaram się opisać je, ograniczając do minimum  sprawy natury matematycznej. Pozwolę sobie również na pewne uproszczenia, nie zmieniające jednak w żadnym stopniu istoty poruszanego tematu. Postaram się również połozyc nacisk na aspekty praktyczne czyli co rzeczywiście, dla nas słuchaczy, kryje się pod matematyczną reprezentacją formatu CD-Audio.


Teoretyczna dynamika nośnika cyfrowego.


Pierwszą rzeczą, jaką należy definitywnie wyjaśnić to rzecz elementarna, czyli co kryje się pod pojęciem dynamiki zapisanego dźwięku (nagrania).

Dynamika jest różnicą pomiędzy najgłośniej zarejestrowanym poziomem dźwięku a najciszej zarejestrowanym poziomem dźwięku w określonym przedziale czasowym. Dynamika wyrażana jest jako wartość bezwzględna (proporcja) lub wyrażona jest poprzez skalę decybelową jako wartość logarytmu dziesiętnego lub logarytmu naturalnego.

W teorii przetwarzania cyfrowego zakres dynamiki ograniczony jest przez błąd kwantyzacji, czyli powiązany jest ściśle z długością słowa bitowego przeznaczonego na reprezentowanie sygnału audio. Jeżeli liczbę bitów wyrazimy poprzez wartość Q (ilość bitów odpowiedzialna za ilość poziomów kwantyzacji sygnału) to wzór na wyrażenie zakresu dynamiki przetworników A/C [ZDA/C] przybierze postać:

ZDA/C = 20 * log10 (2Q / 1) ≈ 6 * Q [dB]

Z zależności tej wynika, że teoretyczny zakres dynamiki nośnika CD wynosi 6 * 16bit = 96[dB]

Proszę zapamiętać tę zależność. Będzie ona ważna w dalszej części rozważań. Wynika z niej, że każdy bit próbki cyfrowej reprezentuje około 6[dB] zakresu głośności sygnału audio w odniesieniu do reprezentacji pełnej skali cyfrowej przetwornika.
Czyli dla 16. bitowego zakresu przetwarzania pełna skala przetwarzania wynosi 96[dB].
Przyjęło się, że w odniesieniu do sygnału audio pełną skalę reprezentuje poziom 0.0[dBFS] (ang. dB Full Scale), które to 0[dBFS] odpowiada maksymalnemu poziomowi, którego może sięgnąć szczyt przebiegu dźwięku. Wartości poniżej wyraża się w notacji ujemnej w stosunku do 0[dBFS]. Oznacza to, że wartość minimalna dla tak ustawionej skali wynosi -96[dB].

 

Dynamika dźwięku.

Jak wspomniałem wcześniej, dynamika jest różnicą pomiędzy najciszej a najgłośniej zarejestrowanym poziomem dźwięku w zadanym przedziale czasowym.

Im głośniej tym dynamiczniej?


Obiegowa opinia jest taka, że nagranie ma dużą dynamikę, gdy głośno gra. - najlepiej jeszcze jednostajnie. Jeżeli puścimy dwa nagrania po sobie i jedno będzie grało głośniej od drugiego to większość z Was odpowie, że to głośniejsze gra bardziej dynamicznie. Związane jest to z właściwościami ludzkiego słuchu i tym jak słuch reaguje na dochodzące do uszu ciśnienie akustyczne. Im jest głośniej tym łatwiej ucho asymiluje niskie i wysokie częstotliwości. Niestety nie ma to nic wspólnego ze wzrostem dynamiki.

dyn_749

Zasadniczo zależność pomiędzy głośnością nagrania a dynamiką jest odwrotnie proporcjonalna.

Mianowicie: im w naszym odczuciu nagranie jest głośniejsze, tym ma mniejszą dynamikę. Zmniejsza się bowiem zakres pomiędzy poziomami najcichszym a najgłośniejszym w zarejestrowanym sygnale.

Pojęcie „średniej” dynamiki.

Wiele osób w dyskusjach często używa stwierdzenia „średnia" dynamika.

"Średnia" dynamika jednego nagrania jest większa od „średniej" dynamiki drugiego nagrania, lub ogólnie pada stwierdzenie, że jakieś nagranie ma słabą lub dobrą dynamikę. Cóż to znaczy?

Główny kłopot polega na tym, że pojęcie „średniej” dynamiki w zasadzie nie istnieje w świecie cyfrowym. Oczywiście można spróbować aproksymować pewne wartości i mając pełną ich świadomość, próbować jakoś je zwymiarować, ale jest to bardzo trudne - szczególnie w aspekcie porównawczym.
Mierniki sprzętowe oraz softwareowe głośności (np. w postaci wtyczek VST) są miernikami mierzącymi wartości zmieniające się w zadanym przedziale czasowym (w tzw. czasie integracji pomiaru), różne – średnią, skuteczną, odczuwalnej głośności, itp. Dla porównywalności wyników wskazania metody pomiaru są znormalizowane. Choć nie zawsze zmierzone wartości przebiegu przekładają się na odczuwalna głośność o czym w dalszej części artykułu.
W Internecie można znaleźć wiele mierników "wartości średniej", np. takie co skanują plik wav i pokazują jakiś rezultat. Jakiś, gdyż trudno jest zinterpretować jaki. Jedno to interpretacja drugie to co się pod tym rezultatem naprawdę kryje
Zauważcie, że dynamikę mierzy się na zadanym przedziale czasowym. Czasem nawet kilka próbek w tą czy w tamtą stronę może dać inny odczyt.

Proszę zerknąć na rysunek poniżej.

dr_755

Do przeskanowania pliku użyłem programu TT Dynamic Range Meter, jeden z tych programów, który na grupach dyskusyjnych związanych z audio jest chętnie cytowany.
Szczególnie upodobały sobie ten wskaźnik osoby, które poczuwają się do posiadania ciut lepszego słuchu niż przeciętnie i na podstawie wyników pomiaru tegoż programu usiłują wywieść, że takie wydanie płyty jest lepsze od innego gdyż ma większą / mniejszą dynamikę. Jakby to miało być jedyne kryterium...
Program ten "mierzy" dynamikę (takie przynajmniej ma zadanie) i po przeskanowaniu całego pliku w trybie „off line”, wystawia jedną (sic!) wartość dynamiki nagrania. Tylko, co z tego tak naprawdę wynika?
Przeskanowanie nagrania w całości o przebiegu, jak na rysunku powyżej, powoduje uzyskanie wartości dynamiki równej 10. Jak przyjrzymy się nagraniu bliżej i pomierzymy jego fragmenty to okaże się, że w 70% nagrania ma dynamikę 15. To ile w końcu ma dynamiki? Mało tego,  mierząc inne fragmenty tego samego nagrania uzyskamy całkiem inne wyniki. Wydaje się być nonsensem podawanie wyniku dynamiki nagrania na podstawie jej minimalnej wartości zmierzonej na przestrzeni kilku mili sekund nagrania, które trwa kilka minut (czyli kilka tysięcy milisekund!).
Lepszym rozwiązaniem wykorzystania tego miernika jest jego użycie w trybie „on line”, gdzie na bieżąco widać zmiany dynamiki sygnału w funkcji czasu.
Zupełnym nonsensem jest podawanie dynamiki nagrania mierzonej średnio w oparciu o całą długość nagrania. Jeżeli ktoś zapyta, dlaczego, to proponuję zmierzyć taką właśnie wartość uśrednioną a potem do nagrania dokleić na końcu 30s ciszy i ponownie wyświetlić te same statystyki. Założę się, że tym sposobem spowodowalibyśmy drastyczny wzrost dynamiki.

Jedno to pomiar i jego metoda, drugie to fakt, że czasem zwiększając dynamikę za wszelką cenę sami sobie możemy zrobić duży kłopot.


Wcale nie jest tak, że dynamikę w świecie cyfrowym można zwiększać w nieskończoność. Dlaczego?

sin_755
Rysunek przedstawia przebieg sinusoidalny w skali bezwzględnej (lewa strona) i logarytmicznej (prawa strona).
Z rozważań wstępnych pamiętamy, że na jeden bit próbki cyfrowej przypada w przybliżeniu 6[dB] sygnału. Z drugiej strony pełnej skali sygnału można przyporządkować 2^16 (dwa do potęgi szesnastej) poziomów kwantowania, czyli 65536 poziomów w ujęciu dziesiętnym.

Zapewne niewielu z Was zdaje sobie również sprawę, że w pliku wav l-pcm próbki są zapisywane jako 15bit + 1bit na znak = 16bit.
Wynika z tego, że przebieg jest kwantowany dla wartości „+” (górne połówki sygnału nad osią czasu) oraz „-„ (dolne połówki sygnału pod osią czasu). O tym czy próbka jest dodatnia czy ujemna decyduje bit znaku wpisany w każdą próbkę. Na taj podstawie można odtworzyć pełen przebieg sygnału.

Zauważmy również, że 6[dB] głośności w skali decybelowej i ujęciu napięciowej reprezentacji sygnału = 2 razy głośniej w skali bezwzględnej.

W niektórych kręgach przyjęło się twierdzić, że jeżeli jakieś wydanie płyty CD gra cicho a inne wydanie tej samej płyty (na przykład wznowienie lub wydanie licencyjne) gra głośniej to oczywistym jest, że ta ciszej wydana płyta gra lepiej... Czy aby na pewno?

Co się dzieje jeżeli płyta CD gra (nienaturalnie) cicho?

Jeżeli piki sygnału kończyć się będą na -6, -3[dB] należy przyjąć, że zarejestrowany dźwięk jest piętnasto bitowy a jego reprezentacja kończy się na 32768 poziomów kwantowania. Zauważmy, że to TYLKO JEDEN BIT ale tracimy na mim drugie 32768 poziomów reprezentacji sygnału!!! Nie ma więc sensu wydawania płyt CD, które grają cicho...

vol_755

Oczywiście nie sposób w tym miejscu pochylić sie nad zagadnieniem odwrotnym, czyli co się dzieje, gdy płyta CD gra nienaturalnie głośno. Podobny obrazek jak powyżej jest  równiez używany do zobrazowania podstawowego aspektu tzw. „Loudness War” (z ang. wojna na głośność).
W Internecie wiele jest opracowań odnośnie wzrostu głośności dźwięku na płytach CD, na przestrzeni ostatnich lat. Artykuły takie dostępne są na stronach Wikipedii w języku polskim lub w języku angielskim, w nieco bardziej rozbudowanej formie. Również sporą popularność w pewnych kręgach zyskał artykuł  pt. Śmierć dynamiki. Wiele informacji na ten temat znajdziemy również tutaj.

Analizując zamieszczane tam rysunki, można wyrobić sobie mylne przekonanie, że cicho nagrane płyty CD są wspaniałe a zapis sygnału im głośniejszy tym gorszy. Ta prosta zasada niestety w tym przypadku nie działa wprost.

NIE ZAWSZE prawidłowa jest zależność: głośniej = gorzej!

Płyta CD powinna, a nawet musi być nagrana ODPOWIEDNIO głośno.


Na rysunku powyżej, przebieg z lewej strony nagrany został do maksymalnej wartości -6[dB], natomiast z prawej do wartości pełnej skali cyfrowej. Źródłem sygnału w obu przypadkach było to samo źródło analogowe.

Cicho nagrane płyty są nagrane z mniejszą rozdzielczością bitową, co w ujęciu arytmetyki binarnej przekłada się na ogromny spadek ilości poziomów kwantowania. Poziomy te są bezpośrednio odpowiedzialne za wierność odwzorowania sygnału analogowego. Rozsądnym wydaje się odwzorowywać te poziomy z maksymalnie dużą ich ilością a nie przeznaczać je na, tzw. „powietrze nad próbkami”.

Pochylmy się jeszcze nad reprezentacją bitową…

16bit = 65536 poziomów
15bit = 32768 poziomów
14bit = 16384 poziomy
13bit =   8192 poziomy
12bit =   4096 poziomów

itd.

Proszę zobaczyć, że reprezentacja bitowa na poziomie 12 bit jest już nie do przyjęcia z uwagi na bardzo słabą wierność odwzorowania sygnału.

Oznacza to, że 16bit – 12bit = 4bit, co przekłada się na 6*4bit czyli na 24[dB] zakresu dynamiki!

Można śmiało postawić tezę, że 24[dB] jest w zasadzie maksymalną dopuszczalną dynamiką sygnału zapisanego na nośniku CD-Audio niepowodującą jego degradacji w funkcji reprezentacji bitowej!

Gdyby ktoś z czytających chciał sprawdzić jak to działa w praktyce to proponuję wykonać następujący test:
Bierzemy dowolne nagranie CD-Audio i w dowolnym edytorze wav ściszamy je o 48[dB], czyli de facto doprowadzamy je do postaci 8 bitowej. Zapisujemy je i zamykamy plik, po czym wczytujemy je ponownie do edytora i tym razem zwiększamy jego głośność o 48[dB]. Tą metodą przywracamy nagraniu amplitudę, jaką miało przed ściszeniem. Następnie porównajmy odsłuchując przebiegi wersji oryginalnej z wersją zmienioną naszymi manipulacjami. Ciekawy eksperyment, prawda?

Wróćmy na chwilę do wzmiankowanej wcześniej, tzw. „Loudness War”.

Oczywistym jest też fakt, że nie może być też tak, aby fala dźwiękowa była prostokątna z dynamiką dążącą do zera. To powoduje potworne zniekształcenia w dźwięku, uczucie jego natarczywości, zmęczenie organu słuchu, itd. Wszystkie instrumenty nie powinny grać tak samo głośno, bo wówczas przestaje to być muzyką.

Nienaturalne zwiększanie głośności zapoczątkowała era wszelkiego rodzaju odtwarzaczy plików mp3, iPod-ów, itp urządzeń przeznaczonych do słuchania muzyki w miejscach o dużym natężeniu hałasu (szkoły, środki komunikacji publicznej, sklepy, przystanki, ulice, itp.) Aby słuchacz zakuty w douszne słuchawki mógł usłyszeń co do niego krzyczy jakiś powiedzmy raper, musiał ten raper zacząć krzyczeć bardzo głośno - wręcz nienaturalnie głośno. Niestety taka "estetyka" realizacji dźwięku przeniosła się na cały obecny przemysł rozrywkowy i wszelkie rodzaje muzyki... Stała się prostą odpowiedzią na zapotrzebowanie społeczne... Dzisiaj już nikt nie potrzebuje nagran grających naturalnie głośno.

Zasadniczo w wojnie na głośność główną rolę odgrywają dwa urządzenia: kompresor i limiter sygnału. Niefortunnie przez wiele osób funkcje tych urządzeń są wymieniane bez zastanowienia zamiennie choć to dwa zupełnie inne urządzenia:-)

Jak to działa?
Z rozważań wstępnych wiemy, że w świecie cyfrowym absolutnym maksimum wartości sygnału jest poziom 0[dBFS]. Aby zwiększyć głośność należy zmniejszyć dynamikę.

war_755
Zadaniem kompresora jest kompresja dynamiki czyli zmniejszenie różnicy między najgłośniejszymi a najcichszymi fragmentami sygnału. Limiter podnosi głośność do zadanego poziomu zapobiegając  jednocześnie przekroczeniu wartości 0[dBFS]. Na rysunku powyżej widać, że dopuszczalna wartość maksymalna sygnału 0[dBFS] jest zachowana w obu przypadkach, natomiast wartości minimalne w sygnale z prawej strony drastycznie wzrosły. Sygnał z prawej strony jest sygnałem ze strony lewej poddanym procesowi nienaturalnego zwiększenia głośności i obniżenia dynamiki.

Oznacza to, że odpowiednia dynamika musi być zachowana i nie można jej prasować w nieskończoność.
Najgłośniejsze realizacje płyt CD mają dynamikę sięgającą tylko 3dB! Wydaje się jednak, że dla całkowicie poprawnego odwzorowania nagrania muzycznego dynamika nie powinna być mniejsza niż 12[dB]. Na ten aspekt zwracają uwagę autorzy analiz „Loudnes war”, nie wiedzieć dlaczego, przemilczając aspekt dolnego limitu dynamiki/głośności płyt CD.

Reasumując.
Przekładająca się na głośność muzyki dynamika dźwięku na płycie CD, powinna zawierać się pomiędzy 24[dB] a 12[dB]. Płyta powinna być zmasterowana do głośności odpowiadającej pełnej skali bitowej 0[dBFS]. Limitem książkowym, stosowanym w praktyce, jest wartość -0.3[dBFS] - wartość ta nie będzie tutaj dalej dyskutowana.
Zmiany głośności tudzież dynamikę można próbować mierzyć czy przybliżać na wiele sposobów. Do dyspozycji jest szereg mierników wartości, średniej, skutecznej, odczuwalnej głośności, itp. Jednym z systemów, który wyrósł na ogromnym doświadczeniu w CD-masteringu jest zbiór metryk, zaproponowany przez Pana Boba Katz’a. Metryki te można uznać za standardy w CD-masteringu.

Postulują one następujące wartości:
K=21 (sugerowana dla muzyki poważnej, jazzowej),
K=14 (dla rocka, popu, itp.)
K=12, tzw. radiowa.

Wartości K są w gruncie rzeczy wartościami „średniej” (choć to nieszczęśliwe słowo) głośności dźwięku CD.
Do tych metryk skonstruowane są specjalne mierniki, które ułatwiają wykonanie CD-masteringu z zachowaniem wymagań danej metryki. Opis jak to działa znajdziecie w książce „Mastering Audio -  the art and the scence” autorstwa Boba Katz’a.

W tym miejscu dotknęliśmy jeszcze jednego ważnego aspektu dynamiki. Dynamika powinna być tak dobrana, żeby odzwierciedlała typ muzyki, jaka nagrana jest na płycie CD. Trudno sobie wyobrazić nagranie opery z dynamiką 12[dB]. Podobnie trudno wyobrazić sobie muzykę dyskotekową z dynamiką na poziomie 24[dB] - nie jest ona potrzebna.
Każdy z rodzajów muzyki powinien zachowywać taki zakres dynamiki, który pasuje do przeznaczenia danej muzyki. Jasnym jest, że muzyka przeznaczona do tego, żeby ludzie skakali przy jej jednostajnym rytmie, zazwyczaj w miejscach o dużym natężeniu hałasu zewnętrznego, grała tak samo dynamicznie jak muzyka, która wywołuje w oczach słuchacza łzy wzruszenia. Wszystko musi mieć swój cel i przeznaczenie.

Jeszcze ciekawszym zagadnieniem wydaje się fakt, że bardzo często, dwa różne nagrania o tej samej dynamice, tudzież mierzalnej głośności w odczuciu naszego słuchu grają z różną głośnością! Zależy to od brzmienia, zakresu częstotliwości reprodukowanych prze nagrywane instrumenty, tego jak nagranie zostało zmiksowane jako całość, jaka jest proporcja pomiędzy danymi instrumentami w finalnym miksie, itp.


Prawda jest okrutna: dobry mastering płyty CD - jako całości grającej na podobnym poziomie głośności - robi się "na ucho". Wskaźniki są tylko użytecznymi urządzeniami pomocniczymi. Cóż z tego, gdy na miernikach wszystko wygląda zadowalająco a słuchanie danego materiału męczy i wręcz zniechęca? Okazuje się, że nie wszyscy są tego samego zdania, dlatego większość płyt oferowanych obecnie nie rynku gra tak, jak gra...
Ktoś kto "nie czuje" muzyki, nie "słyszy" dźwięku nie ma wyrobionej wewnętrznej estetyki brzmienia nigdy dobrze grającej plyty CD nie zrobi.

Matematyka i technika to fajna rzecz ale tylko kiedy jest odpowiednio zrozumiana i  połączona z wrażliwością słuchu ludzkiego. W końcu to nasz indywidualny słuch decyduje o tym co nam się podoba a co nie...

Damian Lipiński

Cytowanie całości lub w części niniejszego opracowania jest dozwolone po uprzedniej zgodzie autora z zachowaniem informacji o autorze oraz adresu źródła pochodzenia tekstu. Więcej informacji.

W niniejszym opracowaniu chciałbym zwrócić uwagę na dwa fundamentalne zagadnienia:
1) dynamika dźwięku zapisywanego na płytach CD;
2) poziom głośności.
Pojecie dynamiki jest często nieprecyzyjnie rozumiane, co prowadzi do wielu nadużyć interpretacyjnych. Utarło się także, że płyty, które grają ciszej są lepsze, bardziej „audiofilskie” od tych, które zawierają tę samą muzykę ale grającą głośniej. W związku z tym warto pewne zagadnienia usystematyzować.
 
Ponieważ chciałbym, aby opisywane tutaj zagadnienia dotarły do możliwie szerokiej grupy osób, postaram się opisać je, ograniczając do minimum sprawy natury matematycznej. Pozwolę sobie również na pewne uproszczenia, nie zmieniające jednak w żadnym stopniu istoty poruszanego tematu.