воскресенье, 3 июля 2016 г.

Война за громкость [основная статья]

Эммануэль Дерюти
журнал "Sound on Sound" / сентябрь 2011 г.
  

Почему музыка стала звучать хуже?

«Поклонники жалуются, что Death Magnetic в Guitar Hero звучит лучше, чем на CD». «Даже фанаты хеви-метала считают, что сегодняшняя музыка слишком громкая!» «Dynamic Range Day объявляет новое движение против громкости». «Смерть Hi-Fi»… В прессе и сети растёт движение против «войны за громкость», практики, когда люди пытаются получить максимально возможную громкость в своих треках, чтобы заставить слушателей ощущать их более «горячими» по сравнению с конкурирующими релизами. Согласно этим статьям, неблагоразумные методы мастеринга и, более конкретно, злоупотребление brickwall-ограничителями, ставят музыку под угрозу. В современном производстве не хватает детальности, и оно жертвует качеством ради уровня. Боб Дилан в 2006 году в своём интервью заявил, что «Вы слушаете эти современные альбомы, и они звучат просто по-зверски. У них один звук везде. Нет никакой чёткости и детальности, ни в вокале, ни в чём-то другом. Всё статично».
Но не является ли замечание Дилана отражением извечного конфликта между отцами и детьми? Это был бы не первый случай, когда старая гвардия презирает то, что делает новое поколение. Хотя, верно и то, что многие звукоинженеры присоединяются к обществу, предпочитающему «более динамичную» музыку. Но объективно ли они говорят о том, что такая музыка лучше, или они просто предпочитают какой-то определённый тип звучания? Моё исследование постарается дать ответы на эти вопросы. Мы узнаем, действительно ли стала громче современная музыка, и стало ли в ней меньше динамики. Мы также рассмотрим гипотезу, что громкость может быть стилистическим признаком специфических музыкальных жанров, а не «дурной манерой», мотивированной презренными коммерческими интересами. И, наконец, мы пристально поглядим на печально известный альбом Death Magnetic группы Metallica и выясним, почему многим людям кажется, что он звучит плохо.

Действительно ли теперь музыка стала громче?

Да, это так, и здесь нет никаких сомнений. Давайте возьмём большое количество известных поп-песен, записанных в промежутке между 1969 и 2010 годами, нормализуем их так, чтобы пики стали под 0 dBFS, и измерим значение RMS. Теперь давайте рассортируем все значения согласно году релиза каждой песни. Первая диаграмма (вверху) показывает результаты эксперимента, и они реально возбуждают! Красная линия показывает усреднённые значения RMS для каждого года, а прямоугольники показывают распределение: чем темнее, тем больше песен имеет такой же уровень. Здесь, несомненно, наблюдается постоянный рост среднего уровня между 1982 и 2005 годами, и сегодняшние записи примерно на 5 dB громче, чем было в 70-х.
По общему признанию, RMS даёт только информацию об «электрическом» или «физическом» уровне аудиофайла, но никак не говорит о той громкости, что мы реально воспринимаем. Для этого, согласно нормативным рекомендациям EBU 3341, мы оцениваем «интегрированную громкость». Как видно на второй диаграмме, это значение весьма сильно коррелируется с RMS, и два графика очень похожи друг на друга. Таким образом, второй набор результатов подтверждает первый.
Давайте воспользуемся другими критериями и повторим эксперимент. К примеру, для описания динамического поведения музыки часто используется такой критерий, как крест-фактор. Говоря простыми словами, он показывает разницу между пиковым и RMS-уровнями на протяжении песни. Он является хорошим маркером, позволяющим оценить количество компрессии, применённой к музыке: обычно, чем больше компрессии, тем ниже крест-фактор. Некоторые профессионалы считают аккуратное обращение с крест-фактором залогом успешного мастеринга. В общих словах, опять же, чем ниже крест-фактор, тем громче музыка.
Третья диаграмма показывает эволюцию крест-фактора. Основываясь на тех же самых 4500 песен, этот усреднённый график, начиная с 80-х годов, показывает падение на 3 dB. Это укрепляет нас во мнении, что увеличение громкости, явно начавшееся с 90-х, было порождено компрессией. Нетрудно заметить, что эволюцию крест-фактора можно разделить на три этапа. Первый, с 1969 по 1980-й, показывает увеличение крест-фактора, обусловленное, вероятно, совершенствованием студийного оборудования, улучшением отношения сигнал/шум и, как следствие, расширением его динамического диапазона. С 1980 по 1990-й крест-фактор остаётся довольно устойчивым. Затем, с 1990 по 2010-й – в эпоху войны за громкость – крест-фактор драматически уменьшается.
Наконец, ещё один полезный и информативный критерий – это пропорция сэмплов, после нормализации близко подобравшихся к потолку 0 dBFS. Большая плотность очень громких сэмплов предполагает, что в мастер-копии был клиппинг или использовался цифровой brickwall-ограничитель. Четвёртая диаграмма отслеживает плотность пиковых сэмплов в той же самой коллекции из 4500 треков. Первые две диаграммы показывают, что музыка становится громче; третья указывает, что это происходит, вероятно, в результате компрессии динамического диапазона; а эта иллюстрирует, что компрессия, скорее всего, сопровождалась цифровым brickwall-ограничением.

Что такое динамический диапазон музыки?

Вы удивитесь, но на этот вопрос довольно трудно ответить. Интуитивно, мы чувствуем, что динамический диапазон это некий критерий, показывающий, насколько варьируется уровень в музыкальной композиции. Давайте попробуем материализовать эти догадки. Первая диаграмма сравнивает значения RMS в двух песнях: «Fuk» от Plastikman и «Smells Like Teen Spirit» от Nirvana. Очевидно, что уровень в Smells Like Teen Spirit более подвижен, чем в Fuk. И это не удивляет, поскольку Plastikman приверженец минимал-техно, тогда как для Nirvana характерны мягкие куплеты и громкие припевы.
Однако, результат меняется просто радикально, если для анализа использовать окно не 2 секунды, а 100 миллисекунд. При большем окне музыка Plastikman демонстрирует более стабильный RMS-уровень, но, как Вы видите на второй диаграмме, при меньшем времени интеграции в ней появляются более интенсивные вариации. Это обусловлено громкими и сухими барабанами. Поэтому, если мы хотим объективно измерить «подвижность уровня», то должны тщательно подумать над тем, какой масштаб использовать.
Также есть вопрос по поводу того, как фактически вычислить эту подвижность уровня. Иными словами, как получить цифровое значение, которое было бы мерой «динамического диапазона». Очевидно, мы могли бы измерить полную вертикальную амплитуду кривой RMS в заданном временном масштабе, суммируя амплитуду каждого вертикального движения. На первый взгляд, это даёт идеальную картину: снова посмотрите на первую диаграмму, на которой синяя кривая выглядит более подвижной, чем красная, и имеет большую общую вертикальную амплитуду.
Однако, на практике, этот метод ненадёжен. К примеру, изолированный пик посреди плоской RMS-кривой исказит измерение, давая ложное представление подвижности уровня. Существует более надёжный метод, используемый EBU для оценки диапазона громкости. Он заключается в вычислении распределения значений RMS. Такое распределение показано в третьей диаграмме. Затем мы измерили «разброс» распределения, используя трюк, подобный методу вероятностной выборки из арсенала описательной статистики, оставив только 5% высших значений и 10% низших. Результаты анализа в двухсекундном окне показывают более широкий разброс RMS у Smells Like Teen Spirit.
Давайте теперь изменим масштаб и измерим разброс RMS в окне 0,1 секунды. Итоги эксперимента показаны в четвёртой диаграмме и снова результаты прямо противоположны: разброс в Fuk намного больше, чем в Smells Like Teen Spirit. Теперь, проведём этот же эксперимент с другими размерами окна. Результаты представлены в последней диаграмме. Интересно, что вариации уровня в Smells Like Teen Spirit всегда больше, за исключением окон менее 0,18 секунды. Это как раз тот временной промежуток, где барабаны Fuk оказывают решающее влияние.
То, что изображено на пятой диаграмме, является хорошей кандидатурой на роль измерителя «динамического диапазона» музыки. Теперь предположим, что вместо того, чтобы пользоваться значениями RMS, мы будем иметь дело с некой единицей измерения воспринимаемой громкости, типа той, что упомянута в рекомендации ITU BS 1770. Это и есть тот самый «диапазон громкости». Основы того, как EBU определяет «диапазон громкости» находятся в документе EBU Tech 3342 и объясняются нами в главе «Измерение диапазона громкости по методике EBU».
Теперь остаётся только вопрос, нужно ли вообще использовать такой термин, как «динамический диапазон». Нет никакого официального определения для него, и это понятие можно спутать с динамическим диапазоном носителя записи, который показывает разницу между самым маленьким и самым большим уровнями, с которыми он может работать. Поэтому, в этой статье я не буду говорить о «динамическом диапазоне» музыки. Вместо этого, я буду использовать такие термины, как «RMS-вариабельность» или, в более широком смысле, «динамическая вариабельность». А термин «динамический диапазон» мы оставим для определения отношения сигнал/шум носителя записи. Я буду использовать термин «диапазон громкости» в строгом соответствии с документом EBU 3342 и термин «вариабельность громкости» во всех других случаях, вовлекающих понятие громкости вместо RMS.

Так уменьшился ли диапазон громкости?

А вот здесь нас уже ждут сюрпризы. Мы можем без всяких сомнений доказать, что «война за громкость» никак не уменьшила диапазон громкости, описанный в EBU 3342! И при этом никак не уменьшилась вариабельность уровня или громкости. Кажется, что музыка последнего десятилетия имеет такую же динамическую вариабельность, как и музыка из 70-х или 80-х. Давайте докажем это утверждение.
Как мы уже говорили, такие параметры, как RMS-уровень, интегрированная громкость, крест-фактор и пропорция сэмплов выше -1dBFS, демонстрируют нам захватывающую эволюцию - начиная с 90-х и где-то до 2005 года. Это эффект войны за громкость. И, вроде бы, результаты измерений диапазона громкости по методике EBU тоже должны следовать за этой тенденцией? Но, как мы видим на первой диаграмме, это не так. Мы видим, что диапазон громкости уменьшается с 1969 по 1980-й годы, и затем стабилизируется до 1991-го. После 1991-го он неожиданно возрастает и в последующие годы совершенно не демонстрирует никакой предсказуемой тенденции к уменьшению.
Как мы уже говорили, плотность высокоуровневых сэмплов резко возросла с начала 90-х. Это показывает, что стало использоваться больше компрессии и цифрового ограничения, в результате чего увеличился общий уровень той музыкальной коллекции, которую мы тут анализируем. Но связано ли использование цифровых ограничителей с уменьшением диапазона громкости? Давайте ответим на этот вопрос, сравнив значения, измеренные по методике EBU 3342, с плотностью высокоуровневых сэмплов. Графики представлены на второй диаграмме, и они нам очень ясно показывают, что ответ – нет. Увеличение «тяжести» ограничения, происходившее в процессе наращивания войны за громкость, в общем, никаким образом не уменьшало наблюдаемый диапазон громкости.
Нельзя сказать, что brickwall-ограничители не уменьшают диапазон громкости. Как мы увидим позже, они это успешно делают. Наблюдение заключается в том, что при анализе этих треков мы приходим к выводу, что война за громкость не привела к любому заметному сокращению диапазона громкости.
Однако, «диапазон громкости» по методике EBU 3342 измеряется с размером окна около 3 секунд. Давайте посмотрим, что произойдёт, если для анализа выбрать другой размер окна (блока). Для этого оценим стробированную RMS-вариабельность, основанную на размерах окна от 0,05 до 12,8 секунд. И, чтобы ещё больше конкретизировать результаты, модифицируем эту оценку так, чтобы она отражала влияние соответствующих временных окон. Этим путём мы сможем увидеть, уменьшала ли война за громкость вариабельность уровня при использовании любого окна измерения. Результаты экспериментов на третьей диаграмме. Мало того, что они подтверждают предыдущие исследования, но и идут немного далее, показывая, что война за громкость не имеет явно идентифицируемого влияния на вариабельность уровня. Это весьма решительное заключение: вопреки тому, что часто пишут в Интернете, война за громкость не вызвала никакого уменьшения вариабельности уровня. Современные песни такие же, как в 70-х или 80-х.
Чтобы подтвердить эти результаты, я попросила доктора Damien Tardieu (специалиста по обработке сигналов из института IRCAM) выполнить аналогичные исследования с абсолютно другим набором музыкальных композиций. Для этого, 20000 песен были случайно выбраны из каталога EMI. Правда, эти альбомы отбирались на основании даты копирайта, что несколько уменьшило надёжность этого анализа, поскольку старые треки могут иметь недавний копирайт или ремастерённые версии. Однако, нам нужна общая оценка этого глобального явления, поэтому можно позволить небольшую погрешность. Четвёртая и пятая диаграммы показывают эволюцию диапазона громкости, измеренного в соответствии с EBU 3342, и плотность высокоуровневых сэмплов. Мы видим, что диапазон громкости не уменьшился после 1990 года, причём, несмотря на то, что ограничение стало использоваться всё тяжелее и тяжелее. Нет никаких сомнений: из-за войны за громкость не возникло никакого явного уменьшения её диапазона, и brickwall-ограничители практически не повлияли на этот параметр.


Так в чём же противоречие?

Как мы уже говорили, количество компрессии/ограничения, используемого при мастеринге, резко выросло между 1990 и 2000 годами. Однако, хотя ограничение во многих случаях уменьшает диапазон громкости музыкальной композиции (глава «Диапазон громкости и ограничители»), мы не наблюдаем общее понижение этого параметра во всём музыкальном производстве. Так как же мы можем разрешить это очевидное противоречие?
Возможно, мастеринг-инженеры нашли разумные щадящие методики, применяя лишь столько ограничения, чтобы не привести к очевидной потере диапазона громкости. Как показано в главе «Диапазон громкости и ограничители», это теоретически возможно, поскольку RMS-вариабельность может иметь определённую «эластичность» по отношению к этой обработке. Но я не верю, что дело обстоит именно так. Существенное ограничение можно измерить или увидеть в характерных изменениях формы звуковой волны. Кроме того, его легко услышать: звуки приобретают специфическую атаку, становятся плотнее, жёстче и зачастую ярче. Прослушав очень большое количество треков из коллекции, использованной при написании этой статьи, вполне очевидно, что значительная часть недавних песен подверглась тяжёлой динамической обработке.
Остаётся только одно решение, о котором я могу думать: возможно, диапазон громкости музыки до мастеринга (или даже до микширования) также возрастал одновременно с тем, как возрастало количество компрессии и ограничения. Иными словами, исходный материал имел больше первичной вариабельности и больше эластичности к ограничению. Это подтверждается стилистическими изменениями, произошедшими в музыке во время войны за громкость. Начало 90-х (когда, в общем-то, и стартовала война за громкость), отмечено ростом популярности рэп-музыки и появлением большого количества исполнителей в этом жанре. Рэп типично имеет довольно разрежённую аранжировку с очень громкими большим и малым барабанами, которые значительно увеличивают вариабельность уровня в очень малых масштабах (0,1 секунды или около того). Примерно в то же самое время, родился такой стиль, как nu metal, объединивший в себе элементы фанка и рэпа. Также, во многих песнях изменился и подход к аранжировке, а именно, к переходам от одной секции к другой. Многие хиты 80-х использовали в качестве перехода достаточно гладкий брэк, сыгранный на том-томах, тогда как рэп-продюсеры 90-х предпочитали резкий «монтаж» звуков, увеличивающий вариабельность уровня в масштабах около 0,5 с.
Если воспользоваться большими масштабами, относящимися к структуре песен, можно выдвинуть идею, что современные треки используют контрасты уровня, чтобы очертить различные секции песни, тогда как старые композиции использовали для этого изменения тональности или гармонии. Сейчас часто можно услышать рэп или R&B, где куплеты настолько минималистичны, что там практически невозможно разобрать какие-то аккорды, но зато припевы похоронены под плотными вокальными гармониями и/или богатыми клавишными партиями, увеличивающими RMS-уровень. Хорошие примеры – «Lollipop» от Lil’Wayne и «Gangsta’s Paradise» от Coolio, или, до некоторой степени, «Single Ladies» от Beyonce. В таких композициях, вариации уровня используются для создания структуры песни.
Чтобы лучше иллюстрировать этот момент, давайте сравним две совершенно разные песни из разных эпох: Beatles «Come Together» (1969) и Lady Gaga «Telephone» (2010). На диаграмме показан анализ RMS для обеих песен. Белые линии отображают структурные границы песен, определяемые слухом. Более светлые квадраты указывают на части с отличающимся от других фрагментов уровнем, а более тёмные указывают на части с похожими уровнями. Это сравнение – показательный пример: в Telephone больше крупномасштабных изменений уровня и они сильно синхронизированы со структурой песни. Этот пример помогает объяснить идею, что в современной музыке первичная крупномасштабная RMS-вариабельность может иметь больший размах.


Может ли музыка, обработанная ограничителями, иметь музыкальную динамику?

Определённо. Но путь, которым выражается музыкальная динамика, может измениться. Представьте, что Вы слушаете музыку. И захотели сделать её громче. Вы просто вращаете регулятор уровня и поднимаете его значение. Заодно Вы увеличиваете RMS и пиковый уровень, но это никак не затрагивает крест-фактор. Назовём это термином «первая парадигма громкости». Теперь предположим, что есть регион в Pro Tools, пики которого достигают 0 dBFS. Вы не можете поднять уровень традиционным способом, поскольку в результате возникнут искажения. Но мы можем вставить туда ограничитель и понизить его порог. Благодаря этому, Вы сможете поднять RMS, но при этом пиковый уровень останется стабильным. А вот крест-фактор уже будет уменьшен. Назовём это «вторая парадигма громкости».
Когда Вагнер сочинял оркестровое крещендо, то использовал первую парадигму, добавляя больше инструментов. Но при помощи ограничителя можно сделать крещендо на основе второй парадигмы. Результаты обоих подходов показаны на иллюстрации. Mike Oldfield (слева) использовал первую парадигму в конце первой части Tubular Bells, а Trent Reznor (справа) использовал вторую в «Closer».
Чтобы получить более точное представление о различиях между парадигмами, давайте возьмём шесть крещендо из шести различных треков. Трое из них будут представлять первую парадигму и трое – вторую. Теперь проанализируем их RMS, пиковый уровень и крест-фактор. Результаты показаны на нижней иллюстрации. Левый график показывает все крещендо, основанные на увеличении RMS и пикового уровня. Средний график показывает крещендо на основе второй парадигмы, когда пиковый уровень остаётся неизменным. Правый график показывает систематическое уменьшение крест-фактора для второй тройки и демонстрирует, что в первой тройке нет никакой связи между ним и громкостью.
Можно сказать, что крещендо, использующие вторую парадигму, не являются «чисто» динамическими событиями: чем громче становится музыка, тем сильнее ограничитель влияет на сигнал и тем сильнее изменяется оригинальный тембр. Но разве не это же верно и для традиционного крещендо? Исполняя крещендо на одной скрипичной ноте, мы не только изменяем уровень, но и тембр. А многие оркестровые крещендо вводят дополнительные инструменты в процессе своего развития. В результате, комбинация этих двух факторов вызывает более глубокие изменения тембра, нежели любой brickwall-ограничитель.


Случай Death Magnetic

Не столь давний альбом группы Metallica стал очень сильным раздражителем для противников текущей моды в мастеринге. Насколько я могу сказать, основная проблема Death Magnetic – это конфликт между звучанием гитар и тем способом мастеринга, которым обрабатывался этот альбом. Очень агрессивный мастеринг просто не подходит к «производственному» стилю этой группы, более характерному для 80-х и опирающемуся на плотные искажённые гитары, заполняющие собой большую часть звукового пространства. Эта музыка и так имеет достаточно стабильный уровень, а в этом случае её крест-фактор был понижен до очень малых значений. В результате, её звучание воспринимается на слух как очень «компактное» и статичное на протяжении всего времени.
P.S. Под «компактностью» здесь подразумевается такое звучание, когда всё играет очень близко к слушателю, чуть ли не прямо ему в ухо. Подобный тип звука также называется in-your-face, и в контексте данной статьи рассматривается его крайне гипертрофированный вариант.
Первая диаграмма показывает распределение крест-фактора для 4500 песен и значения этого параметра для альбомов Master Of Puppets и Death Magnetic. Анализ других альбомов Metallica, таких, как ...And Justice For All или Black, показывает, что значения их крест-фактора примерно такие же, как и в Master Of Puppets. Мы видим, что крест-фактор Death Magnetic не только значительно ниже, чем у «нормальных» альбомов Metallica, но и чрезвычайно низок по сравнению с любой другой музыкой.
Такие значения крест-фактора сопоставимы с тем, что можно обнаружить в треках My Beautiful Dark Twisted Fantasy от Kanye West или Get Rich Or Die Tryin’ от 50 Cent. Эта стилистически громкая музыка базируется на сильных перкуссионных элементах, артикулирующих текст и лучше сочетающихся с низкими значениями крест-фактора, чем постоянно гудящие гитары Metallica. Они также сопоставимы с треками из Oracular Spectacular или Congratulations от MGMT. Эти два альбома имеют настолько специфическое звучание, что постоянное использование второй парадигмы громкости и наличие артефактов динамической компрессии для них не представляют совершенно никакой проблемы. Но «классический» звук Metallica просто не сочетается с такими методами обработки.
Вторая диаграмма показывает RMS-вариабельность Death Magnetic по сравнению с их же альбомом Master Of Puppets и двумя другими альбомами с низким крест-фактором: My Beautiful Dark Twisted Fantasy и Congratulations. И вот здесь начинаются реальные проблемы. Из-за низкого крест-фактора он звучит не только очень «компактно», но и очень статично (малая RMS-вариабельность). Третья диаграмма подводит итоги, показывая, насколько необычна эта комбинация низкого крест-фактора и уменьшенного диапазона громкости. Это можно сравнить, разве что, не более чем с тремя песнями MGMT. Даже невероятно компрессированный My Beautiful Dark Twisted Fantasy не может конкурировать с ним, сохраняя в себе больше контраста, чем Death Magnetic. И, хотя низкая вариабельность его RMS примерно сравнима с музыкой группы Dagoba (исполняет индастриал-метал и специализируется на эффектно громком, компактном и «жирном» звуке), Death Magnetic компрессирован ещё более свирепо. Но, по моему мнению, Вы вряд ли захотите, чтобы традиционный хеви-метал звучал более «компактно», чем преднамеренно экстремальный industrial/death metal. Хотя, если Вы стремитесь именно к этому, то должны сами изменить свою музыку, создав в ней больше контраста. Только так Вы сможете позволить себе такую сильную компрессию и даже получить от неё какие-то дополнительные выгоды.


Так представляет ли проблему война за громкость?

Не составит труда найти массу людей, публикаций в прессе и Интернете, единодушно обвиняющих войну за громкость в том, что она разрушает музыку. Многие связывают её с уменьшением «динамического диапазона», хотя никто обычно не объясняет, каким он должен быть. Однако, как мы узнали в этой статье, война за громкость фактически не привела к уменьшению такого параметра, как диапазон громкости, определённый по методике EBU 3342 (по сути дела, это довольно близко к тому, что люди как раз и подразумевают под словами «динамический диапазон»). При этом, невозможно установить никакого уменьшения динамической вариабельности ни в каком масштабе.
Так что ж за проблема с войной за громкость? Очевидно, ограничение делает что-то «неправильное» с сигналом, иначе б люди не жаловались – даже при том, что они указывают на не совсем корректный критерий, описывающий его параметры.
Чтобы правильно ответить на этот вопрос, попробуем представить, что звук – это фотография, и сделаем анализ этого «фото» по такому параметру, как распределение яркостей. У Фотошопа это можно найти в диалоговом окне Levels. Чтобы сделать оценку, алгоритм проверяет все пиксели в картинке и затем сортирует в зависимости от яркости. В результате, получается график распределения, показывающий, включает ли изображение преимущественно светлые, средние и тёмные области, и их относительные пропорции. Тот же самый процесс можно провернуть и со звуковыми файлами: мы проверяем все сэмплы в песне и сортируем их по абсолютному уровню. Как показано на иллюстрации, кривая распределения может рассказать много интересного.
Посмотрим на кривую распределения для песен, выпущенных в 2007 году (красная кривая). Их пики имеют более высокий уровень, чем в песнях 1967 года (синяя кривая). Очевидно, что более новые песни в среднем намного громче. Следующим делом, посмотрим на ширину обеих кривых: они сравнимы, и это означает, что кое-какие вещи, близкие к динамической вариабельности, остались неизменными между 1967 и 2007 годами. Теперь посмотрим на всплеск в правой стороне красной кривой. Он показывает, что песни этого года имеют ненормально высокую плотность высокоуровневых сэмплов: кривая перестаёт следовать за «нормальным» распределением Гаусса в зоне высоких уровней. Это результат воздействия brickwall-ограничителей.
Продолжим сравнивать звук и изображение. Представим, будто последние 20 лет все картинки в журналах и книгах становились всё ярче и ярче. В них всё ещё есть глубокий чёрный цвет, контраст не повреждён, но при этом все картинки выглядят очень яркими. Подобные вещи иллюстрируют нам две фотографии Тауэра. Можно подумать, будто всё в наши дни прямо таки «сияет», хотя здравый смысл предполагает, что есть какие-то вещи, которые не могут быть настолько сияющими ни при каких условиях. Это тем более верно в случае со звуком, для которого «яркость» означает не только высокую плотность засвеченных пикселей. Это также означает уменьшенный крест-фактор, изменённую огибающую, использование второй парадигмы громкости и, в особо тяжёлых случаях, искажение. Хотя, в общем-то, эти характеристики не обязательно означают что-то плохое, но всё-таки здравый смысл нам подсказывает, что такого не должно быть буквально в каждой записи.



В конце концов, это всё – вопрос стиля. Уменьшенный крест-фактор создаёт «компактность» в звучании; и на странице MaxxBCL компания Waves описывает это как «тяжёлый in-your-face сигнал, что сотрясает дом». Подобные вещи могут подойти к Вашим песням, а может и нет. Или, может быть, Вы нарочно захотите оставить «мягкость» в своих треках. Хотя, если Вы делаете тяжёлую техно-музыку, стремление к «компактности» может быть хорошей идеей. Также, описанные ранее две парадигмы громкости обладают весьма отличающимися «ароматами», и, в зависимости от материала и художественных целей, можно предпочесть тот или иной вариант. Хотите, чтобы каждая громкая атака изменялась компрессором/ограничителем? В одних случаях это пойдёт на пользу, в других – во вред. Или, может Вы хотите просто уменьшить динамический диапазон музыки и не затронуть более ничего? В таком случае, лучше активнее пользоваться автоматизацией уровня, нежели ограничением, поскольку, как мы уже говорили ранее, диапазон громкости имеет определённую сопротивляемость к процессу ограничения.
Важно понимать, что делаете, и как это соотносится с тем звуком, к которому Вы стремитесь. И если Вам нравится компрессия, но Вы боитесь, что Боб Дилан не одобрит Ваш звук, потому что он «слишком современный» и «слишком статичный», то не волнуйтесь. Скорее всего, он просто не слушает такую музыку.

Измерение диапазона громкости по методике EBU
В декабре 2010 года EBU выпустила документ Tech 3342, являющийся частью технической рекомендации EBU R128. Он даёт практическое руководство по поводу измерения «диапазона громкости», параметра, у которого есть хорошие шансы стать [а может уже и стал] стандартом для измерения динамической вариабельности аудио. Поэтому, будет нелишним потратить несколько минут, чтобы в деталях выяснить, что же скрывается под словами «K-взвешенная RMS-вариабельность со стробированием и временным окном 3 секунды».
Итак, во временном окне продолжительностью три секунды выборка осуществляется каждую секунду. Это означает, что измерение относится к динамическим событиям продолжительностью более трёх секунд. [Здесь не совсем понятно: скорее всего, подразумевается интегрированное значение всех замеров в данном окне]. С одной стороны, такое измерение не будет учитывать ударные звуки. С другой стороны, вариации громкости, связанные со структурными изменениями, тоже не всегда будут чётко видны, поскольку их могут замаскировать вариации, происходящие в более мелких масштабах. Впрочем, именно такой компромисс был выбран EBU.
Вместо того, чтобы наблюдать за значениями RMS, мы измеряем значения громкости по методике, описанной в ITU-R BS 1770. Процесс измерения не очень сложен: берём оригинальный файл, эквализуем его и затем измеряем RMS. Как Вы видите на рисунке, фильтр довольно прост. Может стать неожиданностью, что ITU пользуется столь простым инструментом, чтобы вычислить различие между RMS и громкостью, но, как они заявляют, «для типичного монофонического вещательного материала, основанное на энергии простое измерение громкости сравнимо с более сложными методиками измерения, включающими детальные перцепционные модели». ITU называет это «К-взвешивание» и даёт «LKFS» в качестве единицы громкости [громкость, К-взвешенная, относительно полной цифровой шкалы]. Таким образом, мы имеем последовательность измеренных значений, соответствующих «кратковременной громкости», описанной в EBU 3341. Впрочем, EBU вместо LKFS рекомендует использовать термин LUFS [единицы громкости, относительно полной цифровой шкалы].



Теперь, последовательность измеренных значений подвергается такому процессу, как стробирование. Используется два последовательных процесса. Первый называется «абсолютным стробированием», который исключает из результатов измерения все значения ниже -70LKFS. Сюда попадают паузы, фоновый шум и прочие очень тихие звуки, могущие исказить результаты и негативно повлиять на дальнейшую обработку. Второй процесс называется «относительным стробированием». После того, как очень тихие части сигнала были убраны, измеряется средняя громкость. Теперь исключаются все значения, которые ниже средней громкости на 20dB. К примеру, если после абсолютного стробирования средняя громкость получилась -15LKFS, то все значения ниже -35LKFS будут исключены из результатов измерения. Относительное стробирование нужно для того, чтобы устранить «нетипичные» части сигнала. И вот теперь, после всех этих манипуляций, мы и получаем «K-взвешенную RMS-вариабельность со стробированием и временным окном 3 секунды».
И вот теперь мы подходим к ключевому моменту, и именно – измерению диапазона громкости звуковой программы. Это долговременная интегрированная громкость за весь хронометраж, вычисленная статистическими методами на основании вышеописанных измерений. Этот параметр состоит из одного числа (в LUFS), который показывает, насколько громка программа в среднем. Для относительных измерений используются единицы громкости (LU), где 1 LU эквивалентно 1 dB.

Диапазон громкости и ограничение
Так уменьшают ли ограничители диапазон громкости или нет? И да, и нет. Фактически, эта проблема намного сложнее, чем выглядит на первый взгляд. Представьте, что у Вас есть нормализованный аудиофайл и Вы не можете уже увеличить его уровень, не вызвав искажений. Но используя на таком материале компрессор или ограничитель, Вы можете поднять уровень, одновременно увеличив значение RMS. Это также расширяет динамический диапазон носителя: к примеру, в 16-битном файле это 96 dB, но Вы можете его как бы растянуть до 100 или 105 dB. На верхней диаграмме этот дополнительно доступный динамический диапазон отмечен серым прямоугольником. С этой точки зрения, лимитер не только не уменьшает диапазон громкости, но и даже увеличивает его.
Идея относительно того, что компрессор или ограничитель могут расширить доступный динамический диапазон, конечно интересна, но уже далеко не нова. Много десятилетий назад, звукоинженеры вставляли компрессор между микрофоном и рекордером с целью увеличить динамический диапазон носителя записи и уменьшить проблемы с низким отношением сигнал/шум.
Диаграмма показывает анализ RMS трёх файлов: оригинальный нормализованный, ограниченный с порогом -6 dB и с порогом -12 dB. Для начала, давайте сфокусируемся на различии между оригиналом и вторым файлом (-6 dB). Если смотреть со стороны низких уровней, то второй файл даёт 6 dB прироста RMS. Но, поскольку высокоуровневые события были ограничены, то прирост RMS для них только 5 dB. Таким образом, уменьшение RMS-вариабельности составляет всего 1 dB. Теперь давайте установим порог на -12 dB: низкие уровни поднимутся ещё на 6 dB, но высокие – только на 3 dB. RMS-вариабельность уменьшится ещё на 3 dB, составив в общем 4 dB. С этой точки зрения, лимитер конечно же уменьшает диапазон громкости – в этом случае, величина уменьшения составляет примерно 4 LU.
Однако, 1 dB потери RMS-вариабельности – это очень маленькая величина. Порог, ниже которого лимитер начнёт реально вмешиваться в сигнал, зависит от типа музыки. Вторая диаграмма показывает RMS-вариабельность в различных масштабах для трёх музыкальных композиций. Обратите внимание, что поп/рок музыка имеет RMS-вариабельность более устойчивую к воздействию ограничения, нежели две другие композиции, представляющие оперу и джаз. Это особенно заметно в более мелких временных масштабах: в данном случае, порог должен быть установлен как минимум на -6 dB, чтобы получить заметное уменьшение RMS-вариабельности. Это может быть связано с наличием громкого и заметного большого барабана, что указывает нам на то, что чем больше у музыки первичная RMS-вариабельность, тем сильнее она сопротивляется ограничению. Отсюда следует, что высокую вариабельность не так легко уменьшить. Эта первичная «упругость» - ещё один аргумент к утверждению, что ограничение автоматически не означает уменьшение диапазона громкости, особенно если первичный материал обладает очень высокой вариабельностью уровня.



Ремастеринг и ограничение
Многие альбомы, выпущенные в до-цифровую эпоху, подверглись ремастерингу и были выпущены в новых форматах. В качестве примера, давайте рассмотрим дискографию группы Cure. Начиная с 2004 года, все их альбомы, выпущенные до 1990 года, были ремастерены и изданы с дополнительными материалами. Первая диаграмма сравнивает уровни RMS оригинальных и ремастерённых версий. «Deluxe»-версии реально громче оригиналов, и их RMS в среднем на 5 dB выше. Тем не менее, они тише альбомов, выпущенных после 1995 года. Здесь можно заметить, как недавние альбомы Cure стали жертвой войны за громкость: между Wish и Wild Mood Swings мы видим внезапный скачок на 6 dB.
Давайте более пристально рассмотрим альбом Pornography, первоначально выпущенный в 1982 году. На рисунке Вы видите сигналограммы оригинальной и ремастерённой версий. Очевидно, что ремастер 2005 года подвергся тяжёлому цифровому brickwall-ограничению. Это хорошо или плохо? Лично мне нравится слушать обе версии. С более объективной точки зрения, давайте сфокусируемся на выделенном фрагменте сигналограммы, который относится к окончанию «A Strange Day». В оригинале, как раз перед короткой паузой, мы видим небольшое декрещендо, за которым следует короткое крещендо. Наши читатели, которые знают эту песню, согласятся, что эти вариации громкости очень согласуются с музыкальным контентом (кульминационный момент песни и затем пауза). Как мы видим, в оригинале использована первая парадигма громкости. Теперь, давайте посмотрим на ремастерённую версию. Вариации громкости теперь имеют другую природу и, возможно, это не очень хорошо. По моему мнению, это может быть главной опасностью ремастеринга альбомов, выпущенных до-цифровую эпоху: по неосторожности можно увеличить плотность высокоуровневых сэмплов, уменьшить крест-фактор и превратить первую парадигму громкости во вторую.




Альбомы знаменитых групп, как например Beatles или Pink Floyd, зачастую неоднократно подвергаются ремастерингу, так что, бывает довольно трудно найти референсную версию для любого из них. Для примера, возьмём Dark Side Of The Moon. Третья диаграмма показывает плотность высокоуровневых сэмплов для пяти его релизов. Здесь есть две версии с названием Original Master Recording, но даже они очень сильно отличаются. Скорее всего, потому что первая – это пластинка, а вторая – компакт-диск.
В контексте войны за громкость в голову приходит один вопрос: а насколько уважительно отнеслись эти ремастерённые версии к оригиналу 1973 года? Диаграмма даёт нам некоторые ответы. Версии 1981, 1989 и 1992 годов показывают общее количество ограничения, вполне сравнимое с альбомами 1973 года (об этом мы писали в начале статьи). Версия 2003 года уже более проблематична, поскольку количество ограничения здесь уже сравнимо с 1995 годом. С версией 2007 года ситуация пока не очень ясна: «Eclipse» либо ограничена, либо сильно скомпрессирована, но вот другие треки показывают очень умеренную плотность высокоуровневых сэмплов.
Послушав каждую версию и изучив сигналограммы, мы усовершенствуем результаты анализа. Версии 1981, 1989 и 1992 годов звучат очень «по пинк-флойдовски», и используют исключительно первую парадигму громкости. Напротив, релиз 2003 года не очень убедителен в этом отношении. Этот ремастеринг был сделан в формате 5.1 и его правый и левый каналы подверглись тяжёлому ограничению, с преобладанием второй парадигмы громкости. Он звучит как Pink Floyd на FM-радио. Даже то, что окружающие каналы не расплющены, совершенно не компенсирует это. Релиз 2007 года – более интересный случай. На мой взгляд, он обработан очень элегантно. Хотя, к примеру, «Eclipse» звучит громко – намного громче оригинала. С другой стороны, «Eclipse», как финал альбома, разве не должна звучать громко? Другие же песни были ремастерены уже по-другому. К тому же, в «Eclipse» нигде не используется второй парадигмы громкости, хотя, взглянув на сигналограмму, мы ясно видим, что она находится буквально на пределе между ними. Хорошо, что правообладатели издеваются не над всеми легендарными альбомами: релиз 2007 года Dark Side Of The Moon демонстрирует нам настоящее уважение и понимание этой музыки, создавая хороший компромисс между «ароматом» оригинального альбома и современными вкусами.

Перевод Бережной Вячеслав

суббота, 2 июля 2016 г.

Параметры цифрового звука

Автор: Дмитрий Михайлов
Copyright (C) Dmitry Mihaylov (Дмитрий Михайлов)

Биты, герцы... Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков были приняты значения 44 кГц, 16 бит. Почему именно столько? В чем причина выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...
Разберемся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике.
За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 дБ) до той наименьшей, которую позволяет передать разрешение, например - примерно -93 дБ для 16 битного аудио. Как не странно, это сильно связано с уровнем шумов фонограммы. В принципе, для, к примеру, 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации. Дело в том, что при взятии цифровых значений мы все время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка дает нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную 0.5МБ. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования.
Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 дБ. Никакими другими битами кроме СБ нельзя добиться уровня выше -6 дБ. Соответственно - старший бит как бы отвечает за наличие уровня сигнала от -6 до 0 дБ, поэтому СБ - это бит 0 дБ. Предыдущий бит отвечает за уровень -6 дБ, ну а самый младший, таким образом - за уровень (число_бит-1) * 6 дБ. В случае 16 битного звука, МБ соответствует уровень в -90 дБ. Когда мы говорим 0.5МБ, мы имеем в виду не -90/2, а половину шага до следующего бита - то есть еще на 3 дБ ниже, -93 дБ.
Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне 0.5МБ, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на -93 дБ. Она может передавать сигналы и тише, но шум все равно остается на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов -80 дБ - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и предавать такой сигнал просто не нужно.
Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как не странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум -93 дБ - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 дБ) и обычным шумовым фоном в городе (30-50 дБ) составляет как раз около сотни дБ, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что еще несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов дискретизации. Если мы можем расслышать уровень под -90 дБ в цифровой записи - мы услышим и воспримем шумы дискретизации, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 дБ, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.
Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering, можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно еще на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 дБ. Да и вообще - одновременно человек просто не может слышать звуки на 110 дБ тише чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет и совсем сравнительно мало - около 80 дБ. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.
Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение, что это означает, что воспроизводятся все частоты до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не настолько идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАПа.
Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.
Для передачи звука как он есть было бы неплохо сохранить весь хоть как либо воспринимаемый диапазон от 10 Гц до 20 кГц. С низкими частотами в теории в цифровой записи проблем совершенно никаких нет. На практике же - все ЦАПы, работающие по дельта-технологии, имеют потенциальный источник проблем. Таких устройств сейчас 99%, поэтому проблема так или иначе имеет место быть, хотя откровенно плохих устройств почти нет (лишь самые дешевые схемы). Можно считать, что с низким частотами все обстоит благополучно - в конце концов, это лишь вполне решаемая проблема воспроизведения, с которой успешно справляются хорошо сконструированные ЦАПы ценой более $1.
С высокими частотами все немного хуже, по крайней мере точно сложнее. Почти вся суть усовершенствований и усложнений ЦАПов и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше. Поясняющий рисунок:
На рисунке изображена частота 14 кГц, оцифрованная с частотой дискретизации 44.1 кГц. Точками обозначены моменты взятия амплитуды сигнала. Видно, что на один период синусоиды приходится около трех точек, и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Саму синусоиду рисовала программа CoolEdit, она и проявляла фантазию - восстанавливала данные. Аналогичный процесс происходит и в ЦАПе, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАПа. В CoolEdit очень хороший восстанавливающий фильтр, но и он не справляется в экстремальном случае - например, частота 21 кГц:
Видно, что форма колебаний (синие линии) далека от правильной, да и свойства появились, которых ранее не было. Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в профессионального класса устройствах, которые не то чтобы сильно дороже - просто они сделаны с умом.
Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.
Идея dithering-а заключается в том, чтобы подмешать в сигнал шум. Как не странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Изображение показывает 32х битый звук - музыка, записанная на таком тихом уровне, что самые громкие моменты достигают лишь -110 дБ:
Это с запасом гораздо тише динамического диапазона 16 битного звука (1МБ 16 битного представления равняется единице по шкале справа), поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.
Добавим в сигнал белый шум с уровнем в 1МБ - это -90 дБ (примерно соответствующий по уровню шумам квантования):
Преобразуем в 16 бит (возможны только целые значения - 0, 1, -1, ...):

(Не обращайте внимание на синюю линию, которая принимает и промежуточные значения - это фильтр CoolEdit моделирует реальную амплитуду после восстанавливающего фильтра. Точки же взятия амплитуд расположены только на значениях 0 и 1)
Как видно, какие-то данные остались. Там, где исходный сигнал имел больший уровень, больше значений 1, где меньший - нулей. Чтобы услышать то, что мы получили, усилим сигнал на 14 бит (на 78 дБ).
Мы слышим этот звук с огромными помехами в -90 дБ (до усиления для прослушивания), тогда как полезный сигнал составляет всего -110 дБ. Мы уже имеем передачу звука с уровнем -110 дБ в 16 битах. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остается на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики...
Более сложный способ - shaped dithering. Идея в том, что раз мы все равно не слышим высоких частот в очень тихих звуках, значит следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться большим шумом - я воспользуюсь уровнем в 4МБ (это два бита шума). Усиленный результат после фильтрации высоких частот (мы не услышали бы их в нормальной громкости этого звука)  - 1023 кб. Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с уровнем -110 дБ! Важное замечание: мы повысили реальные шумы дискретизации с 0.5МБ (-93 дБ) до 4МБ (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось, но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум. Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук дает возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.
[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нем игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Легкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]
Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.
Единственное что - эта технология действует только на последней стадии - подготовке материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более -60 дБ - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Краткий FAQ

 Q: Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда. Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]


Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]


Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.


Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет. Качество преобразования нисколько не зависит от битности. В AC'97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука.
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от 'лишних' 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.


Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума.
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен, так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.
Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведенные до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?...

пятница, 1 июля 2016 г.

CD vs Vinil - развенчание мифа #1

Geektimes / Аудиомания / отредактировано

Мифы и заблуждения, которые сложились вокруг темы звуко-акустики, часто настолько сильны, что подобно психическим заболеваниям, управляют не только нашими вкусами и предпочтениями, но и самими нашим сознанием. Одним из таких мифов является миф о неоспоримом превосходстве звукового содержания виниловых пластинок перед компакт дисками. Рассмотрим это противостояние на базе материала Криса Корнелиса, в котором он раскрывает истинные плюсы и минусы CD относительно возможностей Vinil. Вот основной тезис:
«Все убеждены, что винил звучит лучше, чем цифровые записи. Противятся только звукоинженеры и те, кто изобрел компакт-диск», – Крис Корнелис (Chris Kornelis), «Звуковые войны».
Далее Крис пересказывает историю Джеймса Рассела (James Russell), инженера, который с самого детства проявлял смекалку изобретателя. Он спроектировал «автоматический морской бой» в шесть лет и далее во всю чинил различную бытовую технику. Рассел создал свой первый виниловый проигрыватель в колледже, но профильное образование физика затянуло его на несколько лет в сферу энергетики. Он сумел убедить начальство дать ему возможность исследовать способы применения оптических устройств (света) для совершенствования способов записи и воспроизведения музыки. Задача была следующая - добиться точного воспроизведения и получить четкое звучание композиции: «Я просто хотел, чтобы симфония звучала как симфония». Именно так появилась идея, воплощение которой привело к появлению компакт-аудио-диск (CD). В 1965 году Рассел разработал оптическое запоминающее устройство и технологию чтения данных. Конечно, фурор формата CD быстро сменила шумиха вокруг стриминговых сервисов и далее, с возвращением винила споры о том, что лучше (CD или винил, цифровой или аналоговый звук), стали только острее. 
62-летний бизнесмен Зеро Фрейтас (Zero Freitas) с детства собирает пластинки и не может остановиться – его коллекция насчитывает более 47 тысяч записей, а доступ открыт всем желающим. Таким образом он "спасает" для будущих поколений подлинное звучание любимой музыки.
Рассказывая о возрождении винила Криси приводит слова Янга, который во время конференции CES в Нью-Йорке сказал Натану Брэкетту (Nathan Brackett) из Rolling Stone’s следующие слова: «Люди с хорошим слухом выбирают винил. Без вариантов».
Крис пишет, что согласно экспертам, если на один динамик подать слишком много баса, то игла может выскочить из дорожки – это вызовет свистящие помехи (резкие звуки «с») в голосе певца. Виниловые записи не только воспроизводят лишь часть студийной записи, но и привносят в неё тиканья и трески.
Таким образом, одним из самых серьезных недостатков винила становится сравнительное отличие в воспроизведении баса и отличие в звучании первой и последней песни.

Например, простым примером высоких частот на записи являются помехи, возникающие при произношении шипящих согласных, или согласных «с» или «з», которые могут при быстром произношении создавать эффект свиста (например в словах: «zip», «shack», «sap»). Это создает серьезные проблемы для специалистов, работающих с винилом, поэтому они часто вынуждены устранять избытки высоких частот на записи, делая свистящие звуки менее выраженными в процессе редактирования, или же просить вокалистов произносить проблемные места по-другому в процессе записи. Конечно, дело не только в этом, но и в форматах.
Эта история началась с разработки способа записи телевизионных программ на мастер-диски с помощью лазерного луча. Далее (в 1978 году) был сконструирован первый коммерческий проигрыватель лазерных дисков от Philips Magnavox 8000, который провалился, несмотря на то, что в разработку были вложены полмиллиарда долларов.
В 1982 году новый формат вышел на рынок, а два года спустя в Соединенных Штатах был произведен первый CD. Примечательно то, что этим диском стал альбом «Born in the U.S.A» Брюса Спрингстина – альбом был смикширован Бобом Клирмаунтином, а его мастер-копию делал Боб Людвиг.

Ранние АЦП имели технические шумы, поэтому при воспроизведении CD появлялись искажения. Формат стал популярным, когда технологии позволили ему звучать хорошо. При этом Крис убежден, что не так уж и сложно найти виниловую пластинку, которая звучит лучше чем CD, так как мастеринг, продакшн и методы производства в целом могут склонять чашу весов как в положительную, так и в отрицательную сторону.
Многие ценят винил его не за чистое воспроизведение, а за приятный эффект, который он накладывает на него. Люди тяготеют к винилу из-за возможности подержать и покрутить пластинку в руках. Им нравится возможность коллекционирования.
Сегодня существует возможность воспроизводить треки на частоте, с которой их записывают музыканты. Они записывают музыку на частотах, превышающих 44,1 кГц (96 кГц или 192 кГц) для расширения возможностей редактирования. Многие люди, работающие в сфере аудио, говорят, что способны заметить улучшение качества на частотах дискретизации, превышающих частоты формата CD, поэтому предпочитают слушать музыку высокого разрешения.
Скотт Мэткалф (Scott Metcalfe), заведующий кафедрой искусства и науки звукозаписи в Институте Пибоди при Университете Джона Хопкинса, объясняет, что "инженеры стали использовать «избыточную дискретизацию» при создании цифровых файлов, значение частоты которой гораздо больше 44,1кГц. Затем запись сжимается обратно до частоты CD-формата. «Сигнал захватывается на гораздо большей частоте дискретизации, которая затем с помощью математических преобразований приводится к частоте 44,1кГц", – говорит Мэткалф. Такой метод позволяет точнее сохранить записываемую информацию.
«Я думаю, что люди не слышат разницы только потому, что попросту не знают, что они должны слышать, – говорит Андерсон. – Кому-то нужно показать вам, что вы должны услышать. Если вы сконцентрируетесь на обозначенных моментах, то вам все станет понятно».
Многие звукоинженеры с этим не согласятся и скажут, что запись на аналоговую [магнитную] ленту ничем не лучше цифровой записи. Дело в искажениях, которые нравятся некоторым музыкантам и слушателям. Будь то битва аналоговой записи против цифровой или винила против CD, очевидно, что предметом спора здесь является не качество. Споры ведутся о личных предпочтениях.
К сожалению, никто не проводил тест на сравнение винила и CD, но есть результативный эксперимент Джона Геринджера (John Geringer) и Патрика Дуннигана (Patrick Dunnigan) из штата Флорида, в котором сравнивались CD и высококачественные кассетные записи. Хотя кассеты, продаваемые покупателям, и обладают худшим качеством звука, чем виниловые записи, к магнитной ленте не предъявляются особые требования при производстве, и сам формат не страдает от ограничений частоты, которые навязывает виниловый формат во избежание звукопотерь. Конечно, данный эксперимент не совсем годится для использования в нашем контексте, но понимание того, как люди воспринимают высококачественный аналог цифрового звука, должно пригодится в рамках данного материала. Или, как отметил Крис Корнелис:
«Некоторые любят есть мармелад, а некоторые горчицу, кому-то нравится слушать виниловые записи, но... ради Бога, не говорите, что они звучат лучше».

CD vs Vinil - развенчание мифа #2

Geektimes / Аудиомания / отредактировано


В мире, где на вечеринке кто угодно может поменять плейлист и поставить свою любимую музыку, приятно иметь формат, который не так-то просто подменить.Что-то внутри радуется, когда игла опускается на пластинку, или ты рукой проворачиваешь ее для перемотки. Однако, давайте не будем обманывать себя! Винил – это отличный музыкальный формат, но мысль о том, что его звучание лучше, чем звучание несжатых цифровых записей сама по себе нелепа. Суть в том, что все записи, до того как они попадут на любой из носителей, звучат по-разному и это главное.
Чего не может винил
С точки зрения теории нет никаких причин, по которым винил должен звучать лучше.
При записи музыки на виниловые пластинки (есть специальный материал, разъясняющий сложности мастеринга винила) нужно учитывать ряд особенностей, одной из которых является способ кодирования звука, которому нет эквивалента в формате CD. Также, винил ограничен свойствами материала, но при этом должен воспроизводить весь спектр звуковой волны, не вызывая искажений. Это условие ограничивает динамический звуковой диапазон – другими словами, диапазон частот, которые мы можем услышать.
Если записываются слишком низкие ноты, это будет означать, что на плоскости пластинки поместится запись меньшей длительности. Если же звуковой тон будет слишком высоким, то возникнут искажения, поскольку создать соответствующую дорожку будет очень тяжело. Поэтому инженеры при создании мастер-диска для виниловой записи часто обрезают излишне высокие или низкие частоты, используя для этого различные методы, каждый из которых по-своему влияет на звучание музыки. Например, простым примером высоких частот на записи являются помехи, возникающие при произношении шипящих согласных, или согласных «с» или «з», которые могут при быстром произношении создавать эффект свиста (например в словах: «zip», «shack», «sap»). Это создает серьезные проблемы для специалистов, работающих с винилом, поэтому они часто вынуждены устранять избытки высоких частот на записи, делая свистящие звуки менее выраженными в процессе редактирования, или же просить вокалистов произносить проблемные места по-другому в процессе записи.
И хотя методы обработки аудио, устраняющие слишком высокие частоты, широко применяются и для других форматов звукозаписи, но при записи на винил они жизненно необходимы. Если же необходимо сохранить громкое шипение по каким-либо эстетическим задумкам и сделать виниловую пластинку с такой записью, то это в принципе невозможно. Когда же приходится избавляться от высоких частот, перезаписывая вокал, это может сильно повлиять на звучание. Вокалисты вынуждены исполнять композиции менее «сильно», и как результат – теряется уровень экспрессии.

Что может CD
Поскольку формат CD – это исходный аналоговый аудиосигнал, который подвергся дискретизации, у него есть некоторые ограничения по частоте. Виниловые записи, в теории, сразу кодируют гладкую аудиоволну, CD же измеряет значение аналоговой величины через определенные промежутки времени в различных точках, и, затем, объединяет их. «Неважно насколько высока частота дискретизации, – как-то писал Элиот Ван Бускирк (Eliot Van Buskirk), сотрудник журнала Wired, – всю информацию, представленную аналоговой записью, закодировать невозможно».
Высказывание Элиота Бускирка в целом правдиво: так работает CD-формат – выбирает множество сэмплов из исходной аудиоволны и выстраивает их последовательно. Но такая точка зрения ошибочна по двум причинам. Во-первых, при создании виниловых записей возникают ошибки, из-за которых спрессованная дорожка не получается точной копией аудиоволны, записанной на эталонной пластинке, и не последней причиной этого являются ограничения по частоте. Правда в том, что CD никак не может точно воссоздать эталонную аудиоволну (в большинстве случаев не может – теорема Найквиста-Шеннона утверждает, что такое возможно), но и виниловая запись не может этого тоже.
Еще важнее то, что громкость сэмплов должна быть достаточной, чтобы создать копию, которую человеческое ухо слышит так, словно это оригинальная запись. Частота дискретизации у CD-формата составляет 44,1кГц – это означает, что происходит считывание значений эталонной записи 44 100 раз за секунду в диапазоне звуковых частот до 20кГц — это предел слышимости человеческого уха. Как минимум один эксперимент подтвердил, что слушатели не замечают разницы между записями, в которых есть частоты выше 21кГц и теми, которые таковых не содержат. Вы, конечно, можете считать, что способны слышать частоты, не поддерживаемые форматом CD, но, скорее всего, вы жестоко ошибаетесь.
Спустя некоторое время, инженеры придумали, как выжать большее из 44,1кГц. Скотт Мэткалф (Scott Metcalfe), заведующий кафедрой искусства и науки звукозаписи в Институте Пибоди при Университете Джона Хопкинса, объясняет, что инженеры стали использовать «избыточную дискретизацию» при создании цифровых файлов, значение частоты которой гораздо больше 44,1кГц. Затем запись сжимается обратно до частоты CD-формата. «Сигнал захватывается на гораздо большей частоте дискретизации, которая затем с помощью математических преобразований приводится к частоте 44,1кГц, – говорит Мэткалф, – это позволяет точнее сохранить записываемую информацию».
Мэткалф рассказал о еще одной проблеме, связанной с поступающей критикой в адрес CD-формата. Даже если используемый метод звукозаписи поддерживает частоты выше 20кГц, это бесполезно, если у вас нет микрофона, способного записывать такие частоты, и нет такого динамика, который бы их воспроизводил. У большинства студий нет микрофонов, чувствительных к частотам выше 20кГц, а динамики, их воспроизводящие, встречаются и того реже. В действительности, большинство аудиосистем оснащены фильтрами низких частот, которые обрезают все частоты выше указанной.
Факт, однако, состоит в том, что CD-формат способен создать еще более точную копию звуковой волны, чем винил. 
Что же всё-таки предпочесть?
Известный факт: американцы покупают цифровые копии песен в гораздо большем количестве, чем другие альтернативные музыкальные форматы. В связи с этим можно предположить, что они предпочитают слушать цифровую музыку или CD, а не винил. Так к примеру, в 2013 г. было продано 243,5 млн. цифровых альбомов, 165,4 млн. альбомов изданных на CD и только 6,1 млн. виниловых пластинок. Учитывая, что сжатый цифровой звук значительно хуже по качеству, чем CD или винил, видно, что потребители заботятся в первую очередь об удобстве приобретения и использования, чем о качестве звука. Но сравнение CD и Vinil в объемах продаж будет неадекватным, поскольку разные люди понимают под словом «удобство» разное. Но что, если сравнивать цифровое и аналоговое аудио при равных, контролируемых условиях?
К сожалению, никто не проводил тест на сравнение винила и CD, но есть результативный эксперимент Джона Геринджера (John Geringer) и Патрика Дуннигана (Patrick Dunnigan) из штата Флорида, в котором сравнивались CD и высококачественные кассетные записи. Хотя кассеты, продаваемые покупателям, и обладают худшим качеством звука, чем виниловые записи, к магнитной ленте не предъявляются особые требования при производстве, и сам формат не страдает от ограничений частоты, которые навязывает виниловый формат во избежание звукопотерь. Геринджер и Дунниган использовали одинаковые микрофоны и настройки микшерных пультов, чтобы записать 4 различных концерта, используя цифровую запись и высококачественный аналоговый кассетный рекордер (модель MR-3 марки Nakamichi широко известна среди меломанов). Затем они попросили 40 испытуемых прослушать записи. Участникам эксперимента позволялось пользоваться наушниками и аудиоколонками и в любой момент переключаться между цифровой и кассетной записью. Испытуемые не знали, какая запись является цифровой, а какая – аналоговой. Затем их попросили написать о выборе, который они сделали.
Как оказалось, большинство склонилось в пользу цифровой записи. «Участники эксперимента дали гораздо более высокие оценки качеству низких и высоких частот цифровой записи», – отчитались Геринджер и Дунниган. Результаты оценки цифровых записей оказались хуже по некоторым пунктам (записи струнных оркестров были практически одинаковыми) по сравнению с аналоговыми записями, но их средний балл всегда превышал средний балл аналоговых. Большинство приличных аналоговых записей были исключены из эксперимента, поскольку сами эти записи содержали музыку таких жанров, которые не пришлись испытуемым по вкусу. Однако нашлось и несколько людей, выказавших ярко выраженное предпочтение «цифре» (вне зависимости от жанра).
За что люди любят винил?
Возможно, самым замечательным в звучании винила является именно то, что пластинки как раз-таки изменяют звучание оригинальных записей. Множество фанатов говорят о «теплом» звучании винила, в особенности в области низких частот. Но, как выразился Марк Ричардсон (Mark Richardson), журналист электронного издания Pitchfork: «Тот «теплый» звук, который множество людей ассоциируют с виниловыми пластинками, может быть описан просто как неаккуратно записанный бас».
Сложности при точном воспроизведении баса на виниловой пластинке связаны с тем, что канавки не должны быть слишком большими, поэтому инженеры вынуждены проделывать множество сложных операций для изменения звучания баса, чтобы пластинка звучала нормально, что, по всей видимости, пришлось массам по вкусу. Так называемая «теплота» также является эффектом, возникающим из-за дефектов проигрывателей. Стэнли Липшиц из Университета Ватерлоо как-то объяснил журналу Popular Science, что звук динамика и колебания высоты иглы могут вызывать вибрации в звучании записи, которые иголка считывает и воспроизводит как, якобы, «теплый» звук.
Было бы неправильным судить качестве звука опираясь на своеобразные эстетические оценки. Это так же нелепо, как упрекать расстроенные струны за то, что они «не соответствуют» звуку настроенной гитары. Искажения звука могут быть самыми многообразными, и нет ничего плохого в том, чтобы использовать их. Ведь именно из-за этого «теплого» звучания виниловые записи отличаются от оригинального звука, записанного музыкантами на студии.

«Как инженер звукозаписи, могу сказать, что при работе с цифровыми форматами ты получаешь ровно то, что изначально планировал, – объясняет Мэткалф – но когда работаешь с аналоговым звуком, результат может отличаться от первоначальных установок».

Каждый формат имеет право на жизнь
Различия в качестве звучания чаще всего перекрываются качеством звукозаписывающей аппаратуры, устройств воспроизведения и подходом к звукозаписи. Но если вы коллекционируете пластинки, вам не следует постоянно твердить своим друзьям о том, насколько чище звучит винил. Во-первых – это абсолютно свинское поведение, но важнее то, что это ложь. Цифровые записи гораздо точнее воспроизводят звуковую волну. И это далеко не единственная мысль, над которой стоит задуматься, но она показывает всю несостоятельность аргументов приверженцев звучания винила.

Что такое динамический диапазон (DR) и его влияние на качество звучания





При выборе музыкальных дисков (CD) большое, если не решающее, значение для слушателя играет динамический диапазон записи (DR). Именно из-за сознательно суженного (компрессированного) звукорежиссером динамического диапазона записи на CD могут возникнуть претензии к звучанию.
Компрессия по звуковому диапазону применяется все чаще не только на этапе финальной подготовки диска. Любая компрессия DR негативно сказывается на впечатлениях при прослушивании. Если у вас при прослушивании CD остается стойкое ощущение каши и сумбура, "грязного" звука — это признак того, что диск, скорее всего, немилосердно сжат по динамическому диапазону.
Что же такое динамический диапазон и для чего его вообще нужно сжимать?
Динамический диапазон — это диапазон между самыми тихими и самыми громкими звуками на фонограмме. Естественно, чем он больше, тем более тонко и точно будет подан музыкальный материал, где в трехмерном пространстве будет слышно все — от турбуленции воздуха от дирижерской палочки, до выстрела из пушки. Исходя из сказанного, сжимать динамический диапазон не нужно, его сжатие можно воспринимать как уродование звука.
Во многих сложно сочиненных и мастерски исполненных музыкальных произведениях динамический диапазон очень большой и есть места где музыканты играют крайне тихо,  а есть, где нарастает экспрессия и музыка грохочет. При прослушивании, в таких композициях устанавливается громкость усилителя достаточно высоко и становятся прекрасно слышны, как самые тихие звуки, так и по мере нарастания, очень громкие.
411fifth.mayfield

В переносных устройствах (смартфоны, планшеты) стоят маломощные усилители, которые, сомнительно, что могут все это отыграть в полном диапазоне с приемлемой громкостью. Поэтому стали применять компрессию — самые тихие звуки по громкости подтягивают к самым громким (получается фактически, что начинают шепотом орать), динамический диапазон сужается, но громкость в целом возрастает на 30%, что плюс для мобильных устройств, которые прослушиваются в агрессивной для прослушивания среде (шумная улица, метро). Таким образом, "музыка для мобильников" во всех случаях — это компромисс между качеством и удобством. Производители готовы пожертвовать качеством звучания ради любителей мобильной музыки, но портят в итоге музыку для всех.

На примере альбома группы ZZ Top — уродование звука более поздними релизами. В ремастере 2008 года уже даже не угадываются первоначальные контуры. Щелкните на картинку для отображения в динамике.
Меломаны столкнулись с нелегкой задачей подбора для своих коллекции CD, не изуродованных компрессией динамического диапазона, что сейчас становится сейчас всё более неразрешимой проблемой.
411fifth.Graph1
Чтобы определить DR любого музыкального произведения, достаточно установить плагин Dynamic Range Meter измеряющий динамический диапазон в проигрывателе foobar2000. Точнее сказать, он измеряет некий пик-фактор — разницу между пиковыми уровнями и RMS (среднеквадратичным значением уровня звука в альбоме или аудиотреке). Если значение пик-фактора DR фонограммы равно 14 — это великолепный показатель, а выше 15 — близко к фантастике, но следует понимать, что этот показатель будет разным для жанров в которых исполняется музыка.
Так для рок-музыки в целом хороший результат начинается с DR 10. Например, альбом группы Nazareth "Sound Elixir" на CD имеет DR=10 и при этом прекрасно звучит, благодаря использованию электронных инструментов. Для тяжелой музыки этого может быть вполне и достаточно, если музыкантами не были использованы сильные звуковые перепады. Однако, более обширнейший динамический диапазон потребуется для воспроизведения акустических инструментов — гитары, саксофона и тд. В таких случаях порадует разница диапазона от 13 до 15.
В целом большинство добротных CD показывает DR от 11 до 14. При этом встречаются диски имеющие динамический диапазон равный 15 (например, группа Телевизор "Отечество иллюзий") и даже 18. Диски с большим DR слушаются с огромным удовольствием — их звучание открытое, естественное, лишенное цифровой сухости и тяжеловесности. 
Таблица минимального DR в соответствии с музыкальным стилем.
DR-Tabelle 01 ENG
Так, если звучание диска грязновато, но терпимо, то скорее всего, это компрессированный по динамическому диапазону диск со значением не более 8. С таким значением идут многие ранние концерты группы Nazareth и других — это удручает, так как такая интересная и богатая на инструменты музыка достойна лучшего качества. Искреннее недоумение вызывает, когда априори аудиофильские исполнители выпускают записи своих концертов с сильной компрессией. Например диск Sade "Soldier of Love" выпущенный в 2010 (!) году имеет DR динамического диапазона равный всего лишь 10. При этом, композиции наполнены прекрасным женским вокалом и акустическими инструментами. Здесь компрессия диапазона явно слышна и  сильно разочаровывает. Становится непонятно для кого тогда подобные CD выпускаются по-принципу - если для аудиофилов такое качество мало пригодно к прослушиванию, а музыка имеет явно не коммерческий характер.
Сомнительно что сегодня кто-нибудь будет слушать на улице музыку с переносного CD-проигрывателя, когда в мобильной среде вместо несжатых форматов CD давно уже используются музыкальные файлы, в большинстве случаев это не аудиофильские форматы (mp3,AAC), которые так же имеют деструктивную природу и ограничение еще и по частотному диапазону. Тогда возникает разумный вопрос: зачем портить CD по DR и  писать диски без компрессии? Ведь здравого смысла коверкать запись на CD для более высокой громкости не просматривается, однако, маркетинговая машина войны за громкость запущена на полную мощность и обратного хода не предвидится. Статистика, к сожалению, свидетельствует, что производитель с каждым годом усиливает компрессию звукового материала, что конечно же негативно сказывается на качестве звучание на аппаратуре класса Hi-Fi.
Действительно, не компрессированный диск на дешевом переносном плеере или смартфоне в силу внешних шумов, которые замаскируют самые тихие звуки, будет звучать "неэффектно", а компрессированное звучание покажется лучше в силу того, что громкость тихих звуков гиперзавышена и находится над внешним шумом. Это схоже с тем, что звукорежиссер озадачился целью, записать диск, который будет звучать отлично на фоне работающего отбойного молотка. Возможно в таких ситуациях это покажется прекрасным, но можно ли серьезно говорить о качестве звучания, если используется глубокая компрессия?
В любом случае, низкокачественное и низкосортное воспроизведение и для высококачественного воспроизведения на хороших Hi-Fi/Hi-End аппаратах компрессированные записи не годятся.
Большинству аудиофилов не важна громкость диска, ее можно выставить любой на усилителе, важна чистота и детальность звучания, и многие другие параметры.
С появлением современных высококлассных усилителей музыка открыла для себя новое измерение, которое добавляет к ней еще одну восхитительную грань — возможность большего вовлечения благодаря аудиофильской прорисовки музыкальных событий. В этом измерении воспринимается не только мелодия, но и каждый звук, который в хорошем тракте поет и восхищает, цепляет за струны души.
c42fec055268
Именно поэтому большинство современных дисков после покупки хочется сразу  выкинуть, например, альбом Madonna "Handy Candy". Звук на них ужасно грязный, кашеобразный, давящий на слух. Причина легко определяется при проверке на DR динамического диапазона. На диске он равен удручающему значению 5. Хорошо звучащими дисками можно считать записи имеющие диапазон минимально от 10 и выше. Диапазон CD от DR 8 и ниже вызывает при прослушивании не лучшие ощущения.

Многие предложат в виде панацеи прослушивание виниловых дисков, где компрессия маловероятна, но  компрессия маловероятна и на всех оригинальных CD старых выпусков (встречается DR до 18), а современный винил может быть так же компрессирован. Это первый аргумент, а второй происходит из того, что при замере значение DR динамического диапазона современных виниловых дисков он оказывается не очень высоким. Для разных виниловых дисков значение DR равно 12-14. Но остались серьезные подозрения, что нижняя граница определялась не самым тихим звуком, а рокотом и шумом самой виниловой пластинки из за механического характера считывания данных и тогда, вероятно, реальный DR имеет еще худшее значение. При этом не редко можно встретить записи на CD с DR динамического диапазона равным 15, и, кроме того, на диске существенно лучше выполнено разделение каналов и многие другие показатели.
dangerous



Из вышесказанного можно сделать вывод, что на качество звучания диска CD оказывает большое значения интенсивность компрессии звукового диапазона DR. Как ответ этой ситуации на рынке стали появляться специальные "аудиофильские" диски без компрессии, например компиляция Audiophile World.
Для любознательных: сайт www.dr.loudness-war.info  содержит каталог замеренных значений DR большого количества аудио CD дисков.