Визуализация звукового образа
в пространственных звуковых системах
Одной из основных проблем в развитии современной аудиотехники является разработка методов и средств для воссоздания пространственного звукового образа (Surround Sound).
Попытки передать ощущение пространства начались еще в конце XIX века. В 1881 году Клемент Адер установил несколько микрофонов на сцене Парижской Оперы и сигналы от них подал по проводам к головным телефонам в некоторые комнаты ближайшего отеля. Слушатели впервые могли слышать пространственный звук — это был первый шаг к бинауральной стереофонии. Затем аудиотехника прошла большой путь от моно- и стереосистем к системам матричной стереофонии, которые и имеют наибольшее распространение в настоящее время.
Наряду с этим продолжает развиваться бинауральная стереофония, когда сигналы, записанные внутри слуховых проходов слушателя (или искусственной головы), передаются по двум каналам и воспроизводятся через стереотелефоны. В настоящее время проводится комплекс работ по созданию специальных процессоров для воспроизведения их через акустические системы и по воссозданию трехмерных виртуальных звуковых полей с помощью компьютерных моделей слуховой системы.
На всех этапах развития пространственных систем всегда стояла проблема оценки зоны восприятия «пространственного слухового образа» (зоны стереоэффекта), которая имеет ограниченные размеры, зависящие от многих факторов (характеристик громкоговорителей, параметров окружающего пространства и др.). Все пространственные системы создают некоторый «мнимый образ», своего рода слуховую иллюзию — например, когда в стереосистемах, где используются две акустические системы, слушатель воспринимает мнимый звуковой источник между ними, то очевидно, что этот образ только формируется в соответствующих отделах головного мозга, и в объективном мире его не существует.
![]() |
| Рис. 1. Конфигурация пространственной системы 5.1 |
При переходе к многоканальным пространственным системам воспроизведения (рис. 1) методы оценки параметров воспринимаемого звукового образа значительно усложнились, поэтому проблемы его восприятия и субъективной оценки служат предметом многочисленных исследований в психоакустике.
Методы оценки распределения этого слухового образа в трехмерном пространстве («зоны пространственного звукового эффекта») также не свободны от значительных проблем, поэтому практически на всех конгрессах AES представлены результаты работ в этом направлении.
Особого внимания заслуживает метод, представленный на 116-м конгрессе AES специалистами из университета McGill в Канаде. Он включает пакет программ, с помощью которых можно визуализировать субъективно воспринимаемый пространственный звуковой образ — Graphical User Interface (GUI). Это особенно интересно потому, что данный способ может использоваться звукорежиссерами для пространственного панорамирования при звукозаписи.
Целью работы было не выяснение того, как происходит процесс восприятия пространственного образа в слуховой системе (это отдельная проблема), а как можно описать и оценить этот образ. В воспринимаемом мнимом звуковом образе можно выделить два аспекта: способность различать и узнавать исходный звук (музыкального инструмента или голоса) и способность различать «виртуальное» трехмерное окружение (ассоциирующееся с первичным помещением), отличное от того реального физического пространства, в котором находится слушатель.
Обычно для точности оценки пространственного впечатления используются два параметра: оценка ширины источника (ASW) и оценка точности пространственного окружения (LEV).
Задачей предложенного метода (GUI) является создание карты распределения звукового образа в трехмерном пространстве и оценка степени точности восприятия первичного звукового образа, что включает в себя указанные выше параметры.
Под звуковым образом в данной работе понимается «часть виртуального пространства, которая содержит звуки, создаваемые одним источником». Метод предлагает определение координат этого образа и определение степени точности (definition) его восприятия.
Для описания точности восприятия были выбраны три категории признаков — как показывают психологические опыты, из множества предлагаемых градаций для описания какого-то ощущения человек обычно предпочитает пользоваться только тремя.
Первый признак — «определенный» (define), идентифицируется в том случае, когда слушатель может четко определить расположение источника (музыкального инструмента или голоса) в воспринимаемом звуковом образе (виртуальном пространстве).
Второй признак — «диффузный, рассеянный» (diffuse), это может быть кажущийся звук из очень ограниченной части виртуального пространства, несущий информацию о реверберации, что напоминает восприятие звука от одного громкоговорителя с искусственной реверберацией.
![]() |
| Рис.2. Расположение громкоговорителей в соответствии со стандартом ITU-R BS-775 |
Третий признак — «неопределенный» (fuzzy), когда нет ощущения уверенного расположения звука в данной точке виртуального пространства.
Для визуализации расположения виртуального источника и его описания по трем вышеперечисленным признакам была создана специальная компьютерная программа GUI в среде MatLab.
Поскольку главной целью экспериментов была оценка и анализ звукового образа, возникающего при воспроизведении через многоканальные системы звуковоспроизведения, то для экспериментов использовались пять акустических систем, расположенных в соответствии с требованиями стандарта ITU-R BS 775 для систем Surround Sound (рис.2). При этом задние громкоговорители были установлены под углом ±110° к центральной оси. Громкоговорители были закрыты звукопроницаемой занавеской, и слушатели не могли видеть их расположение.
Для прослушивания использовались музыкальные отрывки живой музыки (без добавления искусственной реверберации), записанной на CD (частота дискретизации 44,1кГц/16 бит) и воспроизводимой через компьютер. В качестве отрывков были выбраны голос с роялем («Ave Maria»), рояль соло (Бетховен) и труба с органом (Г.Томас), записанные в большом кафедральном соборе, так что труба в таком окружении создавала звуковой образ значительно большего объема, чем обычно.
Поскольку на восприятие звукового образа существенно влияет громкость звука, предварительно все акустические системы были выровнены по громкости на розовом шуме с уровнем 75 дБ на позиции слушателя. Уровни громкости были выровнены и на программном музыкальном материале субъективным способом.
В качестве слушателей были заняты шесть студентов-звукорежиссеров, имеющих опыт прослушивания. Слушателям не было заранее известно, через какое количество громкоговорителей воспроизводится звук. Им была дана предварительная инструкция, что и как они должны слушать, и проведена небольшая, порядка десяти минут, предварительная тренировка. Участники проводили прослушивание по очереди, находясь за столом внутри еще одного, внутреннего, занавеса, где с помощью компьютера они отмечали расположение виртуального звукового образа, его кажущиеся размеры и степень «определенности». Программы воспроизводились с другого компьютера.
![]() |
| Рис.3. Интерфейс программы для разных инструментов |
Каждый музыкальный отрезок проигрывался непрерывно столько времени, сколько требовалось для принятия решения — эксперт принимал это решение сам. На внутреннем занавесе было размещено девять цветных маркеров в интервале ±40° через каждые 10°, два маркера под углами ±110° и один сзади под углом 180° (рис.3). Их цвет совпадал с цветом маркеров на экране. При принятии решений относительно позиции звукового образа экспертов просили совместить положение головы точно с маркером на центральной оси.
В инструкции внимание слушателей обращалось на то, что при прослушивании трех разных отрывков необходимо отметить расположение звукового образа для каждого инструмента в виде эллипса на экране компьютера. При этом, поскольку воспринимаемый звуковой образ состоит как из прямого звука, так и из его записанной в первичном помещении реверберационной части, то задача состояла в том, чтобы описать свои впечатления от разных частей мнимого образа. Звук инструмента кажется «определенным» (defined), если он исходит строго из какой-то определенной точки пространства и звучит очень отчетливо. Размер эллипса (размер мнимого образа) не связан с реальными размерами инструмента (например, рояль может иметь размеры слышимого «определенного» образа меньше, чем скрипка). Интересно, что иногда мнимый образ может разделиться на несколько зон, представляемых в виде разных эллипсов.
Наряду с этим в мнимом звуковом образе может присутствовать «диффузная» часть, связанная с реверберацией. В этом случае трудно локализовать звук внутри звукового образа, что должно быть представлено эллипсами различных размеров и цветов, следует отметить, что это не означает ощущения нахождения внутри звукового образа, а скорее напоминает искусственную реверберацию при прослушивании через один громкоговоритель.
Наконец, третья часть мнимого звукового образа представляет собой промежуточный вариант между «четко определенным» и «диффузным», который называется «неясный» (fuzzy). Звуковой образ при этом трудно локализовать, он кажется смещающимся, и неясно, можно ли вообще локализовать инструмент в данной точке пространства.
На первом этапе экспериментов главными задачами были ответы на следующие вопросы:
- может ли слушатель четко различать три вышеуказанные категории в оценке качества звука;
- как располагаются звуковые образы для разных музыкальных отрывков;
- можно ли услышать звуковые образы отдельных инструментов внутри общего звукового образа на различных музыкальных отрывках.
Чтобы суммировать графическое описание звукового образа отдельными слушателями в различных экспериментах, было введено понятие «зоны плотности» (density plots). Эти зоны использовались, чтобы показать, где звуковой образ располагается у разных слушателей для одного музыкального отрывка (или для одного слушателя в разных отрывках). Графические образы накладываются друг на друга (совмещение происходит программным путем на компьютере), при этом зоны, где звуковой образ располагается чаще всего, оказываются обладающими наибольшей плотностью.
![]() |
| Рис.4. «Зоны плотности» восприятия мнимого звукового образа |
![]() |
| Рис.5. Дифференциальная плотность для: а — фортепиано и вокала («Ave Maria»): определенность; б — органа и трубы (Генри Томас): диффузия |
![]() |
| Рис.6. Дифференциальная плотность для: а — фортепиано («Ave Maria» и Бетховен): диффузия; б — органа (Генри Томас) и фортепиано (Бетховен): определенность |
Для количественной оценки была предложена нормирующая шкала (рис. 4), где в качестве максимума (обозначенного как 1), принято число, полученное умножением числа слушателей на число повторений локализации в данной зоне для каждого слушателя. Например, если «плотность зоны» оценивается как 0,5, то, значит, расположение звукового образа в данной зоне указывается только в половине экспериментов.
Пример оценки локализации мнимого звукового образа для разных инструментов по одному отрывку с классификацией их по степени определенности показан на рис. 4. Очевидно, что «определенная» часть мнимого звукового образа локализуется очень компактно, почти строго в осевом направлении. Из сравнения рисунков 4и и 4е, например, видно, что звук фортепиано воспринимается и локализуется как значительно более «определенный», чем звук органа, причем это различие можно оценить количественно по шкале, приведенной на рисунке 4. В то же время «диффузная» и «неясная» часть мнимого звукового образа во всех музыкальных отрывках оказывается распределенной по окружающему пространству, что, очевидно, связано со слушательским опытом, заставляющим воспринимать диффузный звук как приходящий с разных направлений.
Для анализа полученных результатов был также предложен способ дифференциальной оценки зоны плотности: для этого данные по оценке плотности одного инструмента (по шкале, показанной на рис. 4) вычитались из данных для другого инструмента, например фортепиано и вокал (рис. 5а), орган и труба (рис. 5б), а также фортепиано и орган (рис. 6б), фортепиано для разных музыкальных отрывков (рис. 6а). Этот метод позволяет оценить степень корреляции в оценках между разными инструментами, а также дать сравнительную оценку «определенности» или «диффузности» звучания каждого инструмента. Например, как видно из рисунка 5а, вокал звучит компактнее и ближе к центру, чем фортепиано, для одного и того же музыкального отрывка, звук органа воспринимается значительно более диффузным, чем звук трубы (рис. 5б) и т.д.
![]() |
| Рис.7. Распределение геометрической зоны восприятия мнимого звукового образа для фортепиано и органа |
![]() |
| Рис.8. Распределение геометрической зоны восприятия мнимого звукового образа для органа |
Кроме этих данных, из полученных результатов по определению «зоны плотности» была предпринята попытка оценить геометрическое распределение этих зон в плоскости. Для этого были проинтегрированы полученные значения «плотности» вдоль линий, проведенных от позиции слушателя под различными углами. Из результатов, представленных на рис.7, видно, что диффузная составляющая звукового образа у органа (рис. 7в) воспринимается как значительно более широко распределенная по пространству, чем у фортепиано (рис. 7а, 7б), причем она воспринимается, как исходящая от задних громкоговорителей.
Сравнительные результаты оценок различных слушателей, показанные на рис. 8в, позволяют сделать вывод, что геометрические разбросы зоны, где локализуется «определенная часть звукового образа» достаточно малы, а что касается области локализации диффузного звука, то разброс оказывается достаточно большим (рис. 8а).
Как уже было сказано выше, задачей данной работы было создание метода, который позволяет визуализировать создаваемый пространственный звуковой образ, определить его геометрические размеры и классифицировать его как определенный, диффузный или неясный. Этот метод может быть чрезвычайно полезен при оценке пространственных систем звуковоспроизведения, систем озвучивания и др.
Однако, как мне кажется, он мог бы быть чрезвычайно полезен для обучения и тренировки студентов-звукорежиссеров для работы с многоканальными записями. Это позволяло бы понять, где располагается мнимый пространственный звуковой образ, какова его геометрия и какая его часть содержит информацию о первичном источнике, а какая — об окружающем пространстве.
Разработчики программ GUI (профессор Веслав Войчик и др.) предполагают, что метод найдет широкое применение для оценки качества систем пространственного воспроизведения.
Выбор критериев оценки качества таких многоканальных систем является предметом других многочисленных работ, например, на последнем 116-м конгрессе известные психоакустики Флойд Рамси, Серен Бок и др. предложили пакет программ Quality Adviser. Это экспертная система для оценки качества многоканальных звуковоспроизводящих систем. Ее цель — помочь аудиоинженеру при создании многоканальных систем принять решение при выборе компромиссных вариантов между ограничением ширины полосы воспроизводимого диапазона для различных каналов и выбором числа каналов и их конфигурации.
Первая часть программы была предназначена для слуховой оценки качества звуковых систем 5.1 (см. рис. 1) в случае ограничений по полосе частот в каждом из каналов. Оценка качества звучания производилась по 100-балльной шкале: 0…20 — плохое, 20…40 — бедное, 40…60 — удовлетворительное, 60…80 — хорошее, 80…100 — прекрасное.
В процессе эксперимента была предоставлена возможность ограничивать полосу пропускания для каждого канала отдельно. Кроме того, в программе предусмотрена возможность менять содержание музыкального отрывка: добавлять или убирать речевой диалог, перераспределять музыкальное содержание между передними и задними каналами, например, на передние каналы подать основную часть прямого звука, а на задние — только реверберационную составляющую F-B (как слушатель воспринимает звук в реальном концертном зале), или подать на передние и задние каналы одинаковое содержание F-F (как слушатель воспринимал бы звук внутри оркестра). Результаты оценок представлены в таблице 1.
| Таблица 1 | ||||||
| Образцы | Входные параметры | Качество (баллы) | ||||
| полоса (кГц) | пространственная сцена | диалог | ||||
| LR | C | Sur | ||||
| 1 | 3,5 | 3,5 | 3,5 | F-B | нет | 18 (плохо) |
| 2 | 17 | 17 | 17 | F-B | нет | 98 (превосходно) |
| 3 | 20 | 10 | 3,5 | F-B | нет | 88 (превосходно) |
| 4 | 20 | 10 | 3,5 | F-F | нет | 72 (хорошо) |
| 5 | 20 | 3,5 | 20 | F-B | нет | 93 (превосходно) |
| 6 | 20 | 3,5 | 20 | F-B | да | 38 (бедно) |
Полученные результаты позволяют сделать следующие выводы: когда ограничивается полоса частот во всех каналах (строка 1) качество оценивается как плохое (оценка 18); когда полоса частот выше 17 кГц во всех каналах, качество звука оценивается как отличное (98). Строки 3 и 4 показывают, как влияет перераспределение звукового материала от F-B к F-F при одинаковых остальных параметрах. Отчетливо видно, что, когда на задние громкоговорители подается полный музыкальный отрывок (не только реверберационная часть), ограничения по полосе в задних каналах начинают сильно сказываться на общем качестве звучания. Интересный результат представлен в строках 5 и 6 — когда на центральный и правые и левые каналы подается одинаковый (коррелированный) музыкальный материал, ограничение по полосе центрального канала сказывается несущественно (98), но если на центральный канал подается звуковой материал, отличный от левого и правого канала, например добавляется диалог, то ограничения по полосе этого канала чрезвычайно ухудшают общее звуковое впечатление (оценка меняется от 93 до 38). Можно сказать, что если к какому-то каналу привлекается внимание, то его параметры начинают существенно сказываться на общем впечатлении от звуковой системы.
Следующим этапом явилась программа для оценки влияния на общее качество звучания конфигурации звуковой системы: моно (1.0), стерео (2.0), а также 3.0, 3.1 и др. Результаты экспериментов представлены в таблице 2.
| Таблица 2 | |||||
| Примеры | Число каналов слушателя | Позиция распределение | Пространственное | Видео | Оценка |
| 7 | 3/0 | Центр | F-B | - | 98 |
| 8 | 3/0 | Центр | F-F | - | 76 |
| 9 | 2/0 | Центр | F-B | - | 78 |
| 10 | 2/0 | Вне центра | F-B | - | 72 |
| 11 | 2/0 | Вне центра | F-B | + | 62 |
Полученные результаты показывают, что оценка качества звучания существенно зависит как от числа каналов, так и от положения слушателя. Эти результаты общеизвестны, однако представленная методика позволяет достаточно быстро получить количественные результаты по оценке зоны оптимального стереоэффекта (sweet pot).
![]() |
| Рис.9. Интерфейс системы Quality Adviser |
В реальной ситуации достаточно важной является помощь звукоинженеру в поиске компромисса между ограничением частотного диапазона и выбором числа каналов. Например, если надо решить, что лучше — иметь два канала с широкой полосой до 20 кГц или пять каналов с ограниченной полосой, или решить проблему перераспределения ресурсов между разными каналами. С этой целью была создана программа, позволяющая дать некоторые советы при выборе различных вариантов. Интерфейс системы показан на рис. 9.
Как видно из рисунка, программа позволяет включать и выключать отдельные каналы, изменять на каждом канале независимо полосу частот, изменять пространственное распределение программного материала между передними и задними каналами, добавлять или исключать видео. В представленном на рисунке примере показаны следующие ситуации:
![]() |
| Рис.10. Корреляция субъективных и объективных оценок |
- два канала с полосой до 20 кГц (оценка 73);
- система 5.1 с полосами 13 кГц для левого и правого каналов, 7 кГц для центрального канала и 3,5 кГц для тыловых каналов (оценка 66);
- конфигурация 5.1, только полоса 10 кГц для левого и правого каналов и 13 кГц для центрального (оценка 56);
- конфигурация 5.1, полоса во всех каналах 8 кГц, оценка уменьшилась до 40.
Таким образом, разработчик может, оценив различные варианты, сделать вывод о наиболее рациональном распределении ресурсов.
Основой для разработки такой программы послужило проведение большого количества субъективных экспертиз для различных конфигураций пространственных систем, результаты которых и использовались для выбора оценок. Как видно из рис. 10, имеется четкая связь между реальными оценками в субъективных тестах и предсказанными оценками в данной программе (корреляция составляет 93%).
Программа Quality Adviser находится в стадии дальнейшего развития, предполагается введение дополнительной информации о других искажениях в каналах (не только ограничения по частотному диапазону), введение информации о физических параметрах звукозаписи и элементов тракта и т.д.
Однако уже и в данном виде программа является очень полезным инструментом при выборе структуры и параметров пространственных систем звукопередачи.
Как программа по визуализации пространственного звукового образа, так и вторая программа по его количественной оценке могли бы оказать неоценимую помощь при обучении звукорежиссеров.
В данной ситуации для наших специалистов есть два решения: попробовать обратиться к разработчикам, чтобы они дали учебные варианты программ только для целей образования, или попробовать разработать аналогичные программы самим, так что дело за энтузиастами.










