Коммуникационная акустика - будущее аудиотехники
Ирина Алдошина
В последней статье, посвященной анализу научных результатов 114-й Конвенции AES в Амстердаме, я обещала рассказать более подробно об основных идеях, высказанных в программной лекции Йенса Блауэрта. Йенс Блауэрт - один из выдающихся ученых нашего времени, и его мнение о дальнейших направлениях развития акустики и аудиотехники является очень значимым. Из его лекции очевидно, какую огромную роль играет в дальнейшем развитии мировой науки психоакустика - что еще раз подтверждает необходимость ее изучения, чему я стараюсь способствовать статьями в журнале "Звукорежиссер". Идеи Йенса Блауэртa, возможно, найдут приверженцев среди наших специалистов, студентов и аспирантов, и это будет способствовать развитию аудиотехники в нашей стране.
Как уже было сказано в предыдущей статье, Блауэрт является одним из руководителем Института Коммуникационной Акустики (Institute of Communication Acoustics, Германия), профессором Университета Ruhr-Universitat Bochum, председателем Германкого акустического общества и т.д. Кроме того, он автор многочисленных книг, статей и докладов. Его книга "Пространственный слух" переведена на русский язык. Сейчас он заканчивает книгу "Коммуникационная акустика", которая выйдет в издательстве Springer Verlag (Heidelberg, New York.). Некоторые идеи из этой книги Йенс Блауэрт и сообщил на своей лекции в Амстердаме.
Лекция называлась "Communication Acoustics: Audio Goes Cognitive!", что можно примерно перевести и так: "Коммуникационная акустика: звук становится познаваемым!". В предыдущей статье я давала другой перевод - "Аудио идет к сознанию" - трудно сказать, что точнее отражает содержание его лекции.
Коммуникационную акустику он определил как новую отрасль акустики, относящуюся к информационным технологиям, которая за последние тридцать лет претерпела бурный взлет. Поразительно, что в Германии уже создан институт, занимающийся этой наукой, а у нас еще неизвестно даже ее название! Опираясь на развитие процессорной обработки звука, психоакустики и компьютерных наук, коммуникационная акустика выделилась из звукотехники и представляет собой симбиоз электротехники и акустики.
Инструментальный (в первую очередь компьютерный) анализ и синтез слухового пространства ("слухового образа") - это в настоящее время главная задача коммуникационной акустики. Проблема заключается в разработке методов кодирования процессов восприятия "слухового пространства", передаче этих кодов и синтезе по этим кодам виртуального пространства. Как пример можно рассмотреть принципы построения сигнального тракта современных звукозаписывающих, звукопередающих и звуковоспроизводящих систем, типичных для современной аудиотехники. Эти системы имеют следующие основные компоненты: один или несколько микрофонов, средства для передачи, записи и обработки аудиосигналов, и, наконец, громкоговорители или стереотелефоны на воспроизводящем конце тракта.
 |
Рис.1. Бинауральное прослушивание
|
Следует отметить, что, несмотря на значительный прогресс в передаче пространственной атмосферы, по мере перехода от монозвука к стереофонии и системам Surround Sound и др., подлинно аутентичной (то есть соответствующей реальному восприятию и переносу слухового пространства) является бинауральная стереофония. Два уха и голова, данные человеку природой, представляют собой своего рода два самонастраивающихся фильтра, которые меняют свои передаточные функции в зависимости от пространственного положения источника по отношению к голове. Их передаточные функции определяются резонансами в ушной раковине, слуховом канале, барабанной перепонке, а также процессами дифракции и отражения на ушных раковинах, торсе и голове. Передаточные функции левого и правого фильтров несколько отличаются друг от друга, что приводит к междуушной разнице в интенсивности и во времени прихода сигналов на барабанные перепонки (подробнее о бинауральном слухе - "Звукорежиссер" 9, 10/1999). Наличие бинаурального слуха дает человеку огромные преимущества в локализации звуковых источников, формировании слуховой перспективы, разделении звуковых сигналов от многих источников, обогащении сигналов за счет реверберирующих звуков в помещении и др.
 |
|
Рис.2. Структура бинауральной системы
|
 |
Рис.3. Схема записи с помощью искусственной головы
|
Можно сказать, что система "уши + голова" кодируют информацию о положении звукового источника в пространстве во временные и спектральные параметры сигналов на барабанной перепонке и в их междуушную разницу. Если теперь эти сигналы, снятые с барабанных перепонок слушателя, доставить без потерь к барабанным перепонкам другого слушателя, находящегося в любом другом месте, то можно у него воссоздать реальное ощущение всего пространства, где была сделана запись (рисунок 1). Собственно, эта идея и лежит в основе бинауральной стереофонии, которая начала свое развитие еще в 30-е годы. В наши дни развитию бинауральной стереофонии с помощью современных технологий процессорной обработки звука уделяется огромное внимание. В настоящее время запись сигналов производится в основном с помощью "искусственной головы", которая имеет такие же два самонастраивающихся фильтра, как и реальная голова (рисунок 2).
 |
|
Рис.4. Адаптивные процессоры вместо слуховой системы.
|
Как показано на рисунке, такая система может быть разделена на две части. Левая часть представляет собой анализирующую сторону (рисунок 3), а правая - синтезирующую. Что касается анализирующей стороны, то, если понять принципы кодирования пространственной информации в слуховой системе слушателя, то "искусственная голова" может быть заменена на соответствующие модели бинауральных цифровых процессоров, моделирующих процессы слухового восприятия и обработки в реальной системе человека (при этом конкретные модели определяются частными задачами анализа) (рисунок 4).
В синтезирующей части систе-мы слуховое пространство (образ) должно генерироваться из входной информации, которая, через соответствующие передающие системы, должна транслироваться из анализирующей части, например, из информации, полученной с использованием компьютерных алгоритмов, моделирующих восприятие и мышление слушателя.
В коммуникационной акустике анализирующая часть часто обозначается как "компьютерный анализ слухового пространства" (CASA - computational auditory scene analysis), в то же время синтезирующая сторона часто называется "создание слуховой виртуальной реальности"(AVR - auditory virtual-reality generation).
Компьютерный анализ слухового пространства (CASA)
Компьютерные системы анализа слухового пространства имеют обширные области применения, которые диктуют определенные технологические требования к их структуре.
К наиболее важным сферам их применения относятся системы для идентификации и локализации звуковых источников, особенно в условиях противоречивых акустических сигналов, таких, как множественные источники, шум или реверберационное окружение. Такие системы используются, например, для акустического обнаружения и навигации. Также они применяются для систем разделения и выявления конкурирующих источников звука в условиях маскировки, а также для надежного распознавания речи. Кроме того, они служат основой автоматизированных систем акустического восприятия и оценки звуковых сигналов, например, для анализа и оценки качества различных помещений, предназначенных для воспроизведения музыки и речи. Без этих систем было бы невозможно создание современных фильтров "анализа содержания" звукового материала, которые используются в задачах автоматического архивирования и извлечения аудиовизуального программного материала. Они также применяются для анализа и кодирования содержания транслируемого звукового сигнала в системах передачи по стандарту МPEG-7 (с системой кодирования ISO/IEC).
Система CASA построена по схеме, прототипом которой является система обработки звукового сигнала в слуховой системе человека. Общая схема построения дана на рисунке 5. Система бинауральная, то есть она имеет два входных "порта", куда поступают сигналы от левого и правого уха человека (или "искусственной головы"). После умеренной полосовой фильтрации, которая осуществляется в среднем ухе, два ушных сигнала поступают на модель улитки, где выполняются две операции: сигналы раскладываются (то есть производится их декомпозиция) в слухо-адекватные спектральные компоненты (с учетом так называемых "критических полос", см. "Звукорежиссер" 8/2000) и затем конвертируются в сигналы, представляющие нейронную активность (функцию плотности разрядов), генерируемую во внутреннем ухе, точнее, в волосковых клетках органа Корти (подробный процесс преобразования акустических сигналов в электрические нейронные разряды - см. "Звукорежиссер" 6/1999). Два выходных сигнала с улитки затем посылаются на бинауральный модуль, который анализирует разницу по времени и по интенсивности между двумя ушами. Эта информация необходима в дальнейшем, чтобы идентифицировать индивидуальные звуковые источники и, наряду с другими признаками, их боковую позицию в пространстве.
Из этой информации строится четырехмерная модель (pattern) с координатами: время, частота, интенсивность, боковая позиция источника, которая называется "паттерн бинауральной активности". Конечно, модель предусматривает и возможность моноурального анализа (моноуральный модуль). Число задач, решаемых с помощью такой модели, использующей последовательную обработку звуковых сигналов в направлении "снизу-вверх" и, как результат, создающую "паттерн бинауральной активности", достаточно велико, например, локализация и слежение за множественными источниками в нереверберирующем окружении, а также выделение конкурирующих источников в таком же окружении. При отсутствии реверберирующих сигналов компьютерная модель справляется с вышеперечисленными задачами иногда даже лучше, чем это делает человек.
 |
|
Рис.5. Общая структурная схема анализа – CASA
|
К сожалению, эти алгоритмы резко ухудшают свою работу, когда добавляются отраженные звуки, что типично для любого процесса реверберации в помещениях. По-видимому, процесс анализа звукового сигнала, ориентированный строго иерархически "снизу-вверх", не может работать в таких ситуациях. По этой причине недавно были разработаны новые алгоритмы и созданы новые модули, включенные в модель CASA после "паттерна бинауральной активности" (рисунок 5), которые основаны на совершенно других принципах: они исходят из некоторых гипотетических предпосылок и работают по принципу "сверху-вниз", а не от информации о звуковых сигналах, обрабатываемых по принципу "снизу-вверх", как в первой модели. Такие модули могут быть построены, например, с использованием алгоритмов нейронных сетей. Это, конечно, стало возможно только после исследований механизмов процессорной обработки в слуховой системе человека. Модули такого типа уже используются в системах автоматического распознавания речи.
Возможная архитектура для всей системы показана на рисунке 5. "Паттерн бинауральной активности" служит входом для процессов группировки и сегментации сигналов, которые производятся обычно "методом проб и ошибок", и позволяют создать их символическое представление. Это символическое представление поступает в следующий модуль, своего рода "черный ящик" (модуль "черной доски", или "black-board module"), который анализируется различными "модулями-экспертами", содержащими свои блоки информации, то есть различные области знаний. Экспертные модули генерируют определенные "гипотезы" с целью достоверной интерпретации "паттерна бинауральной активности". Их задача состоит в идентификации и распознавании слухового пространства (слухового образа). Индивидуальные "гипотезы" оцениваются шаг за шагом, постепенно модифицируясь и окончательно принимаясь или отвергаясь. Каждый экспертный модуль действует на основе своих специфических "знаний" в конкретной области информации. Эти знания могут быть представлены в виде набора определенных, достаточно надежных и проверенных правил или определенных баз данных.
Типичные предварительные знания, которые используются при этом, - это знания о текущей позиции звукозаписывающей "головы", некоторые исходные сведения о слуховом пространстве (образе), "кроссмодальная" информация, т.е. информация от других органов чувств (тактильная, визуальная и др.), некоторые знания о природе звукового источника и т.д.
Вполне правдоподобное общее параметрическое описание слухового пространства может быть получено таким путем, но дальнейший процессорный анализ и его применение зависят от поставленных конкретных задач.
Итогом работы всей этой системы является выделение определенного комплекса параметров для воспринимаемого слухового пространства и их кодирование, что позволяет затем передать эти коды различным способом и их декодировать - то есть синтезировать виртуальное звуковое пространство.
Создание слуховой виртуальной реальности (AVR)
Инструментальный синтез слухового пространства в настоящее время даже более актуален, чем инструментальный анализ, особенно там, где слушатель может в интерактивном режиме взаимодействовать с синтезированным пространством. Только исходя из опыта работ, выполненных за последнее время в Институте коммуникационной акустики в Бохеме, можно назвать такие практические приложения, как дисплеи для пилотов гражданской авиации, виртуальные пространства для акустического дизайна и оценки помещений для музыкального и речевого исполнения, виртуальные звуковые образы для индивидуальных интерактивных кинофильмов, виртуальное взаимодействие в едином пространстве для телеконференций и др. Уже имеются виртуальные звуковые студии и комнаты прослушивания; системы для генерирования искусственных пространственных звуковых эффектов (например, так называемые spatializers) и пространственные виртуальные модели звуковых полей во всех видах транспортных средств: автомобилях, самолетах, поездах и т.п. Кроме вышеперечисленных, системы AVR могут найти широчайшее применение для сохранения культурного наследия, для тренировки полиции и пожарных, для реабилитационных медицинских целей (тренировки моторики), наконец, для научных целей (в психоакустике, когнитивной психологии и др.).
 |
|
Рис.6. Общая структурная схема синтеза – AVR
|
Общая архитектура компьютерных систем "слуховых генераторов виртуальной реальности" показана на рисунке 6. В современных системах создания виртуальных пространств уже используются встроенные многомодальные генераторы, учитывающие возможность моделирования визуального, тактильного и других пространств. Иными словами, пользователю будет предоставлена возможность воссоздать слуховые, зрительные, осязательные, обонятельные и др. ощущения, которые он мог бы испытывать, находясь в окружении реального мира. На схеме, показанной на рисунке 6, представлен "аудио-визуально-тактильный генератор виртуального пространства". В данном примере предполагается, что акустические сигналы воспроизводятся через стереотелефоны (хотя допустимо их воспроизведение и через громкоговорители с дополнительной процессорной обработкой).
Над этой технологией сейчас работают большие коллективы ученых, и когда она будет разработана, тогда бинауральная стереофония, как мне кажется, выйдет на лидирующие позиции. Многоканальные системы звуковоспроизведения, которые сейчас широко используются в различных областях (домашний театр, кинотеатр, ТВ, DVD), можно рассматривать как первый шаг к созданию виртуальной реальности, хотя в них отсутствуют такие важные признаки AVR, как интерактивность, многомодальность и др.
Система AVR, показанная на рисунке 6, содержит в качестве ядра специальный модуль, который получил название "world model", то есть модель виртуального мира. Этот модуль содержит описание всех объектов, которые существуют в виртуальном пространстве. Во внутренних слоях этого модуля перечисляются правила, которые регулируют взаимодействие объектов в виртуальном мире в соответствии с заданной спецификой применения общей модели. Затем центральный контролирующий слой этого модуля собирает реакцию субъектов, которые используют AVR-систему в интерактивном режиме, и дает команду общей системе выполнять соответствующие ответные действия. Другими словами, этот модуль "модель мира" и есть та часть общей системы AVR, которая содержит наиболее существенные знания и сохраняет их в форме базы данных и правил.
Как показано на рисунке 6, положение головы, рук, пальцев пользователя в системе непрерывно отслеживается монитором. Позиция головы отслеживается в первую очередь, так как воспроизведенные через стереотелефоны сигналы должны адаптироваться постоянно, чтобы субъект воспринимал пространственную перспективу с учетом движения головы. Виртуальной реальностью можно также управлять движениями рук и пальцев пользователя. Те компоненты системы, которые создают сигналы, передаваемые непосредственно пользователю (для слуховой модальности это стереотелефоны), называются "контроллеры".
Наиболее важным электронным контроллером является модуль "модель звукового поля". Этот модуль создает сеть бинауральных импульсных характеристик, основанных на геометрических характеристиках воссоздаваемого виртуального пространства, плюс характеристики поглощения всех стен и геометрических объектов в пространстве, плюс характеристики направленности источника звука и приемника. Характеристики приемника задаются в виде передаточных функций головы слушателя (HRTF). Вообще говоря, они должны измеряться индивидуально для каждого субъекта, чтобы получить наилучший эффект, но обычно используются усредненные значения из базы данных. Бинауральные импульсные характеристики пространства содержат всю информацию о создаваемом слуховом окружении; затем они "свертываются" с реальным или предварительно записанным сигналом, таким, как речь или музыка. Эти сигналы должны быть акустически "сухими" и не содержать априорной информации о помещении. Продукт процесса конволюции затем подается в стереотелефоны. Эта процедура воссоздания только звукового пространства получила название "аурализация" (см. "Звукорежиссер" 7/2000).
Во многих приложениях виртуальной реальности задача сводится к тому, чтобы пользователи субъективно ощущали свое присутствие внутри нее, то есть испытывали погружение в виртуальный мир. Особенно важно создать такое виртуальное окружающее пространство, чтобы субъекты действовали интуитивно так же, как они делали бы это в реальном окружении. Интерфейс "человек-система", который используется в системах виртуальной реальности, должен обеспечивать максимальное удобство для этого взаимодействия, например, в системах телеопераций, в компьютерных играх, диалоговых системах, дизайн-системах и т.д. Усилия разработчиков, направленные на воссоздание перцептуального (ощущаемого) присутствия внутри виртуального мира, зависят от области применения указанной системы и от особых требований пользователя. Например, создание модели погружения внутрь звукового поля внутри автомобиля, с точки зрения воссоздания соответствующих ощущений, менее трудная задача, чем создание виртуальной контрольной комнаты в студии звукозаписи для звукорежиссеров. В общем случае, виртуальное окружение должно казаться достаточно достоверным слушателю, чтобы обеспечить его погружение внутрь его.
Если речь идет о воссоздании реальных ощущений внутри виртуального пространства, то скорость процессорной обработки сигналов должна быть сопоставима со скоростью обработки в реальных сенсорных системах человека, например, для звуковых сигналов она должна быть порядка 50 мс. Скорость смены событий в виртуальном пространстве также должна быть достаточно быстрой, чтобы не было эффектов дрожания и мерцания: для умеренно движущихся объектов она должна составлять не менее 30 раз в секунду. Для быстро движущихся объектов необходимо при процессорной обработке учитывать сдвиги за счет эффектов Допплера. Вообще, чтобы создать достаточно быстро работающую модель для воссоздания виртуального пространства, способную вызывать ощущение реальности, необходимы детальные знания о механизмах работы всех сенсорных систем человека (слуховой, зрительной, тактильной и др.), так как в каждый момент времени необходимо принимать решения: какие признаки сигнала являются значимыми с точки зрения возникающих ощущений (и их поэтому надо обрабатывать с большой точностью), а какие менее значимы (и поэтому их можно вычислить позже или вообще опустить).
Современные речевые технологии уже используют некоторые компоненты, которые могут быть интегрированы в общие модели виртуальной реальности, например, системы для компьютерного синтеза и распознавания речи. С их использованием взаимодействие "человек-машина" может осуществляться с помощью голосовой связи, что уже может быть включено в системы AVR. Интересно отметить, что одной из сложных проблем является воссоздание собственного голоса пользователя в виртуальной реальности. Только недавно удалось решить эту проблему благодаря моделированию распространения голосового сигнала через воздушную и костную среды.
Воссоздание виртуальной реальности строится на основе передачи через пространство и время с помощью телекоммуникационных технологий некоторой группы формальных параметров, которыми слуховая, визуальная и др. системы кодируют реальное пространство в процессе его анализа. Уже созданы специальные машинные языки, которые позволяют выполнить декодировку этих параметров, и произвести смысловое (содержательное) распознавание полученной информации: слов, фраз, текстов. Некоторые из этих алгоритмов уже используются в MPEG-7.
С использованием параметрического кодирования становится возможным решение принципиально новых задач: пользователь, находящийся в любом месте, может "поместить" себя (по собственным ощущениям) в общую виртуальную комнату для участия в конференциях, выполнения некоторых совместных механических задач, а также войти в это пространство и осмотреть все предметы в нем (виртуальные музеи, виртуальный туризм и др.). Так как вход в виртуальное пространство может быть реализован через Интернет, предполагается существование множества самых разных приложений. Виртуальную реальность можно "наложить" на физическую реальность, чтобы помочь в решении ряда задач, например, в навигации или других направлениях. Виртуальная реальность может оказать нео-ценимую помощь в решении научных задач, поскольку позволяет без особых усилий моделировать различные условия эксперимента, например, в психоакустике, психологии, проектировании аудиоаппаратуры и ее оценке и т.д.
Таким образом, "коммуникационная акустика" имеет дело с теми аспектами акустики, которые относятся к информации, коммуникации и технологиям контроля. Современные системы, работающие в этих областях, часто имеют дело с анализом и синтезом слухового образа. Поэтому коммуникационная акустика занимается как акустическими, так и слуховыми проблемами, - это междисциплинарная наука.
Что касается компьютерного анализа "слухового образа" (CASA), то на сегодняшний день главная цель исследований в этой области - создание алгоритмов, которые анализируют реальное звуковое пространство, чтобы построить его параметрическое представление. Некоторые человеческие способности в анализе и распознавании уже могут быть скопированы и даже превзойдены с помощью компьютерных моделей его сенсорных (в частности слуховых) систем. Чтобы достичь этого в полном объеме, необходимо к аудиосигнальной процессорной обработке (то есть анализу физических параметров сигнала: частоте, интенсивности, времени и др.) добавить еще и символьную и смысловую процессорную обработку - смоделировать процессы выделения значимых признаков и их смыслового распознавания. В современных речевых технологиях эта линия ясно прослеживается.
Что касается синтеза слуховых образов (AVR), то становиться очевидным, что модели систем, генерирующие виртуальную реальность, становятся все более и более мультимодальными (многосенсорными) и основанными на ранее накопленных знаниях. В тесной связи со слуховой информацией начинает использоваться визуальная, мышечная и тактильная информация. Синтез параметров будет контролироваться в интерактивном режиме. В этом отношении речевые технологии сейчас играют ведущую роль, например, при построении диалоговых систем.
Очевидно, что наиболее развитые системы в информации, коммуникации и технологиях контроля становятся все более мультимодальными и основанными на априорных эмпирических знаниях, то есть системами, которые используют накопленные знания, анализируют содержание информации и взаимодействуют на уровне сознания. Коммуникационная акустика сейчас находится накануне очень интересных изменений, так как начинает иметь дело с мыслительными способностями человека, а ведь сам человек всегда был наиболее интересным объектом исследований. Однако современные звукотехники и акустики еще недостаточно подготовлены к тому, чтобы встретить и понять эти изменения.
В заключение, мне хотелось бы высказать следующие соображения: несомненно, что идеи, выдвинутые Блауертом, будут в ближайшие годы реализованы, ведь техника развивается очень быстро. Хотелось бы понять, как психика людей следующего поколения (надеюсь, что еще не нашего) справится с этим полным перемешиванием мира реального и мира виртуального, который будет по ощущениям практически не отличим от реального.
Как человек будет различать - где он живет? Время покажет…