| |
Слух и речь, часть 6. Связь акустических параметров с эмоциональной выразительностью речи и пения
Ирина Алдошина
Речевой сигнал предназначен прежде всего для передачи смысловой (то есть вербальной, словесной) информации, разработанные методы его субъективной и объективной оценки ориентированы в основном на определение именно этой функции, то есть разборчивости (8/2002). Однако звуковая речь передает слушателю очень значительную невербальную (неречевую) информацию. Термин "невербальная коммуникация", можно определить как систему неязыковых (несловесных) форм и средств передачи информации. Учитывая, что человек обладает не только слуховыми, но и другими каналами восприятия и передачи информации: :зрительными, двигательными (мимика, жесты), обонятельными и др., то существуют и различные виды невербальной информации: эмоциональная, эстетическая, личностная, социальная, медицинская и др.
Исследование различных видов и способов передачи невербальной информации имеет огромное значение для понимания процессов человеческого общения и общения в системе "человек-ЭВМ", для автоматического распознавания речи, определения личности по голосу. Наконец, это принципиально важная проблема для всех видов искусства, особенно создаваемого с помощью современных технических средств: кино, радио, звукозаписи, телевидения. Как известно, для зрителя важно не только то, "что" говорит диктор, но и то "как" он это делает: степень эмоциональной выразительности в его голосе, жестах, мимике и т.д. Именно поэтому проблемам невербальной коммуникации уделяется сейчас очень большое внимание в литературе (например, недавно опубликована книга проф. В.П. Морозова "Искусство и наука общения: невербальная коммуникация").
Невербальная коммуникация обладает целым рядом особенностей, принципиально отличающих ее от вербальной коммуникации. Основные из них следующие: реализация одновременно через разные органы чувств (слух, зрение, обоняние и др.); эволюционная "древность" по сравнению с вербальной речью; независимость от смысла речи (слова могут значить одно, а интонация голоса - другое); значительная непроизвольность и подсознательность; независимость от языковых барьеров; выбор особых акустических средств кодирования и др.
В данной статье будет рассмотрен один из видов невербальной коммуникации - передача эмоций в речи и пении, и связь ее с акустическими характеристиками. Действительно, воспринимая слухом речь или пение, мы получаем информацию как о смысле речи, так и об ее эмоциональном содержании из анализа акустических характеристик, а иногда только из одних акустических характеристик, например, при прослушивании звукозаписей или речи по телефону. Следовательно, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций важно не только для исполнителя, но принципиально важно для звукорежиссера, поскольку, управляя акустическими характеристиками, он может сделать речь или пение более эмоционально выразительными или наоборот.
Прежде всего было установлено, что слушатели правильно идентифицируют эмоции в речи и пении независимо от понимания языка, текста и национально-культурной среды (в Азии, Америке, Африке и др.). Как показали эксперименты, когда слушателей просили опознать эмоции в голосах актеров, в качестве примера был воспроизведен текст на незнакомом языке, прочитанный двадцатью тремя актерами с различными эмоциями (радость, ирония, печаль, страх и т.д.). Был получен достаточно высокий процент правильных оценок независимо от культурного уровня слушателей и их национальности. Это совпадает с проведенными ранее экспериментами, когда предъявлялись фотографии с различными выражениями лица актеров, при этом зрители достаточно точно идентифицировали различные эмоции по выражению лиц. Таким образом, способы выражения эмоций являются общечеловеческими, то есть можно пред-положить, что существует некий единый код.
Поскольку при речевом общении основной задачей является передача смыслового содержания, то эмоциональный аккомпанемент является как бы вторым планом, воспринимаемым нашим подсознанием. Это связано с тем, что невербальные способы общения имеют более древнее эволюционное происхождение. При пении (вокальной речи) акустический сигнал несет больше эмоциональной информации, чем обычная речь, для этого он и создается. Изучение вокальной речи, выполненное в работах многих исследователей (Морозова, Сандберга, Титце и др.), позволило получить дополнительную информацию о количественной связи выражения эмоций в различных акустических характеристиках сигнала, выделить наиболее характерные признаки для каждого вида эмоций, оценить восприятие слушателями этих признаков, установить физиологические механизмы создания этих акустических средств и т.д.
Общие результаты, полученные в процессе изучения речи и пения, показывают, что основными акустическими средствами передачи эмоциональной информации являются:
- тембр голоса, то есть динамический спектр звука;
- изменение высоты голоса во времени, т.е. мелодика речи;
- энергетические характеристики звукового сигнала и их изменение во времени;
- темпо-ритмические особенности речи;
- индивидуальные особенности произношения.
Общеизвестно, что при сильном стрессе (горе, ярости, страхе и др.) меняется тембр голоса (вплоть до его полного пропадания), ритм, темп и интонация речи.
Измерения основных акустических характеристик речевого сигнала при выражении различных эмоций с помощью анализа спектрограмм, записанных в основном при чтении текстов актерами с различным эмоциональным содержанием, позволило выявить следующие основные закономерности:
 |
Рис.1. Cдвиг частоты фонации при разных эмоциональных состояниях(sorrow-печаль, neutral-нейтраль, fear-страх, anger-гнев)
|
1. Важнейшим средством выражения эмоциональной информации является динамика изменения основной частоты фонации. В европейских языках она не носит смысло-различительного характера, смысл слова от частоты фонации не зависит, одно и тоже слово, произнесенное в низком и высоком регистре, сохраняет свой смысл. Однако в ряде языков, например, в китайском, высота имеет смысло-различительную функцию. При этом изменения частоты фонации имеют принципиальное значение для выражения эмоций: результаты измерений сдвигов частоты фонации при разных видах эмоций для речи трех актеров, произносивших тексты с разным эмоциональным содержанием, показаны на рисунке 1. Общие выводы из измерений могут быть сделаны следующие: среднее значение частоты фонации поднимается в радости и понижается в печали. Величина среднего значения частоты фонации для печали ниже всего, затем следуют по мере подъема средней частоты нейтральная эмоция, страх, ярость. Например, как следует из показанных результатов, если частота фонации при нейтральной речи была 120 Гц, то при печали она снижается до 100 Гц, при ярости поднимается до 200 Гц. Кроме того, меняется и характер изменения частоты фонации - при нейтральной речи изменение частоты во время фразы плавное, при ярости имеются высокие отдельные пики, при страхе - быстрые всплески и спады, резкие контрасты. Существенно меняется динамика изменения частоты фонации: при печали происходит ее плавное уменьшение, при страхе резкие контрасты, быстрые увеличения и спады, при ярости появляются резкие пики в изменении частоты. Вариации в изменении частоты наименьшие для печали, и наибольшие для страха (рисунок 1).
2. Темпо-ритмические характеристики речи также существенно изменяются: длина предложения удлиняется при печали и горе, при этом изменяется длина произнесения отдельных (даже согласных) звуков. Число звуков в секунду: 4,3 для нейтральной речи, 4,2 - для ярости, 3,8 - для страха, 1,75…1,9 - для печали. Нужно отметить, что изменение среднего темпа речи связано и с возрастными изменениями: в группе 17…25 лет - 3,5 слога в секунду, в группе 38…45 лет - 3,44, в группе старше 75 лет - 2,25 слога. Таким образом, этот параметр несет информацию не только об эмоциональном состоянии, но и о возрасте говорящего.
3. Нарушается стабильность речи, сильные флюктуации основной частоты фонации не сохраняют четкой связи с обертоновым содержанием.
 |
|
Рис.2. Долговременный статистический спектр для речи
с разным эмоциональным содержанием
|
4. Долговременный среднестатистический спектр, содержащий информацию о количестве обертонов в спектре, изменяется. На рисунке 2 показано, что наибольшее число обертонов в спектре имеется в ярости и наименьшее в печали (голос слаб и надтреснут). Кроме того, при ярости первая форманта имеет наивысшее значение. По-видимому, ярость связана с более высоким подглоточным давлением и соответственно с более высокой активностью мышц сведения, при этом связки смыкаются более быстро в каждом цикле и количество обертонов возрастает. При печали происходит обратный процесс.
Следует отметить, что вышеуказанные результаты были получены с помощью актеров, читавших тексты с разным эмоциональным содержанием, однако способы выражения ими эмоций могут несколько отличаться от реальных.
 |
|
Рис.3. Сонограмма речи диктора до и после взрыва
|
В книге Сандберга "Наука певческого голоса" приведен пример реальной жизненной ситуации: журналист вел репортаж из аэропорта, внезапно на его глазах взорвался самолет, весь ужас этой катастрофы с многочисленными жертвами немедленно отразился в акустических характеристиках его голоса. Сонограммы записи его голоса до и сразу после катастрофы показаны на рисунке 3. На них видно пропадание верхних обертонов, появление иррегулярностей в изменении частоты фонации и т.д. Таким образом, общий характер изменений совпадает.
В итоге были получены следующие результаты по изменению акустических характеристик при различных видах эмоций в речи:
- "гнев" - частота фонации почти на пол-октавы выше, чем при нейтральной речи, некоторые звуки сильно подчеркнуты с резким увеличением частоты фонации и иногда первой форманты, артикуляция очень отчетливая.
- "страх" - частота фонации ниже по сравнению с "гневом", содержит резкие пики и иррегулярности, артикуляция более определенная, чем при "нейтрали".
- "печаль" - малые вариации в частоте фонации, артикуляция медленная, гласные, согласные и паузы долгие, иррегулярности и охриплости в голосе. Частота фонации монотонно спадает в конце фразы, иногда присутствует тремор.
- "нейтраль" - темп речи быстрее, чем в вышеуказанных случаях, согласные иногда нечеткие, но гласные выделены четко.
Особенностью кодирования эмоциональной информации в речи является взаимодействие различных акустических средств, то есть не только изменение спектра (тембра) голоса, но и характерное для каждого вида эмоций изменение высоты, интенсивности, темпо-ритмических характеристик речи. Например, эмоции печали характеризуются замедлением темпа, падением силы и звонкости голоса, замедленными процессами нарастания и спада звуков. Эти особенности надо учитывать дикторам, актерам и звукорежиссерам, потому что несоответствие между выражением лица и параметрами речи очень четко улавливается зрителем как фальшь (например, скорбное выражение лица и очень бодрый, высокий голос).
Вокальное искусство предназначено, прежде всего, для передачи эмоционально-эстетической информации, и поэтому в вокальной речи связь акустических характеристик с эмоциональной выразительностью оказывается более значительной. Все имеющиеся в вокальной речи (пении) дополнительные акустические средства - большая сила голоса, увеличение диапазона воспроизводимых частот, особый спектральный состав с высокой певческой формантой, применение вибрато и тремоло и др. - используются для передачи различных эмоций. Исследования, выполненные проф. В.П. Морозовым в Ленинградской Консерватории, а затем в Московской Консерватории, показали еще более существенную разницу в акустических параметрах при выражении различных эмоций в пении, чем в обычной речи.
Перед началом анализа объективных акустических характеристик певцам было предложено исполнить разные певческие фразы с разными эмоциональными акцентами. Записи были представлены разным категориям слушателей, с целью проверки правильности опознания ими выбранных эмоций. Способность распознания различных эмоций получила название эмоциональный слух. При восприятии речи он определяет способность определения эмоционального состояния говорящего по звуку его голоса, а при восприятии пения и музыки - способность к адекватному восприятию тонких музыкальных оттенков.
 |
Рис.4. Процент узнаваемости эмоций (1,2-младшие школьники,
3-взрослые, 4-школьники старшие, 5-учащиеся музыкальной школы, 6-вокалисты, 7-студенты Консерватории)
|
Результаты показаны на рисунке 4, из них следует, что чем выше возраст и уровень музыкальной культуры у слушателя, тем выше вероятность правильных ответов и меньше ширина разброса (у студентов вокального факультета Консерватории уровень правильных ответов самый высокий). Степень узнаваемости разных эмоций разная: страх - 86%, гнев - 79%, горе - 68%, безразличие - 64%, радость - 42%. Таким образом, отрицательные эмоции распознаются лучше, то есть они лучше закодированы акустическими средствами - по-видимому, их распознавание эволюционно-биологически важнее для жизни, поскольку это сигналы об угрозе и опасности.
У среднего слушателя уровень эмоционального слуха составляет 60…70 баллов (т.н. процентов узнаваемости). Однако встречаются люди с очень низким уровнем эмоционального слуха - 10…20 баллов, что в значительной степени зависит от воспитания, а также люди с очень чувствительным слухом, 90…95 баллов, - в основном среди музыкантов, вокалистов и т.д. Как правило, более высоким уровнем эмоционального слуха (73,4%) и меньшей вариабельностью (7,2%) обладают люди с художественным типом мышления. У людей с рациональным типом мышления показатели по восприятию эмоций ниже, в среднем 66,1% (например, восприятие гнева снижается до 54%), и выше разброс в оценках (вариабельность 13,6%). Такие различия связаны с преобладанием активности разных полушарий мозга у двух типов личностей. Как показали современные психоакустические исследования, слуховые центры восприятия смыслового содержания речи находятся в коре левого "логического" полушария (зона Вернике), а центры восприятия эмоций в коре правого "образного" полушария.
 |
Рис.5. Мелодический рисунок вокальной речи с разным эмоциональным содержанием
|
 |
Рис.6. Изменение параметров вибрато и тремоло
|
Интересно отметить, что проведенные в последние годы исследования среди молодежи и школьников показали значительное снижение уровня эмоционального слуха к восприятию эмоций гнева и печали, что, как считают психологи, связано с современной массовой культурой, где культивируется грубость и насилие. Эта эмоциональная глухота вызывает большую тревогу у специалистов.
Измерения объективных характеристик в певческом голосе при выражении различных эмоций показали следующие результаты:
1. Анализ мелодического рисунка фразы, спетой с разными эмоциями, (осциллограмма представлена на рисунке 5), показывает, что при "радости" наблюдается интонационный подъем звука, особенно за счет высокочастотных составляющих; при "безразличии" мелодия стремится к "уплощению", при "гневе" появляются резкие звуковысотные скачки, при "страхе" мелодический рисунок выглядит наименее устойчивым, и точность интонирования уменьшается. Как уже видно из этих результатов, эмоциональное содержание при пении оказывает чрезвычайно существенное влияние на динамические параметры акустического сигнала.
2. Изменение характеристик "вибрато" и "тремоло" в певческом голосе, показанное на рисунке 6, позволяет установить: амплитуда модулирующего сигнала при "безразличии" уменьшается, при "радости" и "гневе" амплитуды возрастают, при "страхе" нарушается периодичность вибрато. Наименьшая модулирующая частота вибрато для "горя" равна 5…6 Гц, при "радости" и "гневе" она немного увеличивается до 6…6,5 Гц, при "страхе" может возрасти до 8 Гц, что создает эффект дрожания голоса. Таким образом, частота и глубина амплитудной и частотной модуляций в голосе также служат средством выражения эмоций.
3. Интегральные спектральные характеристики вокальной речи, т.е. спектрограммы, снятые и усредненные для фраз, пропетых с разным эмоциональным содержанием, показанные на рисунке 7, позволяют выявить следующие изменение распределения энергии в спектре голоса и сдвиг певческих формант:
| |
 |
Рис.7. Интегральные характеристики вокальной речи
|
- при "радости" частотный максимум соответствующей высокой певческой форманте сдвигается в более высокую частотную область, на слух это воспринимается как легкое светлое звучание;
- при "гневе" частота максимума высокой певческой форманты сдвигается вниз, это, по-видимому, определяет "потемнение" голоса. При "гневе" высокая занимает наиболее низкую частотную область, увеличивается общая интенсивность, в том числе высоких частот, увеличивается уровень низкой певческой форманты, звук становиться плотным, насыщенным "металлом".
- при "страхе" и "горе" интенсивность высоких частот падает, и выраженность высокой певческой форманты уменьшается; при крайнем выражении страха спектрограмма теряет свои вокальные черты и приближается по свойствам к речевому сигналу - теряется блеск, звонкость, голос становится глухой, сдавленный.
 |
Рис.8. Графики зависимости основных акустических параметров (уровня звукового давления, времени атаки и спада, длительности слогов, длительности пауз) от вида эмоций J-радость, S-печаль, N-нейтраль, A-гнев, F-страх
|
4. Обработка статистических данных позволила построить средние зависимости основных акустических параметров от различных типов эмоционального состояния (рисунок 8). Как видно из представленных результатов, уровень звукового давления достигает максимальных значений при гневе (до 100 дБ), наименьших при страхе (92 дБ). Измерения атаки и спада звуков показывают, что при "горе" время атаки и спада удлиняется, и достигают значений 626 мс и 641 мс, при "гневе" происходит быстрое нарастание и спад (200 мс); существенно изменяется темп, увеличивается длительность слогов при "горе" до 1240 мс (при "страхе" только 540 мс), возрастает длительность пауз (при "страхе" на 12,6%, голос часто прерывается).
Таким образом, эмоции в вокальной речи также кодируются сразу несколькими акустическими параметрами. При этом был получен интересный результат - для выражения "страха", "гнева" и "горя" используется наибольшее число информативных признаков, для выражения "радости" наименьшее, поэтому первые виды эмоций лучше различаются на слух. Задача передать свой гнев, страх, горе окружающим, оказалось, имеет больше акустических возможностей для решения, чем радость.
Для подтверждения полученных результатов был проделан эксперимент: слушателям предъявлялись синтезированные амплитудно-модулированные сигналы, в которые были введены те же временные и динамические характеристики, что были обнаружены в певческой фразе, слушатели (правда, с меньшим процентом узнаваемости), но опознали в них те же эмоции, что подтверждает правильность выделенных признаков.
 |
|
Рис.9. а) спектр для классического пения; б) для рок-пения
|
Выполненные за последние годы под руководством проф. В.П. Морозова исследования показали также, что такой параметр, как негармоничность спектра, может служить характерным признаком эмоционального содержания пения: для пения с преобладанием положительных эмоций (преимущественно певцов академического жанра) спектр голоса сохранял гармоничность обертонов (отклонения не превышали 0,1…3%); для пения с отрицательными эмоциями (гнев, страх и др), например, у рок-певцов отклонения от гармоничности достигали 4…9% (рисунок 9).
Таким образом, практически любой из акустических параметров и их сочетания (интенсивность, частота, структура спектра, параметры вибрато и тремоло, переходные характеристики и др.) вокального звука могут использоваться для передачи эмоциональной информации.
Для того, чтобы понять, какими средствами в процессе фонации и артикуляции достигаются изменения акустических параметров при различных эмоциональных состояниях, был поставлен комплекс исследований, где изучалось (например, с помощью рентгеновской томографии) изменение положения и формы голосовых связок, положение гортани, надгортанника и т.д. для различных звуков речи и пения с разным эмоциональным содержанием - так называемые "подсознательные экспрессивные жесты".
Аналогичные работы были выполнены и для анализа изменения позиции артикуляционных органов: языка, губ, формы и жесткости стенок ротовой, носовой полостей и глотки. Изучение позиции артикуляционных органов также показали значительные изменения при эмоциональном произношении звуков вокальной и обычной речи. Гласные при эмоциональном произношении особенно сильно отличались по позиции артикуляционных органов в максимально допустимых пределах - при сохранении смысла. Например, угроза характеризуется напряжением языка в его крайней артикуляционной позиции. Печаль отражается в прогрессивном расслаблении языка и мягкого неба, и уменьшении скорости движения органов артикуляции и т.д. Таким образом, отклонение позиции артикуляционных органов от их положения при нейтральном произношении несет информацию о состоянии эмоций говорящего.
В результате исследований было высказано предположение о тесной корреляции между видимыми движениями тела при эмоциях, и невидимыми движениями артикуляционных органов при эмоциональных состояниях (например, движением гортанных хрящей, голосовых связок и др., которые участвуют в регуляции высоты тона). Похоже, что эмоциональные движения тела "транслируются" в акустические характеристики при производстве звуков. Поэтому есть корреляция эмоций в голосе с выражением лица говорящего - можно только по голосу представить выражение лица говорящего, например, при разговоре по телефону.
Можно связать особенности акустических средств выражения эмоций с особенностями физиологического состояния организма человека, испытывающего эти эмоции.
Каждая эмоция имеет свой образец (pattern) движения, который отражается в движении всего тела, мимике лица и в том числе в движении артикуляционных органов и голосового источника. Например, при депрессии и печали все мускулы пассивны, движения замедлены и т.д., при этом снижается темп речи, понижается фундаментальная частота, снижается активность дыхательных мускулов, поэтому снижается подглоточное давление, отсюда низкое число обертонов. Наоборот, при гневе уровень частоты фонации высокий, звук от голосового источника богат обертонами, темп быстрый, это отражает большую активность всех видов мускулов, участвующих в голосообразовании. Наконец, характерное для страха сильное увеличение пауз между словами, по-видимому, обусловлено в эволюционном аспекте необходимостью в состоянии страха не только издавать какие-либо сигналы, но и воспринимать сигналы от возможного объекта, вызывающего страх (состояние настороженности и прислушивания).
Наличие внутренней закономерной связи между характером звука голоса, выражающего ту или иную эмоцию, и физиологическим состоянием организма, испытывающего это эмоциональное состояние, по-видимому, является физиологической основой всеобщей понятности и своего рода универсальности основных средств выражения эмоций голосом (при речи и пении) - универсальным всеобщим кодом.
Таким образом, изучение вопроса, какими именно вариациями акустических параметров выражаются определенные эмоции в голосе, и в каком процентном соотношении они должны быть изменены, является чрезвычайно важной информацией для решения проблем распознавания и создания эмоциональной речи и пения - как для компьютера, так и для звукорежиссера.
|