Журнал:

Симейство систем цифрового сжатия DIRAC расширяется

Чрезвычайно успешный стандарт цифрового сжатия MPEG-2 разработан для решения задач вещательного телевидения. Правила его лицензирования просты: чтобы начать конструирование кодека, достаточно произвести однократную оплату аппаратного или программного обеспечения. Хотя MPEG-2 до сих пор является наиболее широко применяемой системой сжатия, в последнее время появились новые, более эффективные системы. Ситуация в области распространения медиаконтента в сетях Интернета или в IP-телевидении намного запутаннее, поскольку операционные системы и кодеки сжатия могут быть защищены патентами. Иногда условия лицензирования сформулированы нечетко, а в худшем случае требуют транзакций.

Би-би-си уже платит очень большие патентные пошлины за относительно небольшое (в сравнении с объемом вещательных программ) число лицензий по потоковому вещанию одновременных потоков. При увеличении числа передаваемых потоков от нескольких десятков в настоящее время до нескольких миллионов в будущем расходы возрастут лавинообразно. Эта проблема характерна для Великобритании, поскольку здесь покупатели ТВ-лицензий уже оплачивают доставку и не намерены платить снова. Применительно к некоторым лицензиям по сжатию, требующим транзакций, это означало бы для Би-би-си необходимость покрывать возрастающие расходы. Стандарт MPEG-4 учитывает лицензионные пошлины, однако источником их оплаты все же является бюджет корпорации.

В настоящее время полезная часть вещаемого потока уже достигла стабильного значения 10 Гбит/с, однако скорость будет быстро увеличиваться, поскольку все больше людей скачивают или просматривают контент на вебсайте Би-би-си. Другое осложнение в лицензировании различных кодеков для трех наиболее распространенных операционных систем обусловлено тем, что не все медиаплееры функционируют на платформе Windows; более распространены платформы Linux и Mac OS.

Открытые стандарты, такие как недавно появившийся AVC/H.264, частично решающие проблему, — предоставляют мультиплатфорные технологии, предусматривающие взыскание пошлин с патентного пула. Однако полное устранение лицензионных пошлин во всех применениях возможно только в случае перехода на истинно открытую технологию (совокупность открытого стандарта и бесплатного лицензирования). Варианты реализации на основе ПО для открытых источников позволяют достичь большего — полной ликвидации расходов на программные кодеры и декодеры.

Подобные опасения вынудили голливудские студии начать поиски кодека на основе открытой технологии для цифрового кинематографа, чтобы не платить лицензионную пошлину каждый раз, когда зритель садится в кресло кинотеатра. Когда такой кодер в требуемое время не находится, они останавливаются на стандарте JPEG 2000 при условии бесплатного лицензирования.

Что это все означает для Би-би-си? Правительство Великобритании поручило корпорации сделать значительную часть ее архивов доступной для широкой публики во всем мире. Все средства потоковой доставки материала должны также представлять собой открытые платформы, способные обеспечить в будущем открытый доступ, как это требуется в свежем отчете Графа [1]. Принципиально важно соблюдать нейтральность при выборе платформы, будь то ПК с Windows, Linux или Macintosh, поскольку Би-би-си, как организация общего пользования, не должна оказывать предпочтение какой-либо одной системе. Би-би-си могла бы начать поиски готовой системы цифрового сжатия, однако все запатентованные технологии компрессии, вообще говоря, в широком смысле подобны, причем некоторые из них могут оказаться непригодными для подхода на базе открытой платформы.

Би-би-си имеет исследовательский центр мирового уровня, расположенный южнее Лондона в Кингсвуд Уоррен. Многие специалисты центра обладают глубокими знаниями по технологии сжатия благодаря участию в работе международных комитетов, разработавших семейство стандартов MPEG. Корпорация пошла по пути создания собственного кодека сжатия Dirac на основе открытой технологии с использованием wavelet-функций. На web-сайте Sourceforge размещены два варианта реализации ПО для открытых источников: Dirac (эталонный кодек) [2] и библиотеки в формате ANSI C (представляющие предельно оптимизированный бытовой вариант Dirac), разработанные в рамках проекта Schredinger [3].

Рис. 1. Пол Дирак

Первоначально Dirac был создан как кодек с длинными GOP (см. Глоссарий), предназначенный для распределения вещательного или Интернет-контента. Его эффективность не отличалась от кодека AVC/H.264 или даже превосходила его по эффективности. Однако в процессе работы возобладала идея создать очень гибкую масштабируемую систему сжатия, пригодную не только для задач распределения, но и для производства, обработки и архивного хранения контента. В такой системе должны использоваться только I-псевдокадры и профили с длинными GOP, обеспечивающими разрешение от 2К/ТВЧ до QSIF (см. Глоссарий). Кроме того, эффективный способ формирования уровней позволяет работать с разрешением 4К посредством дополнения базового уровня 2К/ТВЧ «улучшающим» уровнем.

Кодек Dirac

Этот кодек назван в честь знаменитого британского математика и физика Пола Дирака (1902…1984) швейцарского происхождения.

Кодек поддерживает как бытовой (Dirac), так и профессиональный профиль (Dirac Pro). Его уникальность обусловлена применением wavelet-функций и архитектуры на базе длинных GOP. Система с компенсацией движения отличается применением перекрывающихся блоков, позволяющих отказаться от фильтров подавления блочного шума. В других кодеках с компенсацией движения такие фильтры применяются, что приводит к значительному снижению эффективности и ограничению скорости потока.

Кодек Dirac Pro

Работа над кодеком только началась. Его параметры оптимизированы для достижения высоких уровней качества и разрешения при записи и обработке материала. В этих вариантах применения абсолютное качество сжатия менее важно, чем гибкость (включая возможность работать через агентов-посредников), малые скрытые издержки и простота.

В системах обработки Dirac Pro сможет работать с разрешением до 4К, что позволит реализовать технологические схемы с применением высококачественных агентов-посредников. В этом случае базовый уровень кодека должен дополняться «улучшающим» уровнем.

Типичные приложения: обратимое или визуально обратимое сжатие для архивов и умеренное сжатие для повторного использования контента в существующей аппаратуре, например передача сигналов стандарта 1080p/50 по 1080i/25-каналу.

Применительно к существующим линиям передачи сигнала телевидения стандартной четкости (ТСЧ) поток 1,5 Гбит/с, передаваемый через интерфейс HD-SDI, можно сжать до значения 270 Мбит/с и передать его по линии с интерфейсом SDI или SDTI (см. Глоссарий). Это позволит использовать ТСЧ-инфраструктуры для маршрутизции ТВЧ-сигналов. Кроме того, ТВЧ-сигналы, транспортируемые по линиям с интерфейсом HD-SDI, можно сжать, чтобы сделать их пригодными для передачи по сети Gigabit Ethernet (со скоростью до 600 Мбит/с). В этом случае для работы с ТВЧ-данными можно применить дешевые сетевые инфраструктуры. При таких коэффициентах сжатия кодек Dirac Pro вносит минимальные искажения изображения.

Используя дополнительные инструменты MXF (Material Exchange Format — формат обмена медиаматериалами) или AAF (Advanced Authoring Format — улучшенный формат авторского производства), на основе одного простого ядра можно сконструировать очень гибкие системы весьма высокого качества.

Кодек Dirac Pro обладает следующими характеристиками, требуемыми профессиональными пользователями:

  • только внутрикадровое сжатие;
  • разрядность квантования 10 бит, цветовой формат 4:2:2;
  • субдискретизация отсутствует;
  • обратимое/визуально обратимое сжатие;
  • небольшая задержка цикла кодирования-декодирования;
  • устойчивость к многократным циклам;
  • простота транспортировки сигналов MPEG-2 или сигналов для SDTI (скорость потока меньше 270 Мбит/с);
  • простота декодировании (программное декодирование);
  • открытый стандарт/множество поставщиков;
  • поддержка ряда форматов ТВЧ-изображения и частот кадров.

Разработчики Dirac Pro добивались простоты, эффективности и быстродействия, имея в виду высококачественные приложения с небольшим коэффициентом сжатия. Большое число метаданных способствует гибкости кодека. В сочетании с MXF-технологией Dirac Pro становится очень мощным инструментом на базе открытой технологии.

ПО кода источника Dirac получило лицензию как Mozilla Public License, Version 1.1 (см. Глоссарий). Текстовая версия этой лицензии размещена на вебсайте [4]. Дополнительная информация содержится в статьях WHP 117 и WHP 124 Исследовательского центра Би-би-си, размещенных на вебсайте Dirac [5].

Кодек VC2 (SMPTE)

Версия кодека Dirac Pro, имеющая название Mezzanine Compression, была направлена в SMPTE для стандартизации как VC2 Codec. Для транспортировки сигналов стандарта 1080р/50 или 1080р/59,94 обычно применяют две линии Dual HD 1,5 Гбит/с или одну линию 3 Гбит/с. После кодера сжатия эти сигналы, включающие звуковые данные, метаданные и видимое изображение контроля достоверности, можно передавать по одной линии 1,5 Гбит/с. Аппаратный вариант кодека Dirac Mezzanine Compression создала фирма Numedia Technology [6] — один из партнеров Би-би-си по реализации проектов.

Особенности

Dirac — это чрезвычайно универсальная система сжатия, спроектированная как гибкое семейство средств, способных действовать в режимах внутрикадровой или межкадровой компрессии. Кодек способен сжимать файлы не только медиаматериалов в высоком разрешении (в режимах обратимого и визуально обратимого сжатия), но и файлы, предназначенные для распределения, которые сжимаются с использованием длинных GOP. При этом достигается высокая эффективность компрессии, сравнимая с эффективностью стандарта AVC/H.264, но с более простым кодированием и без лицензионных расходов.

Кодек поддерживает внушительное множество форматов либо непосредственно, либо благодаря метаданным.

В частности, обеспечивается:

  • прямая поддержка ряда форматов изображения от 4К (4096x3112 отсчетов) до QCIF (176x144 отсчетов);
  • прямая поддержка ряда цветовых форматов, таких как 4:4:4/4:2:2/4:2:0;
  • прямая поддержка ряда разрядностей квантования — 8…16 бит;
  • прямая поддержка чересстрочного формата с помощью метаданных;
  • прямая поддержка ряда частот кадров — 23,97…60 Гц;
  • возможность задания форматов пикселов;
  • задаваемая «свободная зона» во входных данных, содержащихся в более объемных контейнерах;
  • задаваемые диапазоны уровней сигналов и пьедесталов;
  • ряд цветовых пространств с метаданными, позволяющими описать: основные цвета; цветовые матрицы; функции передачи уровней;
  • 32-разрядная нумерация кадров (файл длительностью более двух лет при частоте кадров 60 Гц) как для только I-псевдокадров, так и для длинных GOP;
  • выбор wavelet-фильтра из набора (включая фильтры, оптимизированные для понижающего преобразования стандартов);
  • задаваемое число ступеней wavelet — разложения.

Эталонный код доступен на сайте разработчиков [5].

Варианты применения

Кодек рассчитан на следующие приложения:

  • распространение клипов;
  • потоковое вещание видеоконтента в реальном времене;
  • pod-вещание (см. Глоссарий);
  • креативные архивы (см. Глоссарий);
  • прямой файлообмен;
  • ТВЧ с возможностью параллельного ТСЧ-вещания;
  • более эффективное уплотнение канала;
  • монтаж и обработка на компьютерных рабочих станциях;
  • производство новостей;
  • архивное хранение;
  • персональная видеозапись (PVR);
  • многоуровневое преобразование: из 3 Гбит/с в 1,5 Гбит/с; из 1,5 Гбит/с в 270 Мбит/с и т.д.

Подробности технологии

Кодек Dirac

Кодек содержит небольшое число базовых инструментов, отобранных по критерию субъективного качества. Хотя некоторые методы, выбранные Би-би-си, являются новыми с точки зрения распространенных систем видеосжатия, они базируются на давно известных принципах. Корпорации не известны факты нарушения патентных прав какой-либо третьей стороны.

Архитектура

Dirac — это обычный гибридный видеокодек с компенсацией движения, соответствующий стандартам MPEG (рис. 2). Движение изображения отслеживается, а полученная информация о движении используется для формирования предсказания последующего кадра, которое квантуется и подвергается статистическому кодированию. Термин «гибридный» отражает тот факт, что используются как преобразование, так и компенсация движения, благодаря которой устраняется временная избыточность. Преобразование призвано устранить пространственную избыточность. Если в большинстве кодеков применяется блочное преобразование, такое как ДКП (дискретное косинусное преобразование), то в Dirac реализовано wavelet-преобразование. Статистическое кодирование обеспечивает эффективную упаковку битов в цифровой поток. В кодеке Dirac применена более гибкая и эффективная разновидность статистического кодирования — так называемое арифметическое кодирование. В других кодеках используются обычные коды переменной длины Хаффмана.

Рис. 2. Архитектура кодера (декодер выполняет обратные операции)

Кодек Dirac Pro/VC2

В этом кодеке обычно используется режим только I-псевдокадров, что позволяет обойтись без компенсации движения, а также применить упрощенное статистическое кодирование, пригодное для декодирования в реальном времени при очень высокой скорости потока. Кодек имеет следующие особенности:

  • двухуровневое wavelet-преобразование Хаарa (Haar wavelet transform);
  • коэффициент сжатия — 2,5:1;
  • полная задержка цикла — 8 строк;
  • размер блока — 4x16 отсчетов;
  • экспоненциальный код переменной длины Голомба со знаковым битом;
  • доступен «эталонный код» [7].
  • последовательность операций базового процесса в кодеке, который встраивается в субструктуру, обрабатывающую звуковые данные и метаданные с задержкой менее 6 строчных периодов. Совокупность видеоданных, звуковых данных и метаданных упаковывается в поток стандарта SMPTE 292. Новым является использование двух старших битов полезной части сжатого потока для представления видимого изображения. Рис. 3 иллюстрирует принцип упаковки.
  • Пара (кодер/декодер) портативного кодека Dirac Mezzanine Codec демонстрировалась в центре HPA Technical Retreat (Rancho Mirage, Калифорния, США) [8].
Рис. 3. Упаковка данных в кодеке Dirac Pro/VC2

Литература

1. http://news.bbc.co.uk/1/hi/entertainment/3866355.stm

2. http://dirac.sourceforge.net

3. http://schrodinger.sourceforge.net

4. http://dirac.sourceforge.net/licenses.html

5. http://dirac.sourceforge.net

6. www.numediatechnology.com

7. http://dirac.cvs.sourceforge.net/dirac/diracpro

8. http://www.hpaonline.com/mc/page.do

Глоссарий

I-picture I-псевдокадр: псевдокадр, формируемый методом внутрикадрового кодирования. Псевдокадр не является осмысленным кадром изображения.

GOP (Group of Pictures): группа псевдокадров, ГПК: начинается с I-псевдокадра и заканчивается непосредственно перед следующим I-псевдокадром.

QSIF (Quarter Common Intermediate Format): четверной единый промежуточный формат — видеоконференционный формат с разрешением 176x144 отсчетов.

SDTI (Serial Digital Transfer Interface): последовательный цифровой интерфейс переноса видеоданных. Позволяет передавать сжатые видеоданные с четырехкратной скоростью (Panasonic).

MPL (Mozilla Public License): лицензия по открытому источнику и бесплатному программному обеспечению, выдаваемая организацией Mozilla Foundation.

Podcast(ing): Pod-вещание, распределение медиафайлов через Интернет для воспроизведения мобильными устройствами и персональными компьютерами.

Creative Archive: креативный архив, архивы участников группы Creative Archive Licence Group (Би-би-си, Британский киноинститут, Канал 4 и Открытый Университет), архивный контент (движущиеся изображения, звуковые материалы и неподвижные изображения) которых доступен для скачивания при наличии одной лицензии, рассчитанной на клиентов совместного пользования.

Замечания и предложения по работе сервера направляйте: web.master at 625-net.ru.

© 1996—2009 «Издательство 625». Все права защищены.

e-mail: magazine at 625-net.ru, тел./факс: (495) 691-77-24, 695-95-88, схема проезда.

Свидетельство о регистрации средства массовой информации Эл № 77-2794.