Ноу Інти, лекція, стандарт mpeg-4,7,21

Анотація: Об'єктні підходи і опис сцени. Формування аудіо-візуальних сцен MPEG-4. Опис і синхронізація потоків даних для медійних об'єктів. Профайли. Демультиплексування, синхронізація і опис потоків даних, мова опису визначень MPEG-7 (DDL). Альфа-маски.

  • цифрове телебачення ;
  • інтерактивні графічні додатки (synthetic content);
  • інтерактивне мультимедіа World Wide Web.

6.1. Стандарт MPEG-4

Стандарт MPEG-4 надає технології для потреб розробників, сервіс-провайдерів і кінцевих користувачів.

  1. представляє блоки звуковий, візуальної та аудіо-візуальної інформації, звані "медійними об'єктами". Ці медійні об'єкти можуть бути природного або штучного походження; тобто вони можуть бути записані за допомогою камери або мікрофона, а можуть бути і сформовані у вигляді ЕОМ;
  2. описує композицію цих об'єктів при створенні складових медійних об'єктів, які утворюють аудіо-візуальні сцени;
  3. визначає мультиплексування і синхронізацію даних, асоційованих з медійними об'єктами, так, щоб вони могли бути передані через мережеві канали, забезпечуючи QoS, прийнятне для природи специфічних медійних об'єктів;
  4. визначає взаємодію з аудіо-візуальної сценою, сформованої на приймаючій стороні.

Кодоване подання медійних об'єктів

Аудіо-візуальні сцени MPEG-4 формуються з декількох медійних об'єктів, організованих ієрархічно. На периферії ієрархії знаходяться примітивні медійні об'єкти, такі як:

MPEG-4 стандартизує число таких примітивних медіа-об'єктів, здатних представляти як природні, так і синтетичні типи вмісту, які можуть бути 2- або 3-мірними. Крім медіа-об'єктів, згаданих вище та показаних на рис. 3.1. MPEG-4 визначає кодове подання об'єктів, таке як:

  • текст і графіка;
  • говорять синтезовані голови і асоційований текст, використаний для синтезу мови і анімації голови;
  • синтезований звук.

Медіа-об'єкт в його кодованому вигляді складається з описових елементів, які дозволяють обробляти його в аудіо-візуальної сцені, а також, якщо необхідно, асоціювати з ним потік даних. Важливо зауважити, що кодированная форма кожного медіа-об'єкта може бути представлена ​​незалежно від його оточення або фону.

Кодове подання медіа-об'єктів максимально ефективно з точки зору отримання необхідної функціональності. Прикладами такої функціональності є розумна обробка помилок, легке вилучення і редагування об'єктів і подання об'єктів у масштабируемой формі.

Склад медійних об'єктів

На рис. 6.1 пояснюється спосіб опису аудіовізуальних сцен в MPEG-4, що складаються з окремих об'єктів. Малюнок містить складові медіа-об'єкти, які об'єднують примітивні медіа-об'єкти. Примітивні медіа-об'єкти відповідають периферії описового дерева, в той час як складові медіа-об'єкти являють собою субдеревья. Як приклад: візуальні об'єкти, відповідні говорить людині, і його голос об'єднані один з одним, утворюючи новий складовою медіа-об'єкт.

Ноу Інти, лекція, стандарт mpeg-4,7,21


Мал. 6.1. Приклад сцени MPEG-4

Таке групування дозволяє розробникам створювати комплексні сцени, а користувачам маніпулювати окремими або групами таких об'єктів.

MPEG-4 пропонує стандартизований шлях опису сцен, що дозволяє:

  • поміщати медіа-об'єкти де завгодно в заданій системі координат;
  • застосовувати перетворення для зміни геометричного або акустичного виду медіа-об'єкта;
  • групувати примітивні медіа-об'єкти, для того щоб утворити складові медіа-об'єкти;
  • використовувати потоки даних, щоб видозмінювати атрибути медіа-об'єктів (наприклад звук, що рухається текстуру, що належить об'єкту; параметри анімації, керуючі синтетичним особою);
  • інтерактивно змінювати точку присутності користувача на сцені (його точку спостереження і прослуховування).

Опис сцени будується у багатьох відношеннях так само, як і в мові моделювання віртуальної реальності VRML (Virtual Reality Modeling Language).

Опис і синхронізація потоків даних для медійних об'єктів

Медіа-об'єктів може бути потрібен потік даних, який перетворюється в один або кілька елементарних потоків. Дескриптор об'єкта ідентифікує всі потоки, асоційовані з медіа-об'єктом. Це дозволяє ієрархічно обробляти кодовані дані, а також асоційовану медіа-інформацію про вміст (званому "інформація вмісту об'єкта").

Кожен потік характеризується набором дескрипторів для конфігурації інформації, наприклад, щоб визначити необхідні ресурси записуючого пристрою і точність кодованої тимчасової інформації. Більш того, дескриптори можуть містити підказки щодо QoS, яка необхідна для передавання (наприклад, максимальне число біт / с, BER. Пріоритет і т.д.)

Доставка потоків даних

Синхронізувати доставка потоку даних відправника одержувачу, яка використовує різні QoS, доступні в мережі, специфікована в термінах шару синхронізації і доставки, що містять двошаровий мультиплексор (див. Рис. 6.2).

Перший шар мультиплексування управляється згідно специфікації DMIF (Delivery Multimedia Integration Framework). Це мультиплексування може бути реалізовано певним в MPEG мультиплексором FlexMux, який дозволяє групувати елементарні потоки ES (Elementary Streams) з низькою надмірністю. Мультиплексування на цьому рівні може використовуватися, наприклад, для групування ES з подібними вимогами по QoS, щоб зменшити число мережевих з'єднань або значення затримок.

Ноу Інти, лекція, стандарт mpeg-4,7,21


Мал. 6.2. Модель системного шару MPEG-4

Шар TransMux (Transport Multiplexing) на рис. 6.2 моделює рівень, який пропонує транспортні послуги, що задовольняють вимогам QoS. MPEG-4 специфицирует тільки інтерфейс цього шару, в той час як інші вимоги до пакетів даних будуть визначатися транспортним протоколом. Будь яка існуюча стек транспортних протоколів, наприклад (RTP) / UDP / IP, (AAL5) / ATM або MPEG-2 Transport Stream. поверх відповідного канального рівня може стати окремим випадком TransMux. Вибір залишений за кінцевим користувачем або сервіс-провайдером і дозволяє використовувати MPEG-4 з широким спектром операційного оточення.

Використання мультиплексора FlexMux є опціонним, і, як показано на рис. 6.2. цей шар може бути порожнім, якщо нижчележачий TransMux надає всі необхідні функції. Шар синхронізації, проте, присутній завжди. З урахуванням цього можливо:

  • ідентифікувати модулі доступу, транспортні тимчасові мітки і еталонну тимчасову інформацію, а також реєструвати втрату даних;
  • опционно викладати дані від різних елементарних потоків в потоки FlexMux;
  • передавати керуючу інформацію;
  • индицировать необхідний рівень QoS для кожного елементарного потоку і потоку FlexMux;
  • транслювати дані вимоги QoS в дійсні мережеві ресурси;
  • асоціювати елементарні потоки з медіа-об'єктами;
  • передавати прив'язку елементарних потоків до FlexMux- і TransMux-каналах.

Взаємодія з медійними об'єктами

Користувач бачить сцену, яка сформована відповідно до дизайну розробника. Залежно від ступеня свободи, наданої розробником, користувач має можливість взаємодіяти зі сценою. Користувачеві можуть бути дозволені наступні операції:

  • змінити точку спостереження / слухання на сцені;
  • переміщати об'єкти по сцені;
  • викликати послідовність подій шляхом натискання кнопки миші на певних об'єктах, наприклад, запускаючи або зупиняючи потік даних;
  • вибирати кращу мову, коли такий вибір можливий.

Менеджмент і ідентифікація інтелектуальної власності

Важливо мати можливість ідентифікувати інтелектуальну власність в MPEG-4 медіа-об'єктах. Повний перелік вимог для ідентифікації інтелектуальної власності можна знайти на базовій сторінці MPEG в розділі "Management and Protection of Intellectual Property".

MPEG-4 включає в себе ідентифікацію інтелектуальної власності шляхом запам'ятовування унікальних ідентифікаторів, які видані міжнародними системами нумерації (наприклад ISAN (International Audio-Visual Number), ISRC (International Standard Recording Code) і т.д.). Ці числа можуть використовуватися для ідентифікації поточного власника прав медіа-об'єкта. Так як не всі вміст ідентифікується цим числом, MPEG-4 версії 1 пропонує можливість ідентифікації інтелектуальної власності за допомогою пари ключових значень (наприклад: композитор / John Smith). Крім того, MPEG-4 пропонує стандартизований інтерфейс, який тісно інтегрований з системним шаром для людей, які хочуть використовувати системи, які контролюють доступ до інтелектуальної власності. З цим інтерфейсом системи контролю прав власності можуть легко інтегруватися з стандартизованої частиною декодера.

З урахуванням актуальності проблеми в даний час розробляється стандарт MPEG-21, який регламентує відносини користувачів між собою і з цифровими об'єктами.

Схожі статті