Mpeg-2: Video: MPEG-2 vs H.264

Introduccion a MPEG-2

La aplicación primaria de MPEG-2 fue la transmisión digital de señales de TV con buena calidad y a velocidades de 4 a 10 Mbps. Debido a esto, la principal característica y diferencia con MPEG-1 es que MPEG-2 brinda un soporte para imágenes entrelazadas, es decir, se tomo en cuenta el hecho de que las cámaras de TV forman una imagen tomando primero un campo y luego el otro. Ya que estos dos campos están separados por un intervalo de tiempo, codificar la secuencia con MPEG-1 no produciría los mejores resultados, ya que MPEG-1 asume que no hay diferencia de tiempo entre líneas sucesivas en la imagen. El estándar MPEG-2 provee una forma de codificar imágenes entrelazadas incluyendo dos técnicas basadas en campo: predicción basada en campo y DCT basada en campo.

Otras mejoras, como la introducción de una DCT con precisión de 10 bits en el coeficiente DC, cuantización no lineal, tablas VLC y control mejorado de mismach (para los vectores de movimiento ) han sido introducidas en este nuevo estándar que han brindado mejoras sustanciales aun para material progresivo. Otra especificación clave del MPEG-2 son las extensiones escalables ,que permiten la división de la señal de video en dos o mas cadenas de bits representando el video a diferentes resoluciones, calidad de imagen ,o cadencia de cuadros.

Estandares MPEG-2

A continuación veremos los distintos estándares MPEG-2, teniendo en cuenta que MPEG solamente normaliza el formato del flujo binario y el descodificador:

ISO/IEC 13818-1 (2007) Sistema - describe sincronización y multiplexado de video y audio.

ISO/IEC 13818-2 (2000) Video – Códec (codificador/decodificador) compresor para señales de video entrelazado y no entrelazado.

ISO/IEC 13818-3 (1998) Audio – Códec (codificador/decodificador) compresor de señales de audio. Una extensión habilitada multicanal de MPEG-1 audio (MP3).

ISO/IEC 13818-4(2004) Describe maniobras de prueba de cumplimiento (del estándar).

ISO/IEC 13818-5 (2005) Describe sistemas para simulación por Software.

ISO/IEC 13818-6 (1998) Describe extensiones para DSM-CC (Comando Digital de herramientas de almacenamiento y control).

ISO/IEC 13818-7 (2006) Codificación avanzada de audio. (AAC)

ISO/IEC 13818-9 (1996) Extensión para interfaces en tiempo real.

ISO/IEC 13818-10 (1999) Conformidad con extensiones para DSM-CC.

ISO/IEC 13818-11 (2004) IPMP (Intellectual Property Management and Protection) en sistemas MPEG-2

Perfiles y Niveles

MPEG-2 es aplicable a un amplio rango de aplicaciones que requieren diferentes performance y complejidad. Para propósitos prácticos, el estándar MPEG-2 es dividido en perfiles y cada perfil es dividido en niveles. Un perfil es básicamente el grado de complejidad esperado en el codificador. Un nivel es un conjunto de parámetros tales como el tamaño de la imagen o el bit rate usado en ese perfil. Se puede decir que un perfil limita la complejidad, es decir, los algoritmos, y un nivel limita los parámetros tales como bit rate, dimensiones de cuadro, frames rates, etc. En principio hay 24 combinaciones posibles, pero no todas han sido definidas. Un decodificador teniendo asignado cierto perfil y nivel, debe ser capaz de decodificar perfiles y niveles mas bajos.

Reparto de Datos en MPEG-2

Las redes ATM, difusiones terrestres, medios magnéticos, y otras aplicaciones tienen a veces dos canales disponibles para transmisión y/o almacenamiento. El bitstream de video es
separado de tal forma que un canal contenga información crítica como headers, vectores de movimiento, y los coeficientes de baja frecuencia de la DCT, y el otro contenga la información menos crítica como los coeficientes de alta frecuencia de la DCT. Este segundo canal puede ser enviado con menos protección de error. El reparto de datos no es compatible hacia atrás con otros bitstreams de video MPEG-2.

Video Entrelazado

En sistemas de televisión, la exploración consiste en barridos horizontales rápidos combinados con barridos verticales mas lentos, de manera que la imagen queda explorada en líneas. Al final de cada barrido vertical o cuadro, el proceso vuelve a repetirse. Los monitores para computadoras explorar de esta manera, pero en la mayoría de los sistemas de radiodifusión el proceso de exploración consiste en entrelazado 2:1. En un proceso de barrido entrelazado, la velocidad de barrido vertical se duplica, de modo que haya espacio entre las líneas escaneadas. El barrido vertical o campo, tarda la mitad de tiempo y contiene la mitad de las líneas. En el segundo campo, las áreas que se perdieron son ahora escaneadas. Las líneas de ambos campos se entrelazan verticalmente de forma automática al finalizar la exploración, de forma de formar la imagen completa.

MPEG-2 y el Video Entrelazado

Una de las mas grandes motivaciones para crear un nuevo estándar MPEG-2 fue el de dar un soporte para fuentes de video entrelazadas. El estándar MPEG-1 estaba enfocado a velocidades de alrededor 1.5 Mbps , y era asumido que la señal de video fuente había sido digitalizada a alrededor de 352x240 para 60 Hz (e.g U.S) y 352x288 para 50 Hz (e.g Europa). Las señales de video estándar llevan el doble de líneas que las mencionadas anteriormente, con un formato entrelazado. La forma mas simple de generar una imagen de la mitad de tamaño era quedarse con un solo campo de la señal de video, el otro era descartado. Ya que se usa un solo campo de la imagen, estos campos muestreados formaban una secuencia de video progresivamente escaneada. El MPEG-1 por lo tanto, incluía parámetros de codificación y algoritmos para secuencias progresivamente escaneadas solamente.

Como MPEG-2 esta enfocado a la codificación de señales de video de calidad broadcasting, es necesario codificar la fuente de video en su ancho de banda completo, resultando en campos tanto pares como impares en la secuencia. Ya que estos campos están separados por un intervalo de tiempo, codificar la secuencia utilizando MPEG-1 no arrojará los mejores resultados, ya que este algoritmo asume que no hay diferencia de tiempo entre líneas consecutivas en la imagen. El estándar MPEG-2 introduce una nueva forma de codificar imágenes entrelazadas mediante las inclusión de dos técnicas “basadas en campo” :predicción basada en campo y DCT basada en campo. En MPEG-2 , el término picture (imagen) se refiere ya sea a cuadro (frame) o campo (field). Por lo tanto, una representación codificada de una imagen puede ser reconstruida ya sea como campo o como cuadro. Durante la codificación, el codificador debe elegir si codificar una iagen como un cuadro o como dos campos. Si selecciona esta última forma de codificación, cada campo se codifica por separado, cada uno teniendo un tamaño vertical igual a la mitad de la imagen completa. Con este esquema ,una imagen codificada Intra consiste de un cuadro Intra, de dos campos Intra, o de un campo Intra seguido de un campo P. La predicción de este último es en base al cuadro anterior Intra.

Una imagen codificada como Inter (P) , consiste de una imagen Inter o de dos cuadros Inter, al igual que las imágenes codificadas como bidireccionales (B) . En el modo codificación como cuadro, la predicción puede hacerse ya sea en base a campo o en base a cuadro. La predicción basada en cuadro, usa un vector por dirección (forward o backward) para describir el movimiento relativo al cuadro de referencia. En contraste, la predicción basada en campo usa dos vectores de movimiento, uno proveniente de un campo par y el otro del campo impar. Por lo tanto, pueden haber hasta cuatro vectores por macrobloque (dos por cada dirección forward o backward).

En el modo codificación como campo, la predicción es solo en el modo campo, pero puede ser relativa ya sea al campo par como al impar. Independientemente del modo de predicción, cada macrobloque en una imagen codificada como cuadro, puede ser codificado mediante DCT basada en campo o basada en cuadro. La DCT basada en cuadro ,es la misma que la DCT de MPEG-1. La DCT basada en campo, en cambio, opera sobre filas alternadas, es decir, las filas de un mismo campo, son juntadas en un mismo bloque 8x8. El porque de esta forma de codificación, viene del hecho que quizás estén mas correlacionadas líneas de un mismo campo que líneas consecutivas en la imagen, debido esto al intervalo de tiempo que existe entre un campo y el otro.

Jerarquias MPEG

La unidad fundamental de información es el bloque DCT,
que representa un arreglo 8x8 de píxeles que pueden ser Y, Cr, o Cb. El coeficiente DC es enviado primero, y es representado mas exactamente que los demás coeficientes (MPEG-2 permite la elección de 8, 9, 10 u 11 bits para el coeficiente DC). Seguido de los demás coeficientes, se envía un código EOB (End Of Block). Los bloques son ensamblados en macrobloques, que son la unidad fundamental de una imagen para ser compensada por movimiento. Cada macrobloque de una imagen P o B tiene un vector de movimiento bidimensional en su header. En imágenes B, los vectores pueden ser forward o backward. La compensación de movimiento puede ser basada en campo en cuadro, y esto es indicado en el header. También se indica la escala usada para la recuantización de los coeficientes. Usando los vectores, el decodificador usa la información de imágenes anteriores o posteriores para producir la imagen predicha. Aplicando la IDCT a cada bloque, se obtiene la imagen corrección que hay que sumarle a la imagen predicha para formar la imagen correcta. En codificación 4:2:0 ,cada macrobloque tiene 4 bloques Y y dos bloques de cada color. En formato 4:2:2, habría 2 bloques de cada color por cada 4 de luminancia. Para identificar cada bloque correctamente, estos se envían en un orden específico. (ver apéndice C para mas información sobre submuestreo del canal de croma). Los macrobloques son ensamblados en slices, que deben representar siempre partes de una imagen de izquierda a derecha. En MPEG, se permite que los slices tengan cualquier largo y comiencen en donde sea. El slice es la unidad elemental de sincronización para la codificación de longitud variable y diferencial. Los primeros vectores en el slice son enviados absolutamente, mientras que los restantes son enviados diferencialmente. En imágenes Intra, también los primeros coeficientes DC son enviados absolutamente y los restantes en forma diferencial. Un número de slices son combinados para hacer una imagen, que es la parte activa de un campo a un cuadro. El header de la imagen indica si esta fue codificada como I, P o B y también incluye una referencia temporal para que la imagen sea presentada en el orden correcto. Para situaciones especiales, como un paneo de la cámara, los vectores de movimiento de los diferentes macrobloques serán los mismos, por lo que se envía un vector global, y los vectores individuales como diferencias con este. Las imágenes pueden ser combinadas para producir un GOP, que debe comenzar siempre con una imagen I. El GOP es la unidad fundamental de codificación temporal. Los GOP’s pueden ser abiertos o cerrados. En un GOP cerrado, las últimas imágenes B no requieren de la imagen I del siguiente GOP para ser decodificadas, y el bit stream puede cortarse al final del GOP.

MPEG-2 en SVCD

MPEG-2 en DVD

Restricciones adicionales y modificaciones de MPEG-2 en DVD:

Resolución de Video:

NTSC (USA, Japón) Pixels
- 720 x 480
- 704 x 480
- 352 x 480
- 352 x 240

PAL (Europa) Pixels
- 720 x 576
- 704 x 576
- 352 x 576
- 352 x 288

Relación de aspecto
- 4:3
- 16:9

Tasa de fotogramas
- 59.94 campos/s
- 50 campos/s
- 23.976 fotogramas/s (con banderas de 3:2)
- 29.97 fotogramas/s (NTSC)
- 25 fotogramas/s (PAL)

Audio:
- Linear Pulse Code Modulation (Código de Pulsos Modulado Lineal = LPCM): 48KHz o 96KHz, 16 bit, 2 canales(Estéreo)
- MPEG-1 Capa 2 (MP2): 48KHz, hasta 7.1 canales (requerido en reproductores PAL)
- Dolby Digital (DD): 48KHz, 448 kbit/s, hasta 5.1 canales
- Digital Theater Systems (Sistema de Teatro Digital = DTS): 754 kbit/s o 1510 kbit/s (no requerido para cumplir con el reproductor)
- Debe haber al menos una pista de audio que no sea DTS (ni MP2 para NTSC)

Tasa de bits de audio + vídeo:
- Buffer máximo promedio de 9.8 Mbit/s
- Pico 15 Mbit/s
- Mínimo 300 Kbit/s
- YUV 4:2:0

Posibilidad de subtítulos opcionales
- Closed captioning (sólo en NTSC)

Estructura GOP
- Debe salir secuencia de Encabezado para cada GOP
- 18 marcos máximos por GOP
- Closed GOP requerido para DVDs multi ángulo

miércoles, 30 de junio de 2010

Video: MPEG-2 vs H.264

1 comentario:

Unknown1 de julio de 2010, 13:48
No pongan toda la información en una sola página, dividanla en varias páginas para que se vuelva un Blog dinámico, y en cuanto a la información proporcionada en el blog es muy buena compañeros.

saludos.
Oscar Aimacaña.
ResponderEliminar
Respuestas

Añadir comentario

Mpeg-2

Indice de Contenidos