Formats audio

La compression audio

Explication de la compression audio

Comment opère-t-on une compression sur un fichier audio ?
En fait, on devrait plutôt parler d'un ensemble de techniques utilisées pour arriver au résultat final.
Parmi ces techniques, certaines sont dites destructrices d'autres non.

Une compression destructrice, c'est une compression qui est réalisée en perdant de l'information. Cela signifie que si l'on décompresse le signal compressé à l'aide d'une telle technique, on ne retrouvera pas le signal de départ.

Parmi les techniques de compression destructrices, on a essentiellement des méthodes qui exploitent les propriétés de l'oreille humaine. Cette dernière entend les fréquences situées dans la gamme 20 Hz à 20 kHz. Si un morceau contient des fréquences hors de cette gamme, on peut donc purement et simplement les supprimer sans perte de qualité audio puisque l'oreille ne les entend pas. En fait, on entend surtout correctement les fréquences situées dans la gamme 2 kHz à 5 kHz. En effet, il faut moins de 5dB pour entendre les fréquences de cette bande alors qu'il faut plus de 20dB pour entendre les fréquences situées en dessous de 100Hz ou au dessus de 10kHZ. Ces constatations peuvent être exploitées pour réduire la taille des fichiers. On peut par exemple décider que toutes les fréquences au dessus de 15kHz seront supprimées.

On peut utiliser aussi le principe des fréquences masquées. Si dans un groupe de fréquences, certaines ont un niveau sonore beaucoup plus élevé que d'autres, il n'est pas nécessaire de conserver les fréquences de niveau sonore faible : on ne les entendra pas. Pour utiliser une comparaison plus marquante, imaginez que vous êtes dans votre jardin et que vous entendez le pépiement des oiseaux. Le Concorde passe au dessus de votre tête (même très haut). Vous n'entendrez plus les oiseaux car le son qu'ils produisent est beaucoup plus faible que celui généré par l'avion. C'est comme si les oiseaux n'existaient plus ou avaient arrêté de chanter. On voit bien qu'il n'est pas nécessaire de coder toutes les fréquences présentes dans un morceau pour que l'oreille humaine le perçoive correctement quand même. Enfin, si les deux voies d'un son stéréo présentent des séquences semblables, au lieu de dupliquer ces séquences, on en stocke évidemment qu'une et l'information qu'à ce moment là, voie droite et voie gauche sont identiques.

Au rang des techniques non destructrices, que trouve-t-on ?

Principalement des techniques de codage.
Expliquons nous. Un son, c'est une fréquence. Une seconde de musique c'est donc une succession de fréquences. Imaginons que dans la suite d'échantillons composant une seconde de musique (rappelons qu'il y en a 44100) on ait plusieurs fois de suite la même fréquence, par exemple 10 fois. Si au lieu de stocker ces 10 Formats audio Formation Home-LAN abico 8 / 9 2005 points, on en stocke 1 seul et le nombre de fois où il se répète, on a besoin de coder 2 nombres et non 10. Si, de plus, on applique cette méthode à des fréquences non plus identiques mais très proches les unes des autres (si proches que l'oreille humaine moyenne ne puisse les distinguer), on peut encore gagner en place. Cette fois, la compression est destructrice puisque l'on remplace une fréquence par une autre (presque identique).

On utilise également l'algorithme de Huffman (1952) comme méthode de codage des informations. Cette méthode est utilisée dans tous les algorithmes de compression (compression de fichiers texte, compression d'images, compression de sons). Elle repose sur l'utilisation d'un code de longueur variable et la probabilité d'apparition d'un événement (en l'occurrence ici d'une fréquence). Plus une fréquence apparaît souvent, plus son code sera court (nombre de bits faible pour la représenter). Le fichier est lu une 1ère fois et on dresse un tableau des fréquences apparaissant et le nombre de fois où elles apparaissent. On en déduit le code approprié. Ce codage est utilisé en dernier lieu. C'est la phase finale de la compression. C'est un codage non destructeur.

L'utilisation de toutes les possibilités de réduction évoquées dépend de la place que l'on souhaite accorder à 1 minute de son compressé et donc du taux de compression que l'on va devoir appliquer.

Il existe plusieurs normes de compression audio (MPEG1, MPEG2, ...). Ces normes sont établies par des organismes de normalisation. A partir des normes établies, des groupes de travail développent des outils permettant de compresser un signal audio tout en respectant les normes. Ce travail débouche sur des formats de compression et parfois le dépot d'un brevet.

Parmi les formats audio compressés, on trouve le MP3, le MP3Pro, le format Ogg Vorbis, le WMA, ... qui constituent les formats les plus connus mais il existe aussi les formats AAC, VQF ...

Lorsqu'on compresse un morceau dans un format donné, on dit que l'on encode le fichier audio au format souhaité.

Le format WAV

Description du format WAV

Un fichier audio non compressé est enregistré par défaut au format WAV. Il s'agit d'un type de fichier mis au point par Microsoft. Un son d'une minute peut occuper entre 644Ko (kilo-octets) et 27Mo (mégaoctets). La taille de ce fichier dépend de la fréquence d'échantillonnage, du type de son (mono ou stéréo) et du nombre de bits utilisés pour l'échantillonnage (8 ou 16 bits).

Les codecs présentés dans ce dossier permettent de réduire considérablement le poids des fichiers audio.

Structure d'un fichier wave :
Le taux d'echantillonage peut varier entre 11kHz, 22kHZ et 44kHz, avec un échantillonnage sur 8 ou 16 bit.
Le volume d'un fichier wave stéréo pour 1 minute échantillonné à 44kHz en 16 bit est de :
60 (secondes) * 44000 (taux d'échantillonage) * 2 (stéréo) * 2 (16 bits = 2 octets) = 10.56Mo.
Un morceau de musique comprimé en MP3 à 128kbps et à 44kHz a une taille de 3Mo environ (pour 3 à 4 minutes), soit environ 1Mo par minute.

Pour un fichier compressé par divers procédés et dans divers formats (MP3, OGG, ...), on donne habituellement une valeur en kbps qui est en rapport avec le taux de compression (et donc le taux de perte).

Si on fait le calcul, on trouve qu'un WAV 44Khz / 16bits / Stéréo est à 1375Kbps. Donc, un MP3 compressé à 128Kbps a un taux de compression de 11 pour 1.

Le format MP3

Description du format MP3

Introduction

Compte tenu des contraintes théoriques de restitution d'un signal analogique de bonne qualité (pour l'oreille humaine) à partir d'un signal échantillonné (théorème de Shannon), on a imposé aux CD audio un format de stockage du son ayant les données suivantes :
Fréquence d'échantillonnage = 44,1 kHz
Données codées sur 16 bits
Son stéréo

Ceci signifie que les échantillons prélevés sur le morceau de musique à numériser sont prélevés à la cadence de 44,1 kHz, qu'ils sont codés sur 16 bits (soit 65536 niveaux différents possibles) et que le son est stéréo, soit pour un échantillon donné, la nécessité de stocker les voies droite et gauche.
Avec ce standard, combien de place prend une minute de musique ?
On a 44100 échantillons en 1 seconde (44,1 kHz). Chaque échantillon est codé sur 16 bits, soit 2 octets, et le son est stéréo. On a donc ((44100*2)*2*60) octets pour une minute de musique stéréo soit 10,584x10 6 octets !

Il faut environ 10 Mo pour stocker une minute de musique.
On voit qu'un signal audio stocké sur un support numérique prend beaucoup de place d'où l'idée de chercher à le compresser et l'apparition de la norme MP3.

Le MP3 est une technique de compression des formats numériques audio.
Le brevet en a été déposé par l'institut allemand de recherche Fraunhofer. Au départ, les chercheurs de cet institut travaillaient sur la compression de séquences vidéo en vue de la diffusion de la TV numérique. Le projet Eureka EU147 en 1987 a commencé à bien faire bouger les choses. Les chercheurs de l'institut Fraunhofer ont travaillé, dès le départ, en accord avec les normes établies par le MPEG (Moving Pictures Experts Group), un groupe d'experts au sein de l'ISO définissant le standard international pour la compression vidéo. La 1ère norme à voir le jour fut la norme MPEG-1 Layer 1. La 3ème version de cette technique est la MPEG-1 Layer 3 dont la variante spécifiquement audio est la MPEG-1 Audio Layer 3. Ce format a été standardisé par l'ISO fin 1992. En novembre 1996, un brevet est déposé aux USA. Quand il a fallu donner une extension aux fichiers audio enregistrés à l'aide de ce format (comme un fichier Word a l'extension .doc), on a choisi .mp3. Depuis, cette dénomination est communément adoptée : on parle d'un MP3 pour un fichier audio numérique comprimé à l'aide du format MPEG-1 Audio Layer 3. L'institut allemand Fraunhofer détient 10 de 18 brevets MP3, Thomson Multimedia détient les 8 autres et gère les licences.

La compression MP3

Quelle est la technique de compression MP3 ?
En fait, on devrait plutôt parler d'un ensemble de techniques utilisées pour arriver au résultat final. Parmi ces techniques, certaines sont dites destructrices, d'autres non.

Une compression destructrice, c'est une compression qui est réalisée en perdant de l'information. Cela signifie que si l'on décompresse le signal compressé à l'aide d'une telle technique, on ne retrouvera pas le signal de départ.

Parmi les techniques de compression destructrices, on a essentiellement des méthodes qui exploitent les propriétés de l'oreille humaine. Cette dernière entend les fréquences situées dans la gamme 20Hz à 20kHz. Si un morceau contient des fréquences hors de cette gamme, on peut donc purement et simplement les supprimer sans perte de qualité audio puisque l'oreille ne les entend pas. En fait, on entend surtout correctement les fréquences situées dans la gamme 2kHz à 5kHz. En effet, il faut moins de 5dB pour entendre les fréquences de cette bande alors qu'il faut plus de 20dB pour entendre les fréquences situées en dessous de 100Hz ou au dessus de 10kHZ. Ces constatations peuvent être exploitées pour réduire la taille des fichiers. On peut par exemple décider que toutes les fréquences au dessus de 15kHz seront supprimées.

Le MP3 utilise aussi le principe des fréquences masquées. Si dans un groupe de fréquences, certaines ont un niveau sonore beaucoup plus élevé que d'autres, il n'est pas nécessaire de conserver les fréquences de niveau sonore faible : on ne les entendra pas. Pour utiliser une comparaison plus marquante, imaginez que vous êtes dans votre jardin et que vous entendez le pépiement des oiseaux. Le concorde passe au dessus de votre tête (même très haut). Vous n'entendrez plus les oiseaux car le son qu'ils produisent est beaucoup plus faible que celui généré par l'avion. C'est comme si les oiseaux n'existaient plus ou avaient arrêté de chanter. On voit bien qu'il n'est pas nécessaire de coder toutes les fréquences présentes dans un morceau pour que l'oreille humaine le perçoive correctement quand même. Enfin, si les deux voies d'un son stéréo présentent des séquences semblables, au lieu de dupliquer ces séquences, on en stocke évidemment qu'une et l'information qu'à ce moment là, voie droite et voie gauche sont identiques.

Au rang des techniques non destructrices, que trouve-t-on ?
Principalement des techniques de codage.
Expliquons nous. Un son, c'est une fréquence. Une seconde de musique c'est donc une succession de fréquences. Imaginons que dans la suite d'échantillons composant une seconde de musique (rappelons qu'il y en a 44100) on ait plusieurs fois de suite la même fréquence, par exemple 10 fois. Si au lieu de stocker ces 10 points, on en stocke 1 seul et le nombre de fois où il se répète, on a besoin de coder 2 nombres et non 10. Si, de plus, on applique cette méthode à des fréquences non plus identiques mais très proches les unes des autres (si proches que l'oreille humaine moyenne ne puisse les distinguer), on peut encore gagner en place. Cette fois, la compression est destructrice puisque l'on remplace une fréquence par une autre (presque identique).

Le MP3 utilise également l'algorithme de Huffman (1952) comme méthode de codage des informations. Cette méthode est utilisée dans tous les algorithmes de compression (compression de fichiers texte, compression d'images, compression de sons). Elle repose sur l'utilisation d'un code de longueur variable et la probabilité d'apparition d'un événement (en l'occurrence ici d'une fréquence). Plus une fréquence apparaît souvent, plus son code sera court (nombre de bits faible pour la représenter). Le fichier est lu une 1ère fois et on dresse un tableau des fréquences apparaissant et le nombre de fois où elles apparaissent. On en déduit le code approprié. Ce codage est utilisé en dernier lieu. C'est la phase finale de la compression. C'est un codage non destructeur.

Le MP3 exploite en 1er lieu les propriétés de l'oreille pour réduire la taille d'un morceau, puis on traite l'aspect stéréo et enfin on applique des codages en terminant par le codage de Huffman.

L'utilisation de toutes les possibilités de réduction évoquées dépend de la place que l'on souhaite accorder à 1 minute de son compressé et donc du taux de compression que l'on va devoir appliquer.
Pour l'encodage de fichiers son en MP3 on parle plutôt en terme de bitrate que de taux de compression.
Le bitrate est le nombre de bits autorisés en 1 seconde.
On aura donc la relation suivante : plus on veut compresser un morceau (pour qu'il prenne le moins de place possible) plus le bitrate à choisir devra être faible.

Le choix du taux de compression (bitrate)

Evidemment, plus on compresse et moins la qualité audio est bonne.
Il faut faire un compromis taille du fichier/qualité audio.
Ce compromis peut être dicté par vos exigences mais aussi par l'utilisation que vous voulez faire de vos fichiers MP3. En effet, vous pouvez être peu exigeant si vos MP3 sont destinés à votre baladeur et être très exigeant pour une écoute sur chaîne Hifi ! Le tableau ci-dessous vous aidera peut-être à faire un choix.

Précisons qu'un signal compressé avec un bitrate de 64 kbits/s a une bande passante de 11 kHz (toutes les fréquences situées entre 11 et 20 kHz sont supprimées !).
Pour obtenir un tel taux de compression, outre la suppression des fréquences, on a également transformé les HF en signal mono au lieu de leur conserver leur caractère stéréo. Le son MP3 des fichiers compressés avec un bitrate de 64kbits/s n'a plus rien à voir avec l'original d'où notre conseil de n'utiliser un tel bitrate que pour une écoute sur baladeur et encore.
Un bon compromis consiste à utiliser un bitrate de 128 kbits/s.

On peut encore ajouter qu'il faut aussi faire attention à la technologie de compression utilisée par l'encodeur. Il existe en effet trois grandes familles d'encodeurs qui se distinguent par leurs algorithme de codage. Il y a les encodeurs développés par l'institut Fraunhofer, les encodeurs à base de routines développées par Xing Technologie et ceux à base de routines ISO. Grossièrement, on peut dire que Fraunhofer privilégie la qualité du signal compressé tandis que Xing privilégie la rapidité de ses algorithmes. Pour les autre cela dépend des créateurs.

En résumé, disons que si vous désirez des fichiers MP3 d'une bonne qualité musicale écoutables partout même sur votre chaîne Hifi, utilisez un bitrate de 128kbits/s si vous avez un encodeur Fraunhofer ou à base de routines ISO ou un bitrate de 192kbits/s si vous utilisez un encodeur Xing.

Utilisation du bitrate en MP3

Bitrate	Qualité	Compression	1 min de son occupe	Utilisation

Référence	CD audio	Aucune	10,094MB	Toutes (chaîne Hifi, baladeur ou PC)
192 kb/s ou plus	CD audio conversée	1 :7 ou moins	1,373MB ou plus	Toutes (chaîne Hifi, baladeur ou PC)
128 kb/s	CD audio conservée (limite)	1 :11	0,915MB	Toutes (limité pour une bonne chaîne Hifi)
96 kb/s	Supportable	1 :15	703KB	PC ou baladeur
64 kb/s	Limite	1 :22	469KB	Baladeur
Moins de 64kb/s	Non supportable	1 :22 ou plus	Moins de 469KB	Non conseillé

Le format MP3Pro

Description du format MP3Pro

Deux mondes totalement différents s'intéressent à la compression du son et chacun a des exigences, quant aux caractéristiques du format de compression, quasiment opposées. On a, d'une part, les amateurs de musique et l'industrie musicale et d'autre part, le monde des télécommunications (radio et TV numérique, Web radio en streaming, téléphonie mobile). Dans le 1er cas (amateurs de musique), c'est la qualité audio qui prime : les bitrates (128 kbits/s à 192 kbits/s) sont plutôt élevés. Dans le 2ème cas (communications), c'est le bitrate faible qui représente la contrainte la plus forte. En effet, plus le bitrate est faible (par exemple, un téléphone portable reçoit et transmet du son à 8 kbits/s) moins la quantité de données à transmettre en un temps donné est importante (un bitrate de 8 kbits/s équivaut à 1 Ko à transmettre en 1 seconde).

Pour répondre à ces deux cas de figure, le MPEG a envisagé deux solutions :
Continuer d'exploiter le MP3, qui est devenu un standard, mais en améliorant la qualité du son aux bas bitrates : Cela a donné le MP3Pro.
Changer de norme et en profiter pour unifier le codage du son dans le domaine de la musique et du cinéma : L'AAC fait son apparition.

Le MP3Pro date de fin 2001.
Ce format résulte de l'association de deux technologies : le codage MP3 d'une part et la technique de reconstruction de la bande passante d'autre part. Cette technique, nommée SBR (Spectral Bandwidth Replication), qui rétablit une partie des hautes fréquences d'un signal après la transmission de celui-ci, permet l'amélioration de la qualité sonore du signal reçu. Rappelons que nous "entendons" les fréquences de la bande s'étendant de 20 Hz à 20 KHz. De plus, on sait que, malgré sa bande passante de 20 kHz, notre oreille entend surtout correctement jusqu'à 10 kHz. Après, il faut plus de 20 dB de niveau sonore pour détecter les fréquences. Le MP3 a exploité cette déficience de l'oreille humaine pour réduire la bande passante des signaux compressés. Ainsi, un signal encodé à 64 kbits/s n'a plus qu'une bande passante de 11 kHz (on a éliminé purement et simplement toutes les fréquences du signal original qui étaient au delà de 11 kHz). Ce bitrate représente la qualité d'une radio FM numérique.

Pour expliquer l'amélioration apportée par le codage MP3Pro, prenons l'exemple d'une radio FM diffusée en numérique. Au départ, le signal sonore analogique a une bande passante d'environ 20 kHz. Avant d'envoyer ce signal sur les ondes, on va le numériser puis le coder pour qu'il occupe moins de place lors de la transmission. Utilisons le MP3 à 64 kbits/s. Le signal encodé n'a plus qu'une bande passante de 11 kHz. Le système de réception, avant de délivrer le signal à l'utilisateur, va le décoder. Nous savons que le MP3 réalise une compression destructrice (cf. le paragraphe sur le MP3). Les données éliminées par l'encodage - ici les fréquences au delà de 11 kHz - sont perdues. Le signal, une fois décodé, a donc une bande passante de 11 kHz, soit une perte de la qualité audio, par rapport à l'original, pour l'utilisateur. Le MP3Pro va en partie améliorer ce problème. Les 64 kbits/s disponibles pour réaliser la compression sont utilisés de la manière suivante. Le signal original est encodé à environ 60 kbits/s, en utilisant les techniques de codage MP3 habituelles. Les 4 kbits/s restant servent à véhiculer des informations utiles à la reconstruction de la bande passante après transmission du signal. Des informations telles que la fréquence à partir de laquelle il faut reconstruire la bande passante et le niveau des fréquences présentes dans le signal original mais qui vont être éliminées par codage MP3 sont codées par un encodeur distinct (l'encodeur SBR) et stockées de sorte qu'elles occupent les 4 kbits/s restant. Le signal encodé en MP3Pro véhicule bien 64 kbits/s mais il contient deux parties distinctes. Le signal est ensuite transmis puis décodé. La partie MP3 est décodée normalement et le décodeur SBR reconstruit la partie haute du spectre.

L'utilisateur reçoit un signal ayant une bande passante de 16 kHz contre 11 kHz auparavant soit une bien meilleure qualité audio. L'alliance du MP3 et de la technique SBR augmente considérablement la qualité audio d'un signal pour un bitrate donné. On peut raisonner dans l'autre sens et se dire qu'en encodant à un bitrate inférieur en MP3Pro, par exemple 96 kbits/s, on va obtenir la qualité que l'on avait en MP3 à 128 kbits/s. C'est en partie vrai. En partie seulement car le MP3Pro, s'il est bien adapté aux bas bitrates, n'améliore pas beaucoup l'encodage à bitrate élevé. En effet, rappelons qu'à bitrate élevé, le MP3 standard ne supprime guère les hautes fréquences d'où l'inutilité de leur reconstruction par technique SBR.

L'alliance d'un codage et de la technique SBR est donc surtout efficace pour un codage effectué à des bitrates peu élevés.

Le MP3Pro peut encoder des sons issus de sources analogiques échantillonnées à une fréquence de 44,1 kHz, sur 16 bits, en mono ou stéréo. L'encodage se fait à bitrate constant. Celui-ci peut être réglé de 24 kbits/s à 96 kbits/s. La nécessité de décoder deux parties distinctes fait que, globalement, le décodage d'un fichier MP3Pro est plus long que celui d'un fichier MP3 et surtout nécessite plus de puissance de la part du processeur. Si ceci ne représente pas une contrainte pour les PC actuels, cela pourrait être gênant pour les processeurs embarqués, en particulier pour les téléphones portables ou les baladeurs MP3.

Le MP3Pro est compatible MP3 mais il semblerait que la compatibilité "backwards" soit un peu usurpée. Apparemment, un fichier Wave encodé en MP3Pro et lu sur un baladeur MP3 standard "sonne" mal. Dans l'autre sens (fichier Wave encodé en MP3 et lu sur un player MP3Pro), il ne doit pas y avoir de problème puisqu'un player MP3Pro est équipé d'un décodeur MP3Pro qui consiste en un décodeur MP3 standard et un décodeur SBR. Dans ce cas, le décodeur SBR n'a rien à faire, seul le décodeur MP3 standard agit. La technique SBR a été mise au point par la société Coding Technologies et des accords ont été passé avec Fraunhofer et Thomson Multimedia pour le développement des outils MP3Pro. Thomson Multimedia gère les licences MP3Pro.

Le format WMA

Description du format WMA

Le WMA est une technique de compression des formats numériques audio. Le brevet en a été déposé par Microsoft en 1999. Face au succès du MP3 et l'engouement des internautes pour ce format, Microsoft se devait de réagir. Ainsi est né le Windows Media Audio codec.

Le WMA exploite en 1er lieu les propriétés de l'oreille pour réduire la taille d'un morceau, puis on traite l'aspect stéréo et enfin on applique des codages en terminant par le codage de Huffman.

L'utilisation de toutes les possibilités de réduction évoquées dépend de la place que l'on souhaite accorder à 1 minute de son compressé et donc du taux de compression que l'on va devoir appliquer.
Pour l'encodage de fichiers son en WMA on parle plutôt en terme de bitrate que de taux de compression.
Le bitrate est le nombre de bits que l'on autorise pour coder 1 seconde.
On aura donc la relation suivante : plus on veut compresser un morceau (pour qu'il prenne le moins de place possible) plus le bitrate à choisir devra être faible. Les fichiers encodés à l'aide du codeur WMA portent l'extension .wma.
Dans sa forme actuelle, le WMA encode des sons numériques provenant de signaux sonores analogiques échantillonnés à une fréquence pouvant aller de 8 kHz à 48 kHz, sur 8 ou 16 bits, en mono ou stéréo. L'encodage se fait à bitrate constant. Ce dernier peut se régler à n'importe quelle valeur comprise entre 5 kbits/s et 192 kbits/s.

Microsoft revendique la qualité suivante : un morceau encodé à 192 kbits/s en WMA ne peut pas se distinguer de son homologue Wave issu d'un CD audio et une qualité audio dite proche du CD est atteinte pour 96 kbits/s. Ceci nous donne 720 kO (à 96 kbits/s) pour stocker 1 minute de son stéréo.

A qualité audio identique, un fichier encodé en WMA (96 kbits/s) occupe donc 25% de place en moins qu'un fichier encodé en MP3 (128 kbits/s) .

On pourra revoir à ce titre le tableau des bitrates que nous avons dressé pour le MP3. Les techniques de compression WMA et MP3 étant semblables, la différence de qualité se fait sur une meilleure exploitation des caractéristiques de l'oreille humaine. Cette amélioration a été rendue possible grâce aux progrès des chercheurs dans la compréhension de l'oreille humaine. En effet, rappelons que le standard MP3 date du début des années 1990 tandis que le WMA dans son standard actuel date de fin 2000. Microsoft met gratuitement - sur son site - à disposition des utilisateurs de PC sous Windows l'encodeur WMA. Le player (Windows Media Player) est fourni automatiquement avec Windows depuis Windows 98. Vous pouvez cependant vous procurer la dernière version sur le site Web de Microsoft. Les players Winamp, Sonique et MusicMatch Jukebox sont compatibles WMA. Par ailleurs, Microsoft gère les licences pour toute intégration d'un décodeur WMA dans du hardware (baladeur, platine de salon, lecteur de CD portable, téléphone, ...).

Le format Ogg

Description du format Ogg

Sous l'appellation Ogg se cache un certain nombre de projets liés au multimédia et au traitement du signal. La recherche engagée par ce groupe de projets touche à deux thèmes principaux : le codage audio et la vidéo.

Ogg Vorbis s'intéresse au codage audio. C'est un codage avec perte comme le MP3 et le WMA.

La spécificité de Ogg est que c'est un projet totalement Open Source et que le format Vorbis est sans brevet et complètement libre de droits. Ogg est né en 1993 après que l'institut allemand Fraunhofer ait obtenu la standardisation ISO du MP3 (1992) et déposé son 1er brevet, faisant ainsi du MP3 un format audio propriétaire. Le groupe de projets Ogg a alors développé un format audio compressé devant rivaliser en taille et qualité avec le MP3 mais gratuit. Les spécifications du format Vorbis sont dans le domaine public et toute personne désirant développer un encodeur pour compresser un fichier Wave au format Vorbis est libre de le faire sans devoir rien à quiconque.
Le format Ogg Vorbis délivre des fichiers audio dont l'extension est .ogg.

Les techniques de compression du signal audio sont un peu différentes de celles employées par les formats MP3 et WMA.

Evidemment, on exploite toujours les caractéristiques de l'oreille humaine pour augmenter le taux de compression (voir les explications de notre dossier MP3). La grande différence se situe dans l'organisation de la compression et dans le codage en lui-même.
Un encodeur Ogg Vorbis procède en trois phases distinctes pour fournir le fichier Ogg.
Celles-ci sont : l'analyse, le codage et le streaming

L'analyse consiste en deux étapes. Les données audio sont d'abord séparées en petits segments contigus puis ces segments sont traités séparément : ils sont transformés en une représentation plus propice au codage.

La phase de codage consiste en deux étapes également. Les segments transformés précédemment sont analysés à l'aide d'un modèle probabiliste (codage de Huffman par exemple) et codés en un nombre de bits le plus faible possible. Les mots ainsi obtenus étant de longueur différente (on rappelle qu'un codage de Huffman produit le mot le plus court pour l'occurrence la plus fréquente), l'étape de "bitpacking" les arrange en séquences d'octets sans perdre de place. L'ensemble des octets nécessaires au codage d'un segment (obtenu à la 1ère étape) est un "Vorbis packet".

Enfin, la troisième phase - le streaming - assemble les "Vorbis packets" en un flux de données appelé un "Ogg bitstream". Une table de correspondance entre la structure logique des "Ogg bitstreams" et leurs combinaisons en un flux physique de données est établie. Celle-ci doit permettre au player ou au décodeur de retrouver comment assembler les "Ogg bitstreams" entre eux pour délivrer un signal audio image de l'original.

Le format Ogg Vorbis est particulièrement bien adapté à la diffusion de musique en streaming de par sa structure intrinsèque. Dans sa forme actuelle, Ogg encode des sons numériques provenant de signaux sonores analogiques échantillonnés à une fréquence pouvant aller de 8 kHz à 48 kHz, sur 16 bits ou plus et en polyphonie. Ainsi, le son Surround (bande son sur les DVD vidéo) peut être compressé en Ogg sans perdre ses caractéristiques multi-voies alors qu'en MP3 ou WMA, il est obligatoirement ramené à de la stéréo.

L'encodage Ogg se fait à bitrate constant ou variable. Dans le cas d'un bitrate constant, ce dernier peut se régler à une valeur comprise entre 16 kbits/s et 128 kbits/s. Théoriquement, l'encodeur actuel supporte un bitrate pouvant aller jusqu'à 512 kbits/s. Les versions futures offriront un bitrate pouvant descendre en dessous de 16 kbits/s.

Dans la page d'accueil consacrée à Vorbis, le site xiph.org (xiphophorus company est le nom du groupe de projets Ogg) revendique une qualité compétitive avec celle du format AAC (standard MPEG-2 et MPEG-4) et supérieure à celle des formats MP3, WMA et VQF. Des essais réalisés sur différents morceaux (aussi bien en musique classique qu'en pop) par des personnes ne défendant pas plus tel format que tel autre confirment ces dires. Enfin, le format Ogg, est 100% "backwards" compatible. Cela signifie qu'un fichier encodé en Ogg Vorbis avec l'encodeur actuel est lisible avec un ancien player Ogg sans dégradation de la qualité sonore.

Le format AAC

Description du format AAC

C'est quoi le format AAC ?

Le format AAC (Advanced Audio Coding) est un codec audio basé sur la norme Mpeg4, d'où son surnom MP4.
Ce nouveau standard serait vu comme le successeur du célèbre MP3. Selon Apple, des experts en matière d'écoute auraient estimé qu'il etait quasiment impossible de distinguer à l'oreille les fichiers audio AAC compressés à 128 kbps (stéréo) d'une source audio non compressée.

Quels sont les avantages du AAC ?

Le format AAC offre une qualité d'écoute bien supérieur au MP3, plus proche de l'original.
Il est Gapless, cet-à-dire qu’il n’y aura pas de petite coupure entre 2 morceaux (contrairement au Mp3).
C'est un format de plus en plus répandu, soutenu par Apple lisible sur Mac et PC.
Les fichiers AAC sont lisibles sur certains baladeurs (le plus connu d'entre eux étant le iPod).
C'est un format jeune qui sera sans doute encore amélioré.

Est-ce un format qui a de l'avenir ?

Le format AAC prend peu à peu de l'importance. Sa qualité audio est supérieure à celle du WMA (format créé par Microsoft) et du MP3.
De plus ce format peut-être protégé par des droits d'auteur (DRM) ce qui lui a permis de se trouver une place très importante dans les services de ventes en ligne (exemple: iTunes).
Certains spécialistes voient le AAC comme le successeur du MP3 (format ancien et dépassé).
Le AAC est un format qui a sans doute un grand avenir devant lui.

Quels sont les modes de ce format ?

Des bitrates situés entre 16kbps et 320kbps sont disponibles.
Le bitrate le plus couramment utilisé, pour son bon rapport poids/qualité, est le 128kbps.
On retrouve donc à peu près les mêmes bitrates que ceux proposés par le format MP3.

Avec quoi lire les fichiers AAC ?

Vous pouvez lire vos fichiers AAC avec Winamp 2 et 5. Il vous suffit pour cela de télécharger un plug-in.
Winamp 5.02 est capable de lire les fichiers AAC sans plug-in.
D’autres logiciels peuvent lire le format AAC en natif comme foobar2000 ou iTunes.

Un filtre Direct Show pour le AAC est disponible ici. Vous pourrez grâce à lui lire vos fichiers AAC avec Windows Media Player ou lire des DivX dont l'audio est encodé avec ce format.

Comment créer des fichiers AAC ?

Vous pouvez créer facilement des fichiers AAC à l'aide du logiciel gratuit iTunes.
Configurez les options d'encodage AAC dans les "préférences" de iTunes (édition>>préférences>>importation)

Comment graver des fichiers AAC en CD audio avec Nero?

Vous pouvez graver des fichiers AAC en CD audio avec Nero 5.5.9.0 (ou plus).
Pour cela télécharger ce plug-in puis dézipper le fichier dans le répertoire :
".../Ahead/Shared/AudioPlugins".
Si vous avez Nero 6 ou plus, le plug-in doit être dézippé dans le répertoire :
".../Program Files/Fichiers Communs/Ahead/AudioPlugins".

Avec quoi convertir mes fichiers AAC en Wave ?

Vous pouvez convertir vos fichiers AAC en Wave avec iTunes:
Allez dans les préférences de iTunes (edition>>préférences>>importation) puis sélectionnez "Encodeur WAVE".
Cliquez sur OK.
Faites un clic droit sur le fichier AAC que vous désirez convertir en Wave, puis cliquez sur "convertir la selection en Wav"

Vous pouvez aussi convertir vos fichiers AAC en Wave avec foobar2000.

Comment convertir mes fichiers AAC en MP3 ?

Avec iTunes:
Allez dans les préférences de iTunes (edition>>préférences>>importation) puis sélectionnez "Encodeur MP3".
Cliquez sur OK.
Faites un clic droit sur le fichier AAC que vous désirez convertir en MP3, puis cliquez sur "convertir la selection en MP3"

Navigation

Personal tools

Actions sur le document