Dernier épisode
La discussion est fermée, vous ne pouvez pas poster de nouveaux commentaires.
25 May 2003

Le support d’enregistrement numérique

Quand on parle de suppport d’enregistrement dans une aventure MP3, on pense souvent très simplement au disque sur ! On parle moins de tout ce qu’un enregistrement numérique implique. Parlons en donc.

Le mien est plus gros que le vôtre

Vous avez un gros disque dur, c’est bien. Vous aurez besoin d’un peu de place pour enregistrer une aventure MP3. Tout compris, un épisode de Survivaure occupe environ 500Mo d’espace. Pas grand chose avec les disques durs d’aujourd’hui qui atteignent des tailles supérieures à la centaine de gigas. M’enfin, tout le monde n’est pas forcément équipé comme ça, autant le savoir avant de commencer.

Quel logiciel ?

Pour ma part, Cubase SX - dont je me sers presque exclusivement du début à la fin - convient parfaitement. D’autres vont passer par Wavelab, Sound Forge, ou même le wav recorder de Windows. Cubase existe aussi sur Mac pour les irréductibles toshistes que vous êtes.

Le format d’enregistrement

Pour le format du fichier, ne vous compliquez pas l’existence, utilisez des formats sans compression. Ca évite les problèmes de pertes de qualité qui s’ajoutent au fur et à mesure du mix. Ca améliore aussi grandement le délai de traitement. Le temps que vous passez à compresser à la volée peut être très pénalisant pour votre disque, qui risque de faire l’impasse sur une partie du signal - d’où l’apparition de petits clics audio (ou aussi parfois de gros Smile). Le format WAV fait parfaitement l’affaire. Pour les Mac, vous pouvez utiliser le format AIFF qui est, lui aussi, tout à fait adéquat (question : il y a du WAV sur mac ?).

Selon la résolution (le nombre de bits) et la fréquence d’échantillonnage (le nombre de hertz) que vous choisissez, l’enregistrement prendra plus ou moins de place. Préférez les trucs standards du genre 16 bits, 44.1kHz. Les formats plus exotiques finissent toujours par poser des problèmes de compatibilité avec des sons que vous aurez récupéré et qu’il faudra convertir... car oui, je ne l’ai pas dit, mais une fois que vous avez choisi votre format, il faut s’y tenir pour tous les sons que vous allez utiliser.

Mais pourquoi pas le 48kHz ? C’est mieux, non ?

Sur le papier, c’est mieux effectivement. Mais :

  1. Ca prend plus de place (j’explique après)
  2. Je mets au défi quiconque d’entendre la différence entre le 44,1 et le 48kHz. Celui qui y croit vraiment devrait arrêter de fumer la moquette.
  3. Quand c’est relu à 44.1, qui se retrouvera fatalement chez un auditeur dont la carte son ne supportera pas le 48, la durée du signal n’est pas la même (c’est normal d’ailleurs, ce sera un peu plus lent), et ça peut donner lieu à un phénomène d’aliasing
  4. Vous allez finir par encoder tout ça en MP3, alors un peu de cohérence
  5. Bref, 48kHz c’est pas bien pour ce que vous avez à en faire. Alors n’insistez pas.

Vous allez me dire, Mais pourquoi ça existe alors ?

C’est utilisé dans d’autres cas, en studio où on enregistre parfois le mix final sur DAT 48kHz. Il y a aussi des explications qui ne sont pas seulement dues au fait que 48kHz-c’est-un-peu-plus-que-44.1kHz-et-que-donc-c’est-vachement-mieux-oh-ça-oui-alors. J’y viendrai plus tard.

Bon ok, mais c’est quoi la résolution ?

C’est le nombre de bits sur lequel vous allez encoder votre signal lors d’un enregistrement numérique. Comme vous le savez sans doute, le numérique repose sur le système de comptage binaire (1 pour oui, 0 pour non en gros).

Dans le cas d’un signal sonore encodé en numérique, le système binaire permet de dire lorsqu’il y a du signal et s’il y en a, quelle est son niveau de tension acoustique.

Un enregistreur binaire très basique de résolution 1 bit permettrait de définir le niveau de tension acoustique de façon très bestiale : 1 => j’ai du son, 0, j’ai pas de son.

Si j’ai 2 bits, je peux décrire les valeurs intermédiaires du type

  •  00 : j’ai pas de son, c’est naze ton truc
  •  01 : j’entends presque rien, met les gaz
  •  10 : y a de l’idée, mais c’est pas top
  •  11 : ça déchire, baby, j’en veux encore
    Vous comprendrez aisément que plus on a de bits, et plus on peut décrire de valeurs intermédiaires. Il y a un moyen simple de calculer ce nombre de valeurs avec les puissances de 2. Une résolution de n bits permet d’obtenir un codage de la tension acoustique sur 2 puissance n valeurs. Pour 16 bits, ca fait 65536 valeurs possibles.

    Dans un autre topo, je parle de dynamique du signal (rappel : l’écart entre le son le plus faible et le son le plus fort).
    Je vous épargne la démonstration mathématique, mais on peut conclure par récurrence qu’un signal numérique a une dynamique de 6 fois sa résolution. Pour 16 bits, on obtient 96dB de dynamique.

    Parenthèse : si on tente de vous vendre un équipement numérique 16 bits qui a plus de 96dB de dynamique, on vous bourre le mou. C’était juste une remarque.

    Alors évidemment, la règle s’applique aussi pour 20 et 24 bits, et c’est le même calcul. Un système 20 bits-ready a une dynamique de 120dB, et pour un système 24 bits-ready, ça donne 144 dB.

    Mais le saviez-vous ?

  •  120dB de pression acoustique, c’est le seuil de douleur. C’est le moment où vous sentez qu’il faut vraiment baisser l’autoradio sinon vos oreilles vont saigner.
  •  L’oreille humaine fait de la compression naturelle (NDLR : de la compression de dynamique et pas de la compression au sens fichier zippé ! tssss...). Du coup, elle n’entend que les variations de niveau inférieures ou égales à 60dB. Au delà ? Et bien c’est inaudible Smile. Il faut attendre un peu pour que le tympan se relâche. Bien entendu, ce n’est valable que pour les humains Smile.
    Alors vous savez ce que je pense des gens qui disent que les systèmes 24 bits, c’est vraiment mieux pour la dynamique ? Oui, vous savez certainement ce que j’en pense. Mais bon, il y aura toujours des blaireaux pour dire qu’une dynamique de 144dB, ça déchire (NDLR : les tympans Smile).

    En revanche, la résolution étant plus importante - le nombre de valeurs pour décrire le niveau de tension est plus important - le son sera indéniablement plus précisément rendu. De là à ce que ça s’entende... enfin il y a au moins le facteur psychologique : on est persuadé que ça s’entend (forcément, car c’était plus cher au magasin...).

    Résolution et quantification

    On se rend bien compte que quelle que soit la résolution, on ne pourra pas trouver le nombre de valeurs intermédiaires qui permettront de coder les valeurs exactes de tension acoustique dans un signal. Il faut donc arrondir ces valeurs. C’est ce qu’on appelle la quantification.
    C’est un terme qui existe aussi en MIDI, lorsqu’on joue sur un clavier midi et qu’on est un peu à coté (on dit aussi, je suis armoire ou je suis un boulet ou chuis un gros naze), on appuie sur le bouton Quantize et on est de nouveau dans le temps, comme si on avait fait cette merveille en une seule prise. Bon évidemment, le résultat est souvent loin d’être génial, souvent rigide et anti-groovy, baby (Austin Powers est mon idole...).

    Et bien c’est pareil en numérique, sauf que ça se fait tout le temps, sans bouton Quantize. C’est cool, non ? De l’anti-groovy tout le temps !
    Vous l’aurez compris, j’exagère volontairement pour dire que 65536 valeurs pour encoder un niveau de tension, c’est pas assez, mais c’est le standard, alors on se tait. Pour être franc, il y a peu de gens qui sont capables d’entendre la différence entre 16 et 20 bits, et encore moins entre 20 et 24 bits de résolution. Et puisque de toute façon, on va encoder le tout en MP3 à la fin, je crois que ça ne vaut pas le coup de se faire un ulcère. J’expliquerai dans un autre topo ce qu’est exactement l’encodage en MP3 et quelles conséquences catastrophiques ça peut avoir sur le signal.

    Et là je sors mes lunettes de prof, et je dis : vous voyez pourquoi c’est important de régler ses niveaux comme il faut ?

    Et oui, si le gain d’entrée est trop faible, vous n’utilisez qu’une partie de la résolution. En 16 bits, vous n’utilisez qu’une partie des 65536 valeurs possibles pour décrire le niveau de tension. Déjà que ce nombre n’est pas terrible, alors si vous n’utilisez pas tout, où va-t-on ? Dans les signaux faibles, on peut parfois même entendre la quantification (j’en parlais dans un autre topo comme d’un tic tic ignoble).

    Parlons un peu fréquence

    La résolution, ce n’est pas tout. Pouvoir décrire le niveau, ça ne vous dira pas de quoi est fait le signal. Par exemple : Enrico Macias et Jean Sébastien Bach, vous vous êtes rendus comptes que c’était différent, même quand vous les écoutez tous les 2 au même niveau sonore. Par bonheur, les fréquences composant les oeuvres de ces 2 artistes inoubliables sont différentes, et grâce à elles, vous pouvez ranger le CD d’Enrico Macias au fond du placard.

    La fréquence, c’est ce qui caractérise une onde sonore. En fonction de sa longueur - à l’onde, d’où le terme longueur d’onde - on la percevra comme grave ou aigue. Les ondes oscillent, elles traduisent les vibrations infimes de l’air qui les transporte de couche en couche. On n’a rien trouvé de mieux pour les représenter qu’une forme plus ou moins sinusoïdale. C’est utile, surtout quand on fait passer les signaux sonores dans le domaine numérique, ou par définition, il n’y a pas d’air (ceux qui ont vu Matrix le savent)...
    Quand on regarde ces ondes sonores à l’oscilloscope (ou via un logiciel audio...) les fréquences graves ont des oscillations très amples et longues, alors que les fréquences aigues ont des oscillations très rapprochées et courtes.

    Alors évidemment, un son n’est pas une fréquence unique. Il est composé de fréquences multiples, voire d’harmoniques, on ne peut pas les représenter par des sinusoïdes parfaites. La plupart du temps, les représentations de signaux sonores reflètent ce mélange de fréquences.

    Mais c’est quoi le Hertz ?

    Ce n’est pas un loueur de voitures (ah la bonne blague... vite, un jingle musical pour marquer ce magnifique bide).
    Le Hertz est une unité de mesure qui décrit un "nombre d’occurences par seconde". En échantillonnage numérique - l’action de prendre des échantillons de signaux sonores - le fait de dire qu’on travaille à 44.1kHz signifie qu’on prend 44100 échantillons du signal toutes les secondes.

    Euh... c’est un peu théorique, et pour tout dire, même un peu lourd

    Ok, ok... de toute façon, ce n’est pas la peine d’aller aussi loin pour enregistrer des stupidités, mais ça permet d’élargir sa culture (non... ?). En bref, plus la fréquence d’échantillonnage et les bits sont élevés, et plus le signal numérique est fidèle à la forme d’origine du signal dans le domaine acoustique. Ca ne change pas le problème d’utilisation du mode standard 16bits, 44.1kHz que je vous préconise malgré tout, pour éviter les prises de tête.

    Par contre, plus on prend d’échantillons, plus il faut de place pour les stocker (et oui, haha). C’est pourquoi un signal échantillonné à 48kHz prend plus de place qu’un signal échantilonné à 44.1. C’est même calculable très facilement. En 16 bits, 44.1kHz : 16 bits font 2 octets, et j’ai donc besoin de 2 octets 44100 fois par seconde. Ca fait 88200 octets toutes les secondes, soit 5292000 octets par minute de signal enregistré, en gros
    5,05 méga-octets par minute. Et c’est mono (bin oui...). Un signal stéréo, c’est 2 signaux mono, l’un à gauche, l’autre à droite. Ca fait 10,1 méga-octets par minute.

    Le même calcul en 16bits, 48kHZ donne 11Mo. Un peu plus de place.

    En 24 bits, 96kHz, vous aurez besoin de 3 octets * 96000 Hz * 60 secondes * 2 (pour la stéréo) = 33Mo la minute de signal stéréo. Outch !

    Pour faire moins, on peut utiliser des techniques de compression du genre MP3, mais je ne vous le conseille pas. L’encodage MP3 doit être fait à la fin, pour éviter d’ajouter les erreurs d’arrondis dues à la somme de toutes les compressions...

    Et je peux prendre du 22.050kHz pour un signal mono ?

    Arghhh non !!! Ce n’est pas parce qu’un signal est mono que le spectre de fréquences n’est couvert que la moitié du chemin ! En enregistrant à 22kHz, le spectre de votre signal s’arrête à 10kHz. Tout ce qu’il y avait au dessus est perdu, c’est-à-dire tout ce qui donne une impression de clarté et de qualité (subjective). Flagellez-vous sur le champ.

    Tu m’entends POC ? Il est pour toi ce chapitre !!!

    Bon ok... euh... alors comment on choisit ?

    La fréquence d’échantillonnage doit être au moins le double de la fréquence qu’on a à enregistrer. On a coutume de dire que l’oreille humaine entend de 20Hz à 20kHz, ce qui est une bêtise, car cela se rapproche plus de 80Hz, 11/15kHz (selon les personnes). Au dessus et en dessous de ces valeurs, on ressent bien des trucs, mais on n’entend pas.

    Donc, adaptez votre fréquence d’échantillonnage en fonction du spectre du votre signal initial.

    Je vais mettre un terme tout de suite à la rumeur qui dit que si on a choisi 44.1kHz, c’est parce que c’est le double de ce que peut entendre l’oreille humaine. C’est FAUX !
    Cette valeur provient de la norme image NTSC noir et blanc, dans laquelle on décrit 30images/seconde en 490 lignes et 3 échantillons par ligne.

    30 x 490 x 3 = 44100.

    Ohhh...

    Le PAL couleur (TV française) est aussi un dérivé, en 25 images/s sur 588 lignes et 3 échantillons/ligne

    25 x 588 x 3 = 44100

    Ohhh...

    Bref, pourquoi 44.1 ? Parce que c’est simple d’en retrouver partout, c’est comme ça qu’on fait les standards. Ca permet entre autres de synchroniser facilement l’image et le son, voire même d’enregister du son numérique sur un support initialement conçu pour de l’image, comme par exemple un magnétoscope (pour les connaisseurs, un ADAT n’est jamais qu’un gros magnétoscope...)

    Pour votre culture, le 48kHz provient d’une extension du son numérique télé japonais - initialement 32kHz - sur lequel ces messieurs du Japon voulaient faire du varispeed (changer la vitesse du son en live). Il y a un rapport de 2/3 entre ces 2 fréquences. Etonnant, non ?

    Ok, alors 44.1kHz permet d’enregistrer au maximum du 22.050 ?

    La règle du double de fréquence d’échantillonnage n’est pas forcément réciproque. Les équipements du marché annoncent souvent une bande passante (et oui, ce n’est pas un terme réservé à Internet) allant de 20Hz à 20kHz. La tranche de 20k à 22k - les extrêmes aigus donc - est filtrée pour éviter les phénomènes d’aliasing que j’expliquerai peut-être un jour... si vous avez du temps. En gros, l’aliasing est un phénomène qui fait se replier une fréquence très aigue dans le spectre audible. Résultat : corruption atroce du signal d’origine. On peut avoir de l’aliasing quand le signal enregistré ne respecte pas la règle du double de fréquence, ou quand on fait du ré-échantillonnage sans faire attention (exemple : lecture d’un échantillon 48kHz à 11kHz...).

    Bref, l’aliasing peut être évité grâce à un filtrage de hautes fréquences plutôt béton qu’on appelle parfois "mur de brique". Dans le cas du 44.1 kHz, au delà de 20kHz, on coupe tout.

    Ma carte fait du 96kHz, 24bits alors je peux prendre ça ?

    Si ça vous chante... néanmoins, il y a le problème de la place, et des sons récupérés à droite ou à gauche en 16 bits 44.1 qu’il faudra convertir en 24bits 96kHz, dommage puisque la moitié de la bande utile ne sera pas utilisée pour ces sons là. Sinon, n’oubliez pas que la finalité est d’en faire un MP3, et que ce traitement ne justifie pas un enregistrement à 24bits, 96kHz.

    Peut-on faire du 20/24bits 44.1kHz ?

    Les cartes son de type grand public (moins 400€ environ) ne disposent en général que d’un seul convertisseur numérique/analogique. De fait, quand vous faites jouer 2 sons de résolutions différentes, l’un des 2 sera joué avec la résolution de l’autre. En général, ce sera la résolution la plus faible qui sera selectionnée. Autant dire que ça ne sert donc à rien de mixer les résolutions. Et n’oubliez pas que la plupart des cartes son de vos auditeurs ne supporteront peut-être pas d’autres résolutions que 16 bits. Dans le pire des cas, vos aventures seront silencieuses pour cette catégorie de personnes (NDLR : comme Mozart, pour lequel le silence d’après Mozart est encore du Mozart). Il y a des cartes avec lesquelles le mixage de résolutions peut fonctionner. Personnellement, je n’en connais pas dans le range < 400€. Jouez la sécurité : 16 bits 44.1kHz c’est une valeur sûre.

    Quels sont les autres formats que le disque dur

    Les formats à bande par exemple comme les lecteurs DAT, ou les multipistes numériques de type ADAT ou DA-88 Tascam.
    Je pourrais passer des semaines à expliquer tout ça, mais ça ne vous sera pas très utile.

  • Commentaires inutiles

    Pour pouvoir enregistrer des commentaires, vous devez être inscrit !
    Attention : Kikoo-mode interdit ! Tous les messages Kikoo/SMS seront supprimés