Compressione audio: Lossy e Lossless

La compressione audio è una tecnica che permette di ridurre le dimensioni di un file audio o la banda passante richiesta per una trasmissione audio.
Il compact disc audio è la versione originale dei CD, da cui sono derivati tutti gli altri formati. La struttura fisica del disco ed i protocolli di memorizzazione dei dati è descritta nel Red Book (letteralmente: “libro rosso”), redatto da Sony e Philips nel 1980, anno in cui cominciò la vendita dei CD.
Le specifiche prevedono una capacità standard per un CD Audio di 747 MB, equivalenti, tenendo conto dello spazio occupato per la correzione di errore, a 74 minuti di musica stereofonica campionata a 44,1 kHz.
Su un compact disc il suono è memorizzato in formato digitale: l’andamento della pressione sonora è misurato (campionato) ad intervalli regolari e il valore è descritto da una sequenza di 16 bit. I bit sono incisi sul disco in un’unica traccia lunga oltre 5 Chilometri sotto forma di zone più o meno riflettenti (pits e lands) la luce.
Se si prova a consultare il contenuto di un CD musicale si vedono tanti file con estensione .CDA. Se però si osserva la dimensione di uno di questi file, si nota che sono lunghi pochi byte. I file .CDA non sono esattamente dei file audio, ma contengono soltanto i riferimenti sulla durata della traccia audio vera e propria contenente la codifica digitale del file audio e forniscono al riproduttore audio dei riferimenti per la traccia che si trova sul CD.

Codec

Un codec è un programma o un dispositivo che si occupa di codificare e/o decodificare digitalmente un segnale (tipicamente audio o video) perché possa essere salvato su un supporto di memorizzazione o richiamato per la sua lettura.
Tale programma può essere installabile/aggiornabile (su personal computer o apparecchiature multimediali predisposte) oppure essere integrato in un componente hardware dedicato (ad es. nei lettori CD o DVD casalinghi o in alcune schede video/audio per PC).
Oltre alla digitalizzazione del segnale, i codec effettuano anche una compressione (e/o decompressione in lettura) dei dati ad esso relativi, in modo da poter ridurre lo spazio di memorizzazione occupato a vantaggio della portabilità o della trasmissività del flusso codificato.
Per realizzare una compressione si fa ricorso alla riduzione delle frequenze da riprodurre (in alcuni codec audio vengono soppresse le frequenze non udibili dall’orecchio umano) o alla eliminazione delle ridondanze.
Esistono vari tipi di codec, differenti tra loro per il tipo di segnale su cui devono operare e per l’algoritmo di codifica/compressione in essi implementato.
Il codec permette di ascoltare formati proprietari e aperti da qualunque lettore di file, mantenendo separati il livello fisico del formato da quello logico della sua rappresentazione.

Motivazioni

I motivi della compressione sono:

occupare minor spazio in fase di immagazzinamento
impiegare minor tempo in fase di trasferimento dati.

Il costo è l’aumento dei tempi di lettura/scrittura legati rispettivamente a tempi di decompressione/compressione. Nel caso di file audio si ha un costo soprattutto in termini di qualità dell’audio.

Tipologie

Esistono due tipi di compressione:

– con perdita (Lossy): quando l’informazione contenuta nel file compresso è minore di quella contenuta nel file di origine;
– senza perdita (Lossless): quando l’informazione contenuta nel file compresso è identica a quella contenuta nel file di origine.

La prima permette compressioni maggiori, ma a scapito della qualità sonora.

Compressione Lossy

I metodi di compressione lossy in generale tendono a scartare le informazioni ritenute inutili, mantenendo solo quelle essenziali.
I formati lossy nascono dall’idea che i suoni, o meglio le frequenze contenute in un brano musicale, non vengono tutte percepite dall’orecchio umano. Si vanno allora a “tagliare le alte frequenze, che si ritiene siano quelle meno distinte dal nostro orecchio. Ovviamente più frequenze si “tagliano” più lo spazio occupato dalla traccia audio diminuisce, e quindi diminuisce anche la qualità del risultato.
La riconversione, partendo dai formati lossy, non permette di riportare la traccia audio al livello di qualità originale. E questo in quanto non consente di ripristinare le frequenze “tagliate”. In realtà esistono software che permettono di ripristinare alcune di queste alte frequenze, ma logicamente più di tanto non è possibile fare.

Ecco un elenco dei codec e dei principali formati musicali lossy:

MP3 (o, più esattamente “MPEG-1/2 Audio Layer 3”)

Algoritmo di compressione audio in grado di ridurre drasticamente la quantità di dati richiesti per riprodurre un suono, riuscendo nel compromesso di ottenere una riproduzione quasi fedele del file originale non compresso. Il migliore codec per la compressione è il Lame. Bitrate massimo raggiungibile 320 Kbps

WMA (Windows Media Audio)

Standard per file audio inventato dalla Microsoft. Formato di compressione audio molto simile a un MP3.

OGG (Vorbis)

Vorbis è un algoritmo open source per la compressione audio digitale di tipo lossy, diretta antagonista di altri standard come MP3, VQF, AAC. A parità di qualità percepita, permette una maggiore compressione rispetto al formato MP3, ottenuta mediante avanzate ricerche di psicoacustica.

MPC (MusePack)

Formato di compressione audio open source. Presenta molte analogie con lo standard MP3, ma la sua qualità è migliore a parità di bitrate. È noto anche come MPEGplus, MPEG+ o MP+, ..
Musepack è ottimizzato principalmente per l’encoding con un bitrate di 175-185 kbit/s. Pochissimi miglioramenti sono stati fatti per i bitrate inferiori (come 128 kbit/s). Nonostante tutto, numerosi test hanno verificato una buona resa in tutti i livelli di bitrate.

AAC (Advanced Audio Coding)

Il formato AAC è un formato di compressione audio creato dal consorzio MPEG (Moving Picture Experts Group) e incluso ufficialmente nell’MPEG-4. L’AAC fornisce una qualità audio superiore al formato MP3 con una codifica più compatta. Attualmente viene utilizzato principalmente da Apple nei suoi prodotti dedicati all’audio (iTunes), difatti Apple usa una variante dell’AAC che gestisce i diritti d’autore per vendere musica attraverso il proprio negozio di musica on-line iTunes Store. Una compressione a 128 Kbps, lo standard di iTunes Store, corrisponde a quella di un MP3 a 192 Kbps a bitrate costante.
La qualità è estremamente elevata, seppure i tempi di conversione sono un po’ più lenti rispetto agli altri formati.

AC3 (Dolby Digital)

Il Dolby Digital è un sistema di codifica audio multicanale sviluppato da Dolby Laboratories Inc ed utilizzato al cinema, nella TV digitale, nei Laser Disc, DVD ed in altri supporti di riproduzione o tramsissione audio digitale.
Il Dolby Digital lavora da un minimo di 96 kbps ad un massimo di 640 kbps. Al cinema il Dolby Digital viene utilizzato con appena 320 kbps di banda, poiché stampato nel poco spazio disponibile fra i fori di scorrimento delle pellicole. Generalmente su DVD viene utilizzato con un bitrate di 192 kbps per codificare segnali stereo (2.0, 2.1) o stereo surround, e con un bitrate compreso fra 384 e 448 kbps per i segnali 5.1. Sebbene i decoder in commercio possano lavorare fino a 640 kbps, tale possibilità non è permessa nella codifica Dolby Digital dei DVD-Video, pertanto ad oggi non viene utilizzata.

Compressione Lossless

I formati lossless invece cercano di diminuire lo spazio occupato dalla traccia senza andare a toccare il suono; la percentuale di compressione sarà decisamente inferiorerispetto ai lossy, ma non ci sarà perdita di qualità. Se riconvertito partendo dal formato lossless, il suono sarà identico a prima.

WAV (o WAVE)

Formato audio sviluppato da Microsoft e IBM per personal computer IBM-compatibile.
In un brano musicale WAV, la batteria, il pianoforte, la chitarra, il basso o la voce si sentono allo stesso modo indipendentemente dal PC su cui il file viene ascoltato (a parità di qualità acustica dei componenti hardware, naturalmente).

FLAC (Free Lossless Audio Codec)

Diffuso codec audio libero di tipo lossless, attualmente ha un buon supporto da parte di vari software audio.
FLAC diversamente dalla maggiorparte degli algoritmi di compressione lossless (come ZIP e gzip, per esempio), raggiunge compressioni importanti, dell’ordine del 30-50%. Gli algoritmi lossless tradizionali raggiungono soltanto un 10-20%.

APE (Monkey Audio)

Formato no lossy che permette di ridurre di circa il 50% lo spazio occupato dalla nostra musica (in certi casi anche di più). Attualmente non più sviluppato.

LA (Lossless Audio)

Il formato no-lossy che comprime di più. La conversione in questo formato è lentissima, però ottiene la migliore compressione in assoluto. E’ poco diffuso, dato che probabilmente qualche MB guadagnato sull’ape non vale le lunghe attese in più (e un minor supporto da parte degli altri software).

WV, WVC (Wavpack)

E’ un valido formato di compressione open source, che permette sia risultati lossless, lossy e ibridi. La velocità di compressione è altissima, e il grado di compressione buono (l’album di riferimento occuperà circa 320 MB). Interessante anche il formato ibrido, in cui al file lossy si affianca un altro file, che permetterà di ricostruire interamente il file originale in maniera lossless nel caso lo volessimo ripristinare.

Bitrate

I file multimediali sono per loro natura connessi al tempo che scorre. In altri termini ad ogni secondo è associato un certo contenuto informativo e quindi una certa sottosequenza di cifre binarie. Il numero di cifre binarie che compongono queste sottosequenze è detto bitrate. In altre parole il bitrate è il numero di cifre binarie impiegate per immagazzinare un secondo di informazione. Questo può essere costante per tutta la durata del file o variare all’interno di esso. Ad esempio i cd musicali vengono campionati (registrati) ad una frequenza pari a 44.100Hz. Da ciò si evince che ogni secondo si hanno 44.100 valori registrati dall’ipotetico microfono che vanno poi moltiplicati per i 2 canali del suono stereo che vanno a loro volta moltiplicati per 2 poiché la registrazione avviene a 16 bit (pari appunto a 2 byte). Quindi avremo:
44.100 x 2 x 2 x 60 (secondi) = ~10 MB ogni minuto
Il bitrate si esprime in kilobit per secondo (kbps) e in LAME varia da 32kbps (il minimo) a 320kbps (il massimo).
La compressione, diminuendo la lunghezza globale del file, diminuirà di conseguenza la lunghezza media delle sottosequenze ossia diminuirà il bitrate medio. Il bitrate medio diventa dunque in questi casi l’indice dell’entità della compressione. Ad esempio se il file di origine possedesse un bitrate di 1411 Kbps (bitrate dei brani presenti su CD Audio) e il file compresso possedesse un bitrate medio di 320 Kbps, allora avremmo ridotto di un fattore pari a circa 4.5.
Una compressione lossy effettua un compromesso fra la perdita d’informazione e la dimensione del file finale, mentre una lossless deve bilanciare la dimensione del file finale con i tempi di esecuzione dell’algoritmo.

Esistono attualmente 3 tipologie di implementazione del bitrate in mp3 :

CBR: Costant BitRate (bitrate costante) è la modalità più semplice, più usata e ormai meno efficace (tranne nel caso di bitrate massimo, per esigenze di archiviazione e senza badare alle dimensioni file). Il bitrate rimane costante in ogni frame e questo significa che l’encoder utilizzerà sempre la stessa quantità di bit per codificare ogni passaggio musicale. In pratica i passaggi più complessi avranno una qualità inferiore di quelli semplici visto che saranno codificati con un numero sempre uguale di bit, mentre ne servirebbero di più per i passaggi complessi e di meno per quelli semplici. Un grosso vantaggio di questa modalità è che la dimensione del file risultante è sempre proporzionale alla durata del pezzo e facilemente valutabile.

ABR: Average BitRate (bitrate medio) è una modalità che ha una resa superiore al CBR e consiste in una sorta di bitrate “variabile”. L’encoder codificherà i passaggi che lo necessitano con più bit e quelli più semplici con meno, cercando di mantenere nell’intero file il bitrate MEDIO impostato. In questo modo la dimensione del file sarà sempre abbastanza prevedibile e proporzionale tuttavia si ha un vantaggio in qualità rispetto a cbr in quanto i bit risparmiati nei passaggi musicali semplici saranno utilizzati per aumentare la risoluzione di quelli più complessi.

VBR: Variable BitRate (bitrate variabile) è una modalità dove c’è un bitrate realmente variabile. Impostando un indice di qualità e un bitrate massimo e minimo l’encoder codificherà ogni frame utilizzando il bitrate più appropriato, quindi per i passaggi musicali via via più complessi verrà utilizzato un bitrate sempre più alto o massimo e per i passaggi musicali più facili verrà utilizzato più basso.

– Fonte: Wikipedia

Il mio primo articolo, quindi siate buoni. Se l’argomento vi interessa continuerò a parlare di compressione e di programmi ad esso correlati.

Spotify lancia la possibilità di ascoltare tracce in altissima qualità
Spotify lancia la possibilità di ascoltare tracce in altissima qualità
Suonare un libro
Suonare un libro
Philips GoGear
Philips GoGear