KULT Underground

una della più "antiche" e-zine italiane – attiva dal 1994

Computer Music

6 min read

Computer Music (3)

Questo mese entreremo nel vivo della materia e parleremo di un argomento molto più attinente all’elettronica ed ai computers: la rappresentazione, l’analisi e la sintesi digitale di un suono.
L’argomento è veramente molto vasto e, per quanto mi sforzerò di essere il più possibile sintetico cercando di evitare approfondimenti non indispensabili alla comprensione, saranno necessari diversi mesi per sviluppare interamente il tema. I capitoli da toccare sono infatti:
* Rappresentazione digitale di un suono
Vedremo come è possibile rappresentare univocamente con dei numeri la forma d’onda di un suono.
* Teorie della percezione timbrica
Verrà descritto in quale modo si ottiene la percezione di un determinato timbro, secondo la teoria classica (che potremmo definite statica) e la teoria moderna (dinamica).
* Metodi di sintesi di un suono
Vedremo come è possibile generare un suono conoscendo l’effetto timbrico che si vuole ottenere
* Tecniche di alterazione dei suoni
Verranno descritte alcune tecniche per modificare un suono già esistente: un esempio è il filtraggio, ma le applicazioni sono molteplici.

Al termine di questa serie di articoli si parlerà di percezione in tre dimensioni del suono; verrà poi data una descrizione dei principali effetti utilizzati nella musica per passare infine agli strumenti elettronici ed allo standard MIDI. Arrivati a questo punto saremo ormai verso la fine di quest’anno, per cui non oso più fare anticipazioni.

———————————————————————-

Rappresentazione digitale di un suono

Come può un computer, strumento adatto alla manipolazione di informazioni numeriche, lavorare col suono?
Abbiamo visto le volte scorse che un suono può essere rappresentato sul piano cartesiano come un grafico che mostra il variare della pressione acustica in funzione del tempo. Supponiamo che la pressione sia limitata entro due valori (il minimo ed il massimo della funzione): chiamiamo dinamica l’intervallo entro cui la funzione è limitata.
Il suono così rappresentato non è adatto ad essere trattato numericamente perchè presenta due grossi inconvenienti:
* all’interno della dinamica può assumere un numero infinito di

valori mentre sappiamo che una macchina (come un computer o un

DSP) non può rappresentare un numero con una precisione

infinita, ma soltanto con un valore approssimato.

* può assumere valori diversi anche in due istanti di tempo

estremamente vicini; sappiamo però che i microprocessori sono

macchine discrete nel tempo cioè hanno un minimo tempo che deve

intercorrere fra due operazioni (detto periodo di clock).

Si può risolvere il primo problema discretizzando in ampiezza il suono. In sostanza si divide la dinamica del suono in N intervalli che vengono poi numerati da 0 ad N-1. Quando si vuole determinare il valore della pressione in un determinato istante di tempo, si guarda dentro a quale intervallino è compresa la funzione e si indica il numero di quell’intervallo.
Naturalmente all’aumentare della quantità di intervalli in cui viene divisa la dinamica, migliorerà la qualità del suono perchè la sua rappresentazione sarà più fedele.
Un suono così discretizzato è soltanto un’approssimazione di quello originale, per cui “suonerà” in maniera diversa; l’effetto acustico che si ottiene è semplicemente la presenza di un fruscìo detto rumore di quantizzazione, tanto più accentuato quanto più grossolana è la suddivisione della dinamica. In particolare il rapporto segnale/disturbo di un segnale quantizzato è di 6n-k dB, dove 2^n è il numero degli intervalli in cui la dinamica è divisa, mentre k dipende dal fattore di picco, cioè da quanto il suono sfrutta la dinamica a sua disposizione. Infatti l’intensità del rumore non varia al variare dell’intensità del suono, per cui più è bassa l’intensità del suono più elevato è il rapporto segnale/disturbo.
La quantità di intervalli con cui si suddivide la dinamica si misura in bit e più precisamente come la quantità di bit necessaria alla rappresentazione di tutti gli intervalli. Se n è il numero di bit ed N
è il numero di intervalli, N=2^n.
I valori più comuni sono:
* 8-bit (256 intervalli) usati dalle schede audio dei computers e

nella telefonia. Il rapporto S/N teorico è 48dB, ma considerando

la diversa natura dei segnali da trattare è in generale attorno

ai 40dB.

* 16-bit (65536 intervalli) usati dai lettori di CD e nelle schede

audio. Il rapporto S/N teorico è di 96dB, mentre in realtà si

raggiungono al massimo 86-88dB.

* 18/20/24-bit usati da apparecchiature professionali in sala di

incisione.

Clickando qui si può sentire il risultato acustico della quantizzazione.

Il secondo problema è un po’ più complesso ma fortunatamente non provoca ulteriori distorsioni al segnale. Il principio di funzionamento è lo stesso di quello di un proiettore cinematografico: nella realtà gli attori si muovono con continuità, mentre nei fotogrammi sulla pellicola si muovono con scatti che si susseguono ad intervalli regolari di tempo: questi istanti sono così brevi che l’occhio umano rimane ingannato e non li vede.
Nel campo acustico il procedimento è lo stesso e prende il nome di campionamento. Si fissa un tempo T detto periodo di campionamento e ad ogni periodo T viene “fotografata” la forma d’onda del suono, viene cioè stabilito entro quale intervallino la forma d’onda risiede al momento. Un valore così prelevato si chiama campione. Naturalmente T ha un valore molto piccolo, nell’ordine dei microsecondi.
In generale si utilizza un’altra misura, la frequenza di campionamento che vale 1/T e si misura in Hz; la frequenza di campionamento rappresenta la quantità di campioni letti in un secondo. E’ ovvio che maggiore è la frequenza di campionamento, maggiore sarà l’accuratezza con cui il segnale verrà rappresentato. Istintivamente si è portati a pensare che soltanto con una frequenza di campionamento infinita sia possibile rappresentare esattamente il segnale originario, ma fortunatamente il teorema di Shannon dimostra che è sufficiente campionare un segnale con una frequenza di campionamento almeno doppia della massima frequenza che si vuole rappresentare. Analogamente si può affermare che la massima frequenza contenuta nel segnale analogico deve essere inferiore alla metà della frequenza di campionamento.
Questo valore è chiamato frequenza di Nyquist ed è il limite teorico per la massima frequenza che un sistema audio digitale può trattare.
Dato che l’orecchio umano non può sentire frequenze al di sopra dei
20KHz, è sufficiente scegliere una frequenza superiore ai 40KHz ed infatti lo standard è di 44.1KHz per i lettori di CD e di 48KHz per i
DAT ed in generale per le apparecchiature professionali.
Cosa succede se si tenta di campionare un segnale con una frequenza Fs usando una frequenza di campionamento Fc se siamo nella condizione
Fs>Fc/2? Si verifica un fenomeno di distorsione che si chiama aliasing. Senza scendere in dettagli matematici, possiamo dire che si genererà una componente non desiderata della frequenza di Fc/2 – Fs.
Lo stesso fenomeno si verifica nella cinematografia quando vengono ripresi durante un inseguimento i carri degli indiani e, nonostante il carro si muova in avanti, si ha l’impressione che le ruote girino all’indietro.
Questo problema si risolve in maniera molto semplice filtrando, prima del campionamento, tutte le frequenze che non possono essere rappresentate, cioè quelle oltre la metà della frequenza di campionamento. Per gli stessi motivi, un uguale filtro deve essere utilizzato durante la riproduzione del suono. Si può eseguire il filtraggio con dei semplici filtri elettronici (reti RC).

Vediamo un qualche esempio pratico di quanto descritto: supponiamo di campionare a 40kHz una sinusoide di ampiezza unitaria e di frequenza
10kHz. Il segnale digitale risultante sarà la sequenza 1, 0, -1, 0, 1,
0, -1, 0,… Quando il segnale è nuovamente convertito in analogico e passa per il filtro passa basso, viene di nuovo trasformato in una sinusoide. Ma perchè il filtro estrae una sinusoide e non un segnale della stessa frequenza ma con un altra forma d’onda, ad esempio un segnale triangolare ottenibile congiungendo con una retta i vari campioni? Dall’analisi di Fourier sappiamo che un segnale periodico contiene delle armoniche di frequenza multipla della fondamentale. Nel nostro caso il segnale a 10kHz contiene delle armoniche di frequenza
20kHz, 30kHz, 40kHz,… tutte maggiori o uguali della metà della frequenza di campionamento, che perciò a livello teorico non possono essere rappresentate e devono essere eliminate con un filtro passa basso. Rimane quindi soltanto la fondamentale che è una sinusoide a
10kHz..

Per ora è tutto, ma prima di rinnovare l’appuntamento al prossimo mese vorrei ricordare che, nel caso ci siano domande, chiarimenti da chiedere o semplici curiosità del tipo “Come mai nei CD audio la frequenza di campionamento è di 44.1KHz e non di 40KHz, comunque sufficiente secondo il teorema di Shannon?”, potete contattarmi tramite la redazione o su internet.

Thomas Serafini

Commenta