KULT Underground

una della più "antiche" e-zine italiane – attiva dal 1994

Personalizzare Speaken

4 min read

Personalizzare Speaken

Dopo lo scorso mese, in cui Speaken ha acquistato una nuova voce, a seguito di suggerimenti arrivati da diverse persone, mi è sembrato utile spiegare come è possibile personalizzare il sistema di sintesi vocale con la propria voce; in questo articolo descriverò quindi il funzionamento di Speaken e i passi da seguire per creare un archivio della propria voce, nonchè alcuni suggerimenti per ottenere velocemente risultati soddisfacenti.

Le informazioni sulla voce usata da Speaken risiedono nei files “.RES” i quali sono un insieme di suoni campionati ciascuno rappresentante un determinato fonema della lingua italiana. Per personalizzare la propria voce bisognerà quindi campionare una serie di fonemi ed unirli per creare un file di risorse.
I passi da seguire sono i seguenti:

———————————————————————-

Campionamento

Bisogna inizialmente campionare i fonemi, gli elementi fonetici minimi della lingua italiana, che nel nostro caso sono tutte le consonanti semplici e doppie, tutte le vocali accentate e non accentate ed infine alcuni dittonghi. Ciascuno di questi fonemi deve essere campionato a
22KHz e 8bit e salvato in un file “.WAV”. Di seguito è presente un elenco di tutti i fonemi utilizzati da Speaken; per questioni di chiarezza sono riportate parole intere in cui una o più lettere sono scritte in maiuscolo: sono queste le lettere che indicano il fonema da campionare. Ad esempio “pieDi” indica che bisogna campionare la “D” mentre “aGLio” indica che bisogna campionare il suono “GL”. Bisogna prestare attenzione anche alla differenza fra vocali accentate e non accentate: ad esempio “pAvone” è diverso da “cAsa” perchè nel secondo caso la “A” è accentata mentre nel primo no.
Di fianco a ciascuna parola infine è indicato il nome del file “.WAV” in cui salvare il suono.
pAvone        A.WAV cAsa        AA.WAV cAUsa        AU.WAV bimBo        B.WAV baBBo        BB.WAV noCe        C.WAV boCCe        CC.WAV oDe        D.WAV aDDio        DD.WAV vEdere        E.WAV cErto        EE.WAV aFa        F.WAV muFFa        FF.WAV aGo        G.WAV fuGGo        GG.WAV aGLio        GL.WAV oGNi        GN.WAV pIgnone     I.WAV andIAmo     IA.WAV pIEdi        IE.WAV pIno        II.WAV aGire        J.WAV oGGi        JJ.WAV oCa        K.WAV boCCa        KK.WAV aLa        L.WAV paLLa        LL.WAV aMo        M.WAV maMMa        MM.WAV piNo        N.WAV paNNa        NN.WAV pOlonia        O.WAV pOsto        OO.WAV aPe        P.WAV coPPa        PP.WAV oRa        R.WAV sbaRRa        RR.WAV caSa        S.WAV peSCe        SC.WAV perSo        SIB.WAV oSSo        SS.WAV viTa        T.WAV oTTo        TT.WAV pUnire        U.WAV nUlla        UU.WAV uoVo        V.WAV oVVio        VV.WAV
Zona        Z.WAV piZZa        ZZ.WAV

Dopo avere campionato questa serie di fonemi a 22KHz, 8 bit e salvati in formato “.WAV” potete passare al secondo punto.

———————————————————————-

Compilazione

Per unire tutti i fonemi precedentemente campionati ed ottenere un file di risorse è necessario utilizzare il programma COMPILE che potete scaricare cliccando qui. E’ sufficiente copiare questo file nella stessa directory in cui sono stati salvati i fonemi e lanciarlo senza nessun parametro sulla riga di comando. Dopo alcuni brevi istanti verrà creato il file TALK.RES che è già pronto all’uso.
L’unica limitazione è che questo tipo di file non può essere utilizzato con i vecchi numeri di KULT ma soltanto da questo numero in poi.

Dopo aver fatto i vostri esperimenti passate alla terza fase.

———————————————————————-

DISPERAZIONE

Che orrore!!!! Ho seguito tutte le indicazioni ma il risultato è fra il pessimo e l’insopportabile. Sono stato vittima di un brutto scherzo, studiato soltanto per farmi perdere tempo. Basta, ora cancello tutto.
Purtroppo è vero! i primi esperimenti danno quasi sempre risultati non troppo soddisfacenti. Vediamo allora alcuni consigli per migliorare la qualità della resa finale.
E’ importante che tutti i fonemi, in particolar modo le vocali, siano campionati con lo stesso livello di intensità e che abbiano la stessa durata. Ma è molto più importante che le vocali abbiano la stessa tonalità. Sarebbe opportuno aiutarsi con uno strumento musicale: si pronuncia una parola e si guarda a che nota corrisponde la sua altezza e quando si campionano le vocali si usa lo strumento per avere il riferimento della tonalità.
Per ottenere dei suoni più naturali è bene non campionare il singolo fonema ma campionare un’intera parola che contenga il fonema e successivamente con un programma di wave-editing tenere soltanto la parte di campioni corrispondente al fonema.
E’ infine necessario fare in modo che il campione iniziale e finale di ogni fonema sia a livello zero, per evitare fastidiosi ticchettii nel passaggio fra una lettera ed un’ altra.

Ovviamente il sistema più efficiente è quello di fare tante prove, tanti esperimenti, perchè la voce di ciascuno di noi ha delle proprie caratteristiche e quindi non c’è un metodo globale adattabile a tutti; ciascuno deve trovare l’intonazione e lo stile migliore per sè.
Non mi resta che augurarvi buon lavoro.

Thomas Serafini

Commenta