Personalizzare Speaken

4 min read

29 anni fa Thomas Serafini

Personalizzare Speaken

Dopo lo scorso mese, in cui Speaken ha acquistato una nuova voce, a seguito di suggerimenti arrivati da diverse persone, mi è sembrato utile spiegare come è possibile personalizzare il sistema di sintesi vocale con la propria voce; in questo articolo descriverò quindi il funzionamento di Speaken e i passi da seguire per creare un archivio della propria voce, nonchè alcuni suggerimenti per ottenere velocemente risultati soddisfacenti.

Le informazioni sulla voce usata da Speaken risiedono nei files “.RES” i quali sono un insieme di suoni campionati ciascuno rappresentante un determinato fonema della lingua italiana. Per personalizzare la propria voce bisognerà quindi campionare una serie di fonemi ed unirli per creare un file di risorse.
I passi da seguire sono i seguenti:

———————————————————————-

Campionamento

Bisogna inizialmente campionare i fonemi, gli elementi fonetici minimi della lingua italiana, che nel nostro caso sono tutte le consonanti semplici e doppie, tutte le vocali accentate e non accentate ed infine alcuni dittonghi. Ciascuno di questi fonemi deve essere campionato a
22KHz e 8bit e salvato in un file “.WAV”. Di seguito è presente un elenco di tutti i fonemi utilizzati da Speaken; per questioni di chiarezza sono riportate parole intere in cui una o più lettere sono scritte in maiuscolo: sono queste le lettere che indicano il fonema da campionare. Ad esempio “pieDi” indica che bisogna campionare la “D” mentre “aGLio” indica che bisogna campionare il suono “GL”. Bisogna prestare attenzione anche alla differenza fra vocali accentate e non accentate: ad esempio “pAvone” è diverso da “cAsa” perchè nel secondo caso la “A” è accentata mentre nel primo no.
Di fianco a ciascuna parola infine è indicato il nome del file “.WAV” in cui salvare il suono.
pAvone A.WAV cAsa AA.WAV cAUsa AU.WAV bimBo B.WAV baBBo BB.WAV noCe C.WAV boCCe CC.WAV oDe D.WAV aDDio DD.WAV vEdere E.WAV cErto EE.WAV aFa F.WAV muFFa FF.WAV aGo G.WAV fuGGo GG.WAV aGLio GL.WAV oGNi GN.WAV pIgnone I.WAV andIAmo IA.WAV pIEdi IE.WAV pIno II.WAV aGire J.WAV oGGi JJ.WAV oCa K.WAV boCCa KK.WAV aLa L.WAV paLLa LL.WAV aMo M.WAV maMMa MM.WAV piNo N.WAV paNNa NN.WAV pOlonia O.WAV pOsto OO.WAV aPe P.WAV coPPa PP.WAV oRa R.WAV sbaRRa RR.WAV caSa S.WAV peSCe SC.WAV perSo SIB.WAV oSSo SS.WAV viTa T.WAV oTTo TT.WAV pUnire U.WAV nUlla UU.WAV uoVo V.WAV oVVio VV.WAV
Zona Z.WAV piZZa ZZ.WAV

Dopo avere campionato questa serie di fonemi a 22KHz, 8 bit e salvati in formato “.WAV” potete passare al secondo punto.

———————————————————————-

Compilazione

Per unire tutti i fonemi precedentemente campionati ed ottenere un file di risorse è necessario utilizzare il programma COMPILE che potete scaricare cliccando qui. E’ sufficiente copiare questo file nella stessa directory in cui sono stati salvati i fonemi e lanciarlo senza nessun parametro sulla riga di comando. Dopo alcuni brevi istanti verrà creato il file TALK.RES che è già pronto all’uso.
L’unica limitazione è che questo tipo di file non può essere utilizzato con i vecchi numeri di KULT ma soltanto da questo numero in poi.

Dopo aver fatto i vostri esperimenti passate alla terza fase.

———————————————————————-

DISPERAZIONE

Che orrore!!!! Ho seguito tutte le indicazioni ma il risultato è fra il pessimo e l’insopportabile. Sono stato vittima di un brutto scherzo, studiato soltanto per farmi perdere tempo. Basta, ora cancello tutto.
Purtroppo è vero! i primi esperimenti danno quasi sempre risultati non troppo soddisfacenti. Vediamo allora alcuni consigli per migliorare la qualità della resa finale.
E’ importante che tutti i fonemi, in particolar modo le vocali, siano campionati con lo stesso livello di intensità e che abbiano la stessa durata. Ma è molto più importante che le vocali abbiano la stessa tonalità. Sarebbe opportuno aiutarsi con uno strumento musicale: si pronuncia una parola e si guarda a che nota corrisponde la sua altezza e quando si campionano le vocali si usa lo strumento per avere il riferimento della tonalità.
Per ottenere dei suoni più naturali è bene non campionare il singolo fonema ma campionare un’intera parola che contenga il fonema e successivamente con un programma di wave-editing tenere soltanto la parte di campioni corrispondente al fonema.
E’ infine necessario fare in modo che il campione iniziale e finale di ogni fonema sia a livello zero, per evitare fastidiosi ticchettii nel passaggio fra una lettera ed un’ altra.

Ovviamente il sistema più efficiente è quello di fare tante prove, tanti esperimenti, perchè la voce di ciascuno di noi ha delle proprie caratteristiche e quindi non c’è un metodo globale adattabile a tutti; ciascuno deve trovare l’intonazione e lo stile migliore per sè.
Non mi resta che augurarvi buon lavoro.

Thomas Serafini