Sono molte le aziende che si occupano della produzione e commercializzazione di sistemi che prevedono l’utilizzo della tecnologia legata ai comandi vocali.
Le applicazioni sono innumerevoli: basti pensare alla domotica, settore in fortissima espansione che interessa molte aziende che operano nel campo dell’elettronica, o alla strumentazione socio-medicale di ausilio agli ipovedenti o a chi è colpito da invalidità motoria, o più semplicemente a chi si occupa di sviluppo di sistemi software che prevedono la dettatura vocale (sistemi per traduzione e redazione).
Senza poi dimenticare le software house che si occupano di servizi per la telefonia automatica. Sì perché alla base dei centralini automatici che smistano il servizio a seconda del comando vocale, dietro i comuni sistemi di dettatura automatica (Dragon Naturally Speaking, per dare un esempio), dietro i telefoni cellulari con la possibilità di effettuare la composizione vocale della chiamata, ci sono dei modelli acustici per il riconoscimento vocale sviluppati dai programmatori.
Per sviluppare questo tipo di algoritmi, ci sono due importanti formati di files che devono essere “integrati” tra loro: il primo formato è costituito dagli Acoustic Models, mentre al secondo appartengono i cosiddetti Grammar Files e Language Models.
Per la creazione degli Acoustic Models è necessario un gran numero di registrazioni di campioni vocali e le loro rispettive trascrizioni, chiamate Speech Corpus, o Corpora.
I Language Models, invece, stabiliscono una corrispondenza tra determinate sequenze di parole e probabilità di interpretazione del suono. Per quanto riguarda i Grammar Files, essi non sono altro che combinazioni di parole utili a stabilire le regole grammaticali principali.
Nei principali sistemi di riconoscimento vocale (sia open source che proprietari), l’accesso alle librerie non è consentito, o comunque è soggetto a restrizioni derivanti dalla presenza di una licenza, per cui gli Acoustic Models non sono accessibili e modificabili.
Per venire incontro a questa limitazione è nato, diversi anni fa, il progetto VoxForge. L’obiettivo di questo progetto è quello di collezionare un grande numero di trascrizioni audio da utilizzare per la creazione di Acoustic Models. Poiché non ci sono Corpora gratuiti utilizzabili per creare gli Acoustic Models, VoxForge coinvolge direttamente gli utenti per creare Corpora più universali e generici sotto licenza GPL, in modo che possano essere utilizzati liberamente e senza restrizioni. Queste librerie sono compatibili su piattaforme Linux, Mac e Microsoft.
Sul sito di VoxForge, scritto in diverse lingue, è possibile dunque contribuire alla formazione e all’arricchimento dei Corpora semplicemente con un microfono e degli altoparlanti. Con una buona pronuncia e dizione italiana si possono registrare delle frasi (indicate sul sito) seguendo delle basilari regole per la pronuncia. È necessario dare dei modelli generici ed attendibili e VoxForge ha cercato di pensare anche a questo: difatti è possibile selezionare, al momento della registrazione, sesso, fascia di età e dialetto di pronuncia (a scelta tra generico, abruzzese, calabrese, ciociaro, milanese, pugliese, napoletano). Sono diversi gli accorgimenti da adottare per la registrazione (tutti elencati sul sito).
Alla pagina delle registrazioni si leggono due premesse: in una si consiglia di posizionare il microfono in modo che non registri il respiro e di evitare, o quanto meno tentare di ridurre qualsiasi rumore non riguardante il parlato (es. sbattere le labbra, prendere fiato,…) o rumori di sottofondo e di evitare di sospirare finché non si è premuto il bottone “Ferma”. Un “pop filter” potrebbe essere utile allo scopo. L’altra premessa richiede di effettuare una registrazione di prova per assicurarsi che il volume del microfono non sia troppo alto o troppo basso. Per far ciò compare in basso una finestra con la visualizzazione della forma d’onda generata dove si può facilmente individuare il giusto volume da impostare sul microfono.
Scorrendo la pagina più in basso, sono elencati i cinque passi da compiere per portare a termine la registrazione di una singola frase (premere il tasto “Registra”, fare una pausa di circa mezzo secondo, leggere la frase corrispondente, fare una pausa di mezzo secondo, premere il pulsante “Ferma”). Se si commette un errore, niente paura, la frase può essere registrata nuovamente, il sistema sceglierà automaticamente l’ultima inviata. Una volta completate le registrazioni di tutte e dieci le frasi (frasi scelte forse a caso, o più probabilmente con un preciso criterio, da diversi romanzi) verrà attivato il bottone “Carica”. Premendolo, si invierà l’intero contributo all’archivio VoxForge con un unico file zip. VoxForge consiglia e incoraggia anche gli invii multipli.
È possibile, inoltre, inviare il contributo audio anche in diverse modalità “non in diretta”. La prima prevede l’utilizzo del software Audacity, un audio editor libero, compatibile su Linux, Windows e Mac. Un’altra possibilità è quella dell’utilizzo del telefono.
Chiamando infatti il numero indicato sul sito, viene contattato il VoxForge Speech Submission IVR (Interactive Voice Response), e seguendo la procedura guidata si possono registrare le frasi richieste. Procedura che però non è esente dal costo della chiamata, per cui la si sconsiglia se si risiede al di fuori degli Stati Uniti. Un’altra, più impegnativa possibilità è quella di registrare un intero audiolibro e spedirlo a VoxForge. Per far ciò, naturalmente, si deve sapere che è necessario, ad esempio, leggere il titolo del libro e quello dei capitoli.
In definitiva, VoxForge costituisce uno strumento potentissimo per lo sviluppo di software o firmware per il riconoscimento di sequenze vocali per il comando di dispositivi elettronici quali controllori di elettrodomestici o più generalmente di interfacce per la domotica (controllo di luci, avvolgibili, sistemi di allarme,…) e può costituire un’importante risorsa per le aziende che si affacciano alla produzione di questa innovativa tecnologia elettronica.