C’è un elemento che umanizza il contenuto più di ogni altro.
di GIOVANNI CERUTTI
Indice del contenuto
No, non è un testo e non è un’immagine, è la voce.
Perché la voce segna, si porta dietro l’intenzione, l’enfasi, la fiducia, soprattutto è quell’elemento espressivo che – musica docet – ci rimane in testa più di ogni altro, non c’è niente da fare, si conficca nella nostra corteccia cerebrale.
Per esemplificare, pensiamo a Ferruccio Amendola in voice over su Al Pacino, Dustin Hoffman e Sylvester Stallone e, in tempi più recenti, pensiamo a Joy Saltarelli al lavoro su Jennifer Lawrence, per esempio in Hunger Games.
In comune quei professionisti hanno la capacità di localizzare esattamente un contenuto, di trasmettere credibilità assoluta ed emozioni totalizzanti e di evolvere assieme al volto che accompagna e all’audience.
Generano tracce emotive che si imprimono sull’immaginario collettivo, che dimostrano quanto possa essere decisiva — e quanto possa essere memorabile — la voce giusta.
E ora che le voci artificiali proliferano, conviene iniziare a studiarle perché ci rappresenteranno, sempre più, anche quando non saremo noi a parlare.
Dialogare con Ember, per esempio, una delle cinque voci artificiali di ChatGPT, è già un’esperienza sbalorditiva, ce ne siamo resi conto.

E anche se non riesce ancora a spiazzarci del tutto, quelle esitazioni leggere, le pause pensate, i picchi di tono che scimmiottano il metodo Stanislavskij, danno senso alla conversazione e anticipano cosa potrebbe diventare la voce artificiale domani.
E se Ember o una delle sue sorelle non ci convincono ancora, di fatto ci stiamo già dialogando, nonostante un accento un po’ spagnoleggiante che – c’è quasi da scommetterci – diverrà un italiano prossimo alla perfezione rapidamente.
Dunque, GPT-4o: la voce dell’intelligenza artificiale.
Nel 2024, OpenAI ha lanciato GPT-4o, il primo aggeggio capace di parlare in tempo reale. Parla con cinque voci: Breeze, Cove, Juniper, Sky ed Ember dicevamo. Ognuna con sfumature specifiche, ognuna con un’intenzione implicita. Voci che non leggono ma interpretano: localizzazione.
Voci robotiche che si umanizzeranno: credibilità.
Ed è probabile che ridefiniranno per sempre il nostro modo di interagire con la tecnologia.
E poi c’è Voice Engine, un altro saltino in avanti.
Con Voice Engine, pare bastino 15 secondi di registrazione per generare una voce artificiale che somigli alla nostra o a quella di chiunque altro, e ciò apre a qualcosa che somiglia ad un gioco ma che non ha poco di giocoso a pensarci bene.
Possiamo dar la nostra voce ad autorità e celebrità, esercizi di dubbia utilità ma divertenti per alcuni scopi ma – attenzione – potremmo sentire qualcun altro parlare con la nostra voce.
C’è fascino, verissimo, ci sono sviluppi anche solo creativi estremamente interessanti, ma c’è anche un confine delicato perché una voce artificiale non è un effetto speciale e la voce, la nostra voce, è il marker sonoro della nostra identità. Ehi Mercedes, presente?
Chi parla, quando la voce non è più la nostra?
Chi siamo, se la nostra voce può essere replicata, assegnata, manipolata?
C’è bellezza, inclusione, accessibilità, ma si corre anche il rischio di omologazione, perdita d’identità, disattenzione etica e problemi di sicurezza non irrilevanti dietro l’angolo.
La vera sfida, oggi, è espressiva: sapremo far parlare le macchine in un modo che racconti qualcosa anche di noi? Di noi come persone e di noi come donne e uomini d’azienda?

Il timbro vocale, un marchio di appartenenza.
È possibile che l’argomento voice branding sia fuori dai radar delle aziende ma, con le dovute eccezioni, le vedremo fra poco, ma nella maggior parte dei casi in cui si appoggiano alla sintesi vocale il risultato è ai limiti dell’utile.
Un po’ annuncio in stazione, un po’ chatbot spaesato, un po’ la Siri di oggi che – non ci meraviglierà – un giorno potrebbe parlarci con la voce dei nostri figli.
Ma se la voce è ciò che rende reale un messaggio, perché lasciarla al caso?
La voce come strategia (non come effetto speciale)
Il voice branding non è sfumatura impercettibile, è una leva strategica e chi l’ha capito sta già facendo la differenza, è un magnete potentissimo.
Duolingo ha scelto una voce ironica, sfacciata.
Calm, una voce che ti accompagna verso il sonno.
Netflix lavora da anni su voci localizzate che mantengano coerenza narrativa.
Dedichiamo tempo all’ascolto e capiremo che ogni voce è una scelta di posizionamento, E quando la voce è artificiale, va disegnata e decisa prima, non scelta da un menù a tendina.
Ultima nota, da leggere ad alta voce.
È strano che bastino 15 secondi per clonare una voce, vero?
Ma è ancora più strano che tanti (brand) non abbiano mai pensato davvero a quale voce adottare per farsi ascoltare.
Chi parla per noi, ci rappresenta.
Che sia un tutorial, un addetto del customer care, un’assistente vocale o una pubblicità, la voce è ciò che resta anche dopo che le parole sono passate, generano ricordi che si conficcano direttamente nella nostra corteccia cerebrale.

I commerciali in carne e ossa lo sanno bene: senza voce, meglio stare a casa.
E se i call center capissero, per esempio da questo articolo, che il trucchetto dei rumori ambientali iniziali — il fruscio d’ufficio, il mormorio di corridoio — è patetico, mentre un buongiorno caldo, sincero, credibile fa ancora una enorme differenza, ci guadagneremmo tutti.
In tempo. In fiducia. In umanità.
Parola di Eufemia.











