Skip to main content

In questi ultimi anni stiamo vivendo un momento magico per la comunicazione, ma anche un passaggio epocale – come già visto – nell’interazione tra uomo e macchina.

Basta digitare (o quasi)! Adesso grazie a intelligenze artificiali come Siri, Alexa, Cortana o Google Now siamo in grado di chiedere informazioni o fornire comandi senza utilizzare tastiere, mouse, telecomandi, pulsanti, ma solo attraverso la nostra voce. Mentre si è a casa è possibile fare zapping sulla tv, regolare il termostato o impostare l’intensità della luce senza dover cercare uno dei tanti (tele)comandi che sono disseminati tra le mura domestiche.

Gli assistenti vocali sono in continua evoluzione, liberati dai confini degli altoparlanti intelligenti sono anche sugli smartphone e in tantissimi altri device, come nei computer di bordo delle auto, consentendo ai passeggeri – fra le altre cose – di ricevere indicazioni sul percorso da seguire, dettagli su eventi di interesse, informazioni di ogni genere o, perché no, aprire il garage senza togliere le mani dal volante.

Come riportato da Wired, la direttrice di Amazon – Alexa Voice Services Priya Abani afferma:

Immaginiamo un mondo in cui Alexa è ovunque.

Le nuove tecnologie e la spinta verso un’interazione sempre più naturale, hanno portato allo sviluppo di strumenti in grado di dialogare con un linguaggio naturale su domini specifici, ma anche estrarre conoscenza e insight rilevanti, con valore sia informativo che predittivo da enormi quantità di dati testuali. 
L’impiego degli assistenti vocali è destinato a crescere in modo esponenziale nei prossimi anni.

Secondo Juniper Research, si assisterà ad un vero e proprio boom grazie soprattutto alla diffusione degli altoparlanti intelligenti (smart speaker) e delle smart tv. Si prevede che saranno 8 miliardi gli assistenti vocali digitali in uso entro il 2023. Una cifra tre volte superiore rispetto a quella registrata a metà 2019.

Si apre uno scenario, quello dell’interazione attraverso il linguaggio naturale, che influenza e influenzerà sempre più la progettazione dei punti di contatto tra brand cliente.

La tecnologia vocale non è più una nuova tendenza,  è il cambiamento del paradigma della comunicazione.

Ma come siamo arrivati a questo? Se stai pensando che la tecnologia di riconoscimento ed elaborazione vocale sia da considerarsi l’innovazione di questi ultimi anni, ti stai sbagliando.
Come spesso accade, una tecnologia approda sul mercato e viene utilizzata dagli utenti solo dopo molto tempo rispetto a quando è stato sperimentata, studiata o ideata.

L’Automatic Speech Recognition (l’acronimo è ASR) è la capacità di una macchina di riconoscere le parole pronunciate. Grazie a sistemi di NLP (Natural Language Processing) per la macchina è possibile la comprensione e la gestione delle interazioni vocali.
Il progresso ha avuto uno sviluppo piuttosto lento, perché i livelli di precisione di riconoscimento del linguaggio da parte delle macchine sono sempre stati bassi rispetto all’accuratezza dell’elaborazione e dell’orecchio umano.
Dopo il 2010 qualcosa è cambiato. Il grafico di seguito mostra come, tra il 2010 e il 2015, i progressi nella precisione del riconoscimento vocale abbiano superato tutto ciò che accadeva nei precedenti 30 o 40 anni. 

Adesso, abbiamo raggiunto un livello di accuratezza pari a quello umano, del 95% circa, e siamo sulla soglia in cui l’ASR della macchina supererà presto il riconoscimento vocale dell’essere umano.

Come per molte altre applicazioni, inizialmente questi assistenti non riuscivano a soddisfare le aspettative degli utenti e continuavano a fornire risultati di ricerca senza valore. Tuttavia, con il miglioramento della tecnologia, gli utenti hanno imparato a parlare con i loro dispositivi e con l’aumento delle offerte vocali è cambiato anche il comportamento degli utenti.

Negli anni ’60, IBM ha presentato un primo sistema di riconoscimento vocale chiamato Shoebox.
La macchina poteva eseguire semplici calcoli matematici in risposta a comandi vocali, riconoscendo solo 16 parole.

Negli anni ’80, il vocabolario del sistema di riconoscimento vocale di IBM ha iniziato a espandersi da 5.000 a 20.000 parole. 

Il sistema si sarebbe evoluto nel primo vero prodotto di riconoscimento vocale di IBM: la serie Speech Server, arrivata nel 1992.
L’idea era aiutare le aziende ad accelerare la dettatura. Purtroppo, questo obiettivo non è mai stato realmente raggiunto – almeno non in senso lato. 

Più di 15 anni dopo è la volta di Siri, strumento che non ha avuto un grandissimo impatto nella vita di tutti i giorni, ma almeno ha contribuito a rendere il riconoscimento vocale mainstream.

L’evoluzione della Voice Technology rappresenta un piccolo tassello all’interno di un contesto in continuo cambiamento che si allarga a tutta una serie di ecosistemi sempre più interconnessi.
Il trasferimento della conoscenza, finora, si è evoluto in tre paradigmi: da uomo a uomo (passato), da uomo a macchina (presente) e da macchina a macchina (futuro presente).

Per la prima volta nella nostra storia, il nuovo trasferimento di conoscenze non coinvolge soltanto gli umani. I progressi dell’Internet of Things (IoT), nel campo dell’Intelligenza Artificiale (AI) e della robotica assicurano che il nuovo trasferimento di conoscenze e abilità sarà diretto da macchina a macchina (M2M).

È la tecnologia che si riferisce alla tecnologia e che consente ai dispositivi in ​​rete di scambiarsi informazioni ed eseguire azioni senza l’assistenza manuale degli umani – come Amazon Echo che prenota un Uber o effettua un ordine su Amazon – il tutto con un semplice comando. Stiamo entrando nell’era delle applicazioni intelligenti, appositamente costruite e informate da segnali contestuali come posizione, sensori hardware, utilizzo precedente e calcolo predittivo. 

La nostra crescente attitudine alla ricerca vocale ha moltiplicato l’ascesa della comunicazione machine-to-machine, e ciò avrà un importante impatto sulla traiettoria futura del commercio, passando da un ormai superato funnel di conversione ad una miriade di percorsi differenti l’uno dall’altro e costellati di touchpoint che si manifestano in tempi e in device differenti attraverso l’interazioni di sistemi.

Nuove sfide, quindi, in uno scenario che necessita di un lavoro per sviluppare quadri di comprensione che vedranno i brand e le aziende di comunicazione reimpostare le stategie per armonizzare i canali con servizi e informazioni, senza dimenticare di arricchire l’esperienza utente in maniera più coinvolgente possibile.

Sembrerà paradossale, ma grazie al riconoscimento vocale le interazioni digitali saranno più naturali grazie alle intelligenze artificiali.

Lascia un commento