Quanto è accurato il riconoscimento vocale, oggi? Come per molte altre domande in linguistica, il primo livello di risposta deve essere: “dipende”.
Quasi un anno fa alcune delle massime cariche Apple e Google hanno fatto qualche dichiarazione polemica ma generica in proposito. Nel maggio del 2015 Sundar Pichai, allora Senior Vice President e oggi Amministratore delegato di Google, ha infatti vantato le percentuali di successo dell’azienda nel riconoscimento vocale. Alla manifestazione I/O di Google e in un’intervista a The Verge pubblicata il 29 maggio 2015 (da cui riprendo le parole) la sua dichiarazione è stata:
Just in the last three years, we have taken things like error in word recognition down from about 23 percent to 8 percent. And it’s because of what we call deep neural nets.
Del fatto che Google oggi faccia ricorso non solo alla statistica ma a “deep neural nets” si dovrà parlare più avanti. Per quanto riguarda la percentuale grezza, però, alle dichiarazioni di Pichai ha risposto pochi giorni dopo Craig Federighi, “Senior Vice President of software engineering” per Apple. Federighi ha infatti dichiarato l’8 giugno 2015 alla Worldwide Developers Conference della Apple che Siri ha una percentuale di errore del 5% e che questo “word error rate” è “an industry-leading number”.
Non mi sembra che in seguito ci siano state dichiarazioni dello stesso peso; sarebbe inoltre sorprendente se in un anno ci fossero stati cambiamenti drammatici della situazione. Ma che cosa significano questi numeri?
Innanzitutto, mentre non è chiarissimo che cosa intenda Pichai parlando di “error in word recognition”, la misura indicata da Federighi è ben nota. Il “word error rate”, o WER, nella sua forma più semplice si ottiene dividendo per il numero totale delle parole in un testo la somma delle parole erroneamente sostituite, cancellate o inserite durante il riconoscimento automatico; spesso si esprime non in frazioni ma in percentuali. Probabilmente Pichai parlava della stessa cosa, ma un margine di incertezza c’è.
Il WER di un sistema automatico poi dipende molto dal lavoro che deve fare. Come mostrano anche alcuni dati sintetizzati in The Voice in the Machine di Roberto Pieraccini (p. 188 e dintorni), un sistema automatico può ottenere risultati molto accurati se l’input è in qualche modo circoscritto, cioè se si tratta per esempio di discorsi scanditi e fatti con un vocabolario limitato. Per testi più liberi, come conversazioni o trasmissioni radiofoniche, a cavallo del millennio le percentuali d’errore si collocavano poco sotto il 20%, che è più o meno la percentuale indicata da Pichai. L’incertezza più grossa è quindi: a quali tipi di parlato fanno riferimento Apple e Google? Se si tratta del parlato generico dei loro utenti, nella somma di tutti i casi d’uso, la percentuale di errori è veramente buona.
Infine, do per scontato che le percentuali indicate da Pichai e Federighi si riferiscano unicamente all’inglese. Con altre lingue, a cominciare dall’italiano, i risultati sono probabilmente peggiori… anche se le differenze fonetiche potrebbero in alcuni casi giustificare risultati migliori!
Il nucleo della questione è comunque un altro. Le trascrizioni eseguite da esseri umani hanno tassi d’errore collocati tra il 2 e il 4%, e quindi continuano ancora oggi a essere preferibili a quanto fanno Google e Apple. Non è uno scalino da poco: il passaggio dall’8% dichiarato da Pichai al 2% di un bravo ascoltatore umano corrisponde probabilmente a una notevole differenza di usabilità. Tuttavia, è chiaro che questa percentuale non potrà che migliorare. Superata la soglia del 2%, la faccenda si farà seria!
Nessun commento:
Posta un commento