giovedì 6 ottobre 2016

Ricerca vocale con Google: sostituzioni e idiosincrasie

  
 
Ho già accennato alla ricerca vocale con Google, possibile per esempio attraverso la home page di Google stesso aperta con browser Chrome.
 
A quel che capisco, la ricerca vocale opera attraverso il pacchetto di tecnologie Google che ho descritto l’altro ieri. Tuttavia in questo caso c’è una componente in più. Quando si dice qualcosa all’interno di una casella di ricerca, infatti, spesso il sistema interviene sulla trascrizione “naturale” e propone invece chiavi di ricerca simili ma non identiche. Ovviamente l’operazione è compiuta per facilitare la ricerca, ma i risultati sono a volte curiosi.
 
Per chiarire il meccanismo, partiamo dalla ricerca più diffusa, basata sulla digitazione. Lasciando da parte il meccanismo dei suggerimenti, Google opera in almeno tre modi diversi, a seconda di quanto la parola o la frase che si scrive nella casella di ricerca corrisponda a una ricerca “verosimile”.
 
1. Se nella casella di ricerca di Google scrivo “alfabetizzazione”, mi arrivano risultati relativi alla ricerca. E va bene.
 
2. Se scrivo “alfabetizzazzione”, con due doppie z, mi arriva un buon numero di risultati basati su questa grafia (molti dei quali provengono da titoli di giornale, documenti scolastici, avvisi rotariani…), ma mi appare anche un suggerimento, “Forse cercavi: alfabetizzazione”, con la possibilità di fare la ricerca sulla grafia corretta.
 
3. Se sbaglio un po’ di più la grafia e scrivo “alfabetizazzione”, sacrificando la prima z, mi arrivano direttamente, come avverte Google, i “Risultati relativi a alfabetizzazione”, scritto con grafia corretta. Appare inoltre la possibilità di fare comunque la ricerca usando la grafia sbagliata (“Cerca invece alfabetizazzione”).
 
Facendo la ricerca vocale, invece, innanzitutto è inutile provare a pronunciare per esempio la prima z come scempia anziché come doppia: appare comunque la grafia corretta (e del resto, per “sbagliare” la pronuncia della seconda z, che nell’italiano standard è comunque doppia, che cosa si dovrebbe fare? Rafforzarla ancora?). Le pronunce vengono interpretate e spinte sulle parole che corrispondono a chiavi di ricerca frequenti. Del resto, questa è una buona simulazione del modo in cui anche gli esseri umani interpretano il parlato!
 
Un mio studente, Alberto Guaita, ha notato che in qualche caso il meccanismo produce risultati diversi nella ricerca rispetto alla dettatura all’interno di documenti (che pure, presumibilmente, sfrutta lo stesso sistema di riconoscimento). Se si detta “Alchemico” nella casella di ricerca, per esempio, la parola viene presentata come “Alkemico”, che è il nome di una catena di negozi (il nome in questa grafia compare in 3640 risultati: Google lo preferisce ad “alchemico”, che compare in 262.000 pagine). Se si detta la parola in un Documento Google, invece, compare “alchemico” (prove compiute il 5 ottobre 2016). Nella ricerca non compare nessun avviso sui criteri di sostituzione, ma l’input viene verosimilmente ricondotto con forza alle chiavi di ricerca privilegiate da Google.
 
In altri casi, lavorando durante la dettatura, Google fa spesso vedere nella casella di ricerca l’inizio della trascrizione (corretto), e poi lo sostituisce con una ricerca più “probabile”. Se si pronuncia “Il pesce non ha bocca”, per esempio, nella mia esperienza compare prima “Il pesce non ha…” e poi la ricerca completa viene eseguita su “Il pesce non abbocca”, nonostante la forte differenza fonetica tra le due espressioni. Anche all’interno di documenti, se si detta “Il pesce non ha bocca” compare scritto “il pesce non abbocca”; tuttavia, non c’è nessuna visualizzazione di fasi intermedie di trascrizione.
 
Altre idiosincrasie più specifiche, notate da Alberto Guaita e in parte verificate anche da me a inizio settembre, ma oggi non replicabili, sono:
 
1. Ricercando numeri a 5 cifre che terminano con 991, 992, 993, e così via, le migliaia venivano interpretate come il numero di una legge italiana e il “99x” diventava l’anno di promulgazione: “23.994” diventava così la legge 23 del 1994. Per la corretta ricerca occorreva pronunciare le due componenti del numero come se fossero due numeri distinti, ossia prima 23 e poi 994; il sistema poi le univa in un numero solo.
 
2. Sempre con i numeri, non era possibile chiedere di dividere 5 per un numero (per esempio, “5/73” o “5/40”), poiché il programma cambia il 5 in una V (numero romano) e modifica la ricerca.
 
3. Frasi come “togligli la giacca” o “spediscili via” venivano riportate senza il pronome enclitico.
 
In apparenza, il sistema viene aggiornato spesso; e la cosa non mi sorprende.
 

Nessun commento:

Posta un commento