Skip to content
Freedsound | Scaricare Musica Gratis da Youtube


La ricerca su Siri, Alexa e la tecnologia vocale di Google Assistant rivela distorsioni nei dati di allenamento

Marzo 24, 2020
La ricerca su Siri, Alexa e la tecnologia vocale di Google Assistant rivela distorsioni nei dati di allenamento
Secondo un nuovo studio, i sistemi di riconoscimento vocale delle principali aziende tecnologiche hanno difficoltà a comprendere le parole pronunciate dai neri rispetto alle stesse pronunciate dai bianchi.
La ricerca su Siri, Alexa e la tecnologia vocale di Google Assistant rivela distorsioni nei dati di allenamento

I sistemi automatici di riconoscimento vocale sono essenziali per la maggior parte delle funzionalità di altoparlanti intelligenti e assistenti virtuali.

Questi tipi di sistemi sono comunemente utilizzati negli assistenti digitali come Siri, nonché in strumenti come sottotitoli e controlli a mani libere. Ma, come con qualsiasi sistema di apprendimento automatico, la loro precisione è buona solo come il loro set di dati.

I sistemi di riconoscimento vocale automatico (ASR) sviluppati da aziende come Apple, Google e Facebook tendono ad avere tassi di errore più elevati quando si trascrivono discorsi da afroamericani rispetto ai bianchi americani, secondo uno studio dell'Università di Stanford pubblicato su Proceedings of National Academy of Sciences.

I ricercatori hanno effettuato 115 interviste trascritte da esseri umani e le hanno confrontate con quelle prodotte dagli strumenti di riconoscimento vocale. Di questi, 73 conversazioni erano con altoparlanti neri, mentre 42 erano con altoparlanti bianchi.

Il team ha scoperto che il "tasso di errore medio delle parole" era quasi doppio (35%) quando i sistemi ASR trascrivevano il parlato nero, rispetto al 19% quando trascrivevano altoparlanti bianchi.

Per escludere differenze nel vocabolario e nel dialetto, i ricercatori hanno anche abbinato il discorso per genere ed età, e gli oratori hanno detto le stesse parole. Anche allora, hanno riscontrato tassi di errore quasi il doppio degli altoparlanti neri rispetto a quelli bianchi.

"Dato che le frasi stesse hanno un testo identico, questi risultati suggeriscono che le disparità razziali nell'esecuzione dell'ASR sono correlate alle differenze nella pronuncia e nella prosodia – tra cui ritmo, tono, accentuazione della sillaba, durata della vocale e lenizione – tra oratori bianchi e neri", lo studio legge.

I tassi di errore tendevano ad essere più alti per gli uomini afroamericani che per le donne, sebbene vi fosse una disparità simile tra uomini e donne bianchi. La precisione è stata la peggiore per gli oratori che hanno fatto un uso intensivo dell'inglese afroamericano vernacolare (AAVE).

Ovviamente, i sistemi di apprendimento automatico non possono essere distorti allo stesso modo delle persone. Ma se c'è una mancanza di diversità nei dati su cui vengono addestrati, questo si rivelerà nella loro accuratezza e prestazioni. Lo studio conclude che il problema principale sembra essere la mancanza di dati audio da altoparlanti neri durante l'addestramento dei modelli di apprendimento automatico.

Vale la pena notare che i ricercatori hanno utilizzato un'app iOS progettata su misura che sfruttava la tecnologia di riconoscimento vocale gratuito di Apple e non è chiaro se Siri utilizzi quell'esatto modello di apprendimento automatico. I test sono stati condotti anche la scorsa primavera, quindi i modelli potrebbero essere cambiati da allora.

Mentre lo studio ha esaminato specificamente gli altoparlanti in bianco e nero, gli assistenti digitali possono anche avere difficoltà a interpretare altri accenti.

Una storia del 2018 di Il Washington Post scoperto che gli assistenti digitali come Alexa o Google Assistant hanno difficoltà a comprendere le persone con accenti di ogni tipo. In genere, i relatori della costa occidentale – dove si trovano la maggior parte dei giganti della tecnologia – erano i più compresi.

E nel 2019, i ricercatori federali statunitensi hanno anche trovato prove diffuse di pregiudizi razziali in quasi 200 algoritmi di riconoscimento facciale, confermando il fatto che la mancanza di set di dati diversi può causare problemi simili in tutti i tipi di piattaforme di apprendimento automatico.