Google Lyra: il nuovo codec permette una buona qualità della voce con 3 Kbit/s

Google Lyra: il nuovo codec permette una buona qualità della voce con 3 Kbit/s

Martin Jud
Zurigo, il 03.03.2021
Traduzione: Leandra Amato
Google presenta Lyra, un codec vocale che offre una buona qualità con un consumo di dati estremamente basso. Più precisamente, Lyra riesce a rendere la voce chiara, comprensibile e naturale anche con soli 3 Kbit/s.

Se Lyra, il nuovo codec vocale di Google, fosse apparso insieme al codec video AV1 alla fine degli anni '90, un modem 56k sarebbe stato sufficiente per una buona videotelefonia. Questo non significa che Lyra sia inutile oggi. Al contrario: dato che non tutti nel mondo dispongono della stessa velocità di Internet che abbiamo in Svizzera, Lyra cambierà le cose.

Tecnicamente, per migliorare la qualità delle videochiamate e delle chiamate vocali, un backhaul più forte e nuove tecnologie radio possono aiutare. Oppure nuovi codec vocali che, anche a velocità di dati minime di soli tre kilobit al secondo, forniscono una voce chiara che non sembra affatto robotica. Il nuovo codec Lyra di Google può fare proprio questo: aiutare ad alleviare la congestione della rete.

Lyra non è una compressione della forma delle onde come i codec usati per la musica. Tuttavia, Lyra potrebbe un giorno essere in grado di trasmettere qualcosa di diverso dalla parola. Infatti, Google è disposto a ricercare come la nuova tecnologia potrebbe trasformarsi in un codec audio generale a basso bit-rate.

Come funziona Lyra: ricostruire la voce con dati minimi

Come può Google garantire una buona qualità della voce con una velocità di trasmissione dati così bassa? La risposta, come spesso accade nell'industria tecnologica, è un'arma familiare: IA.

Essenzialmente, l'intelligenza artificiale è alimentata con dati di oltre 70 lingue diverse, provenienti da librerie audio open source. I campioni di discorso servono come base per l'IA e vengono applicati a vari modelli, che portano o possono portare a nuovi metodi di compressione. In breve, migliaia di ore di allenamento hanno reso possibile la realizzazione di Lyra. A questo punto, va notato che Google non ha dovuto reinventare nulla. I metodi applicati sono basati su modelli generativi, che sono già utilizzati in WaveNet da DeepMind.

Quindi, Google utilizza tecniche tradizionali di codifica e le migliora con nuovi metodi di apprendimento automatico.

I dipendenti di Google Alejandro Luebs (Software Engineer) e Jamieson Brettle (Product Manager di Chrome) scrivono:

«L'architettura di base del codec Lyra è abbastanza semplice. Ogni 40 millisecondi, le caratteristiche del discorso vengono estratte e poi compresse per la trasmissione. Le caratteristiche sono spettrogrammi log-mel, una lista di numeri che rappresentano il discorso in diverse bande di frequenza. Sono tradizionalmente utilizzati per la loro rilevanza percettiva e sono modellati sulla risposta uditiva umana. Dall'altra parte, un modello generativo usa queste caratteristiche per replicare il segnale del discorso. Lyra è quindi molto simile ad altri codec parametrici tradizionali, come MELP».

A proposito: Lyra non ha necessariamente bisogno di un server cloud per essere in grado di codificare e decodificare. Un attuale smartphone di fascia media dovrebbe avere abbastanza potenza per eseguire il codec vocale in tempo reale sul dispositivo. Si dice che l'elaborazione dei dati abbia una latenza di circa 90 millisecondi, che rientra nella gamma di altri codec vocali.

Ecco come suona bene Lyra in confronto

Lyra non è il primo codec ad offrire una buona qualità a bassi bit-rate. Per il confronto, Google indica Opus, attualmente il codec più utilizzato nelle applicazioni VOIP basate su WebRTC. Il codec open source riesce a fornire una qualità audio indistinguibile dall'originale a 32 Kbit/s. Con il suo bit-rate più basso possibile di 6 Kbit/s, ha una qualità peggiore di Lyra con 3 Kbit/s. Altri codec esistenti, come MELP, AMR e Speex, possono trasmettere con soli 3 Kbit/s, ma suonano molto peggio, offrendo più artefatti o addirittura voci robotiche.

Se vuoi provare Lyra, visita «Google AI Blog».

A 38 persone piace questo articolo


Martin Jud
Martin Jud
Editor, Zurigo
La mia musa ispiratrice si trova ovunque. Quando non la trovo, mi lascio ispirare dai miei sogni. La vita può essere vissuta anche sognando a occhi aperti.

Potrebbero interessarti anche questi articoli