News & Trends

Microsofts VALL-E imitiert jede Stimme – drei Sekunden Aufnahme genügen

Martin Jud
11.1.2023

Auf DALL-E folgt VALL-E: Microsoft und OpenAI haben eine neue Künstliche Intelligenz (KI) geschaffen, die Stimmen nachahmen kann. Bereits eine Sprachaufnahme von drei Sekunden sollen der KI als Input genügen.

Heute wissen wir: Was Fotos oder Videos zeigen, muss nicht so passiert sein. Dass ein Text nicht zwingend aus der Feder eines Autors stammen muss, oder ein Bild aus dem Pinsel einer Künstlerin, ist seit ChatGPT und DALL-E auch klar. Jetzt ist die Stimme dran.

Microsoft ist sich bewusst, dass die Technologie auch Missbrauchspotenzial hat. Daher soll bei künftigen Anwendungen ein Protokoll dafür sorgen, dass durch VALL-E erstellter Content auch als solcher erkannt werden kann.

Die KI liefert mit dem, was Microsoft an Beispielen präsentiert, beeindruckende Ergebnisse. Für ihr Training wurden 60 000 Stunden englische Sprachaufnahmen aufbereitet. Das entspreche dem hundertfachen Input bestehender Sprachsynthesen.

Titelbild: shutterstock

52 Personen gefällt dieser Artikel


User Avatar
User Avatar

Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.


Computing
Folge Themen und erhalte Updates zu deinen Interessen

Software
Folge Themen und erhalte Updates zu deinen Interessen

Audio
Folge Themen und erhalte Updates zu deinen Interessen

News & Trends

Vom neuen iPhone bis zur Auferstehung der Mode aus den 80er-Jahren. Die Redaktion ordnet ein.

Alle anzeigen