Vall-E

Microsofts neue KI kann Stimmen nach nur 3 Sekunden nachahmen – Deep Fake kaum noch zu bremsen?

[FPA World]

VALL-E ist ein Sprachmodellierungsansatz für die Text-to-Speech-Synthese (TTS). Konkret trainieren wir ein neuronales Codec-Sprachmodell (genannt VALL-E) unter Verwendung diskreter Codes, die von einem handelsüblichen neuronalen Audio-Codec-Modell abgeleitet sind, und betrachten TTS als eine bedingte Sprachmodellierungsaufgabe und nicht als kontinuierliche Signalregression wie in früheren Arbeiten. Während der Vorbereitungsphase skalieren wir die TTS-Trainingsdaten auf 60.000 Stunden englische Sprache, was hundertmal mehr ist als bei bestehenden Systemen. VALL-E bietet kontextbezogene Lernfähigkeiten und kann zur Synthese hochwertiger personalisierter Sprache mit nur einer 3-sekündigen registrierten Aufnahme eines unsichtbaren Sprechers als akustische Aufforderung verwendet werden. Die Versuchsergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Darüber hinaus stellen wir fest, dass VALL-E die Emotionen des Sprechers und die akustische Umgebung der akustischen Aufforderung in Synthese bewahren kann.

Übersetzte Beschreibung von Microsoft – Quelle: Microsoft.com

Ganz neu ist das nicht

Deep-Fake wird schon länger benutzt, um Personen nachzuahmen und/ oder ihnen Aussagen in den Mund zu legen, die so nie tätigen würden.
Deep-Fake kann und wird die Menschen, vor allem in Nachrichten, noch mehr beeinflussen und es wird zunehmend schwieriger zwischen Wahrheit und Deep-Fake zu unterscheiden.