Microsoft entwickelt KI, die menschliche Stimmen nach nur drei Sekunden imitieren kann

| Alexander Schöpf 
| 10.01.2023

Um Manipulationen zu verhindern, wird an einer weiteren Software gearbeitet, die mit "VALL-E" erstellte Audioclips erkennen kann.

VALL-E heißt eine neue Künstliche Intelligenz (KI), die von Microsoft entwickelt wurde und Stimmen von Personen täuschend echt imitieren kann. Wie die österreichische Tageszeitung Der Standard schreibt, reiche bereits ein Tonschnipsel von drei Sekunden Länge, um eine Stimme nachahmen zu können – inklusive emotionaler Färbung des Sprechers und Akustik der räumlichen Umgebung, in der das Sprachsample aufgenommen wurde.

Breites Anwendungsfeld und Angst vor Manipulation

Der Computerkonzern sieht für die bahnbrechende Technologie ein breites Anwendungsfeld. Auf der einen Seite wären hochqualitative Text-zu-Sprache-Funktionen denkbar: So könnte etwa eine Textnachricht mit der Stimme des Senders vorgelesen wird. Anderseits wäre aber auch die Korrektur von Versprechern im Nachhinein noch möglich.

Dies öffnet natürlich auch der Möglichkeit von Manipulationen Tür und Tor. So könnten etwa Aussagen von Personen im Nachhinein verändert oder komplett künstlich erstellt erstellt werden, ohne dass es auffallen würde. Um dies zu verhindern, will Microsoft eine Software entwickeln, die erkennen soll, wenn ein Audioclip mit VALL-E erstellt wurde.

Erste Soundclips veröffentlicht

Für die breite Öffentlichkeit soll die KI vorerst aber sowieso nicht verfügbar sein, da es sich derzeit noch um ein Forschungsprojekt handle. Aber um das revolutionäre Potential von VALL-E zu verdeutlichen hat das Forschungsteam einige Soundclips veröffentlicht, die die Künstliche Intelligenz im Einsatz zeigen.

www.microsoft.com

Kommentar schreiben

* Pflichtfelder.

leadersnet.TV