Meta, das Dachunternehmen von Facebook und Instagram, hat sein neues produktives KI-Modell angekündigt.
Obwohl Voicebox nicht speziell geschult wurde, wurde es entwickelt, um Inhaltserstellern dabei zu helfen, Sprachaufgaben wie Tonbearbeitung, Sampling und Styling auszuführen.
Dies kann verwendet werden, um aus nur zwei Sekunden Sprache einen realistischen Klang zu erzeugen, um beispielsweise Stimmen zu potenziell nicht sprechenden Personen zu bringen oder um die Stimmen von Personen in Spiele einzufügen.
Es könne auch verwendet werden, um eine Sprachpassage stilsicher von einer Sprache in eine andere zu übersetzen, so Meta, sodass Menschen authentisch miteinander sprechen könnten, auch wenn sie die Sprache nicht persönlich sprechen.
In seiner Ankündigung behauptete das Unternehmen, dass Voicebox viel effizienter sei als seine Konkurrenten.
Beispielsweise kann es Wörter mit einer Fehlerquote von 1,9 % generieren, verglichen mit 5,9 % beim Konkurrenten Vall-E, und das bis zu 20-mal schneller.
Laut Meta wurde Voicebox mit 50.000 Stunden öffentlich zugänglicher Sprach- und Hörbuchtranskriptionen in Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch gegründet.
Meta sagte jedoch, dass es zu viele Risiken gäbe, das Modell nicht auf den Markt zu bringen.
„Wie bei anderen leistungsstarken neuen Innovationen in der KI erkennen wir das Potenzial für Missbrauch und Verschwendung dieser Technologie“, sagte er, obwohl nicht explizit angegeben wurde, auf welchen Seiten sie Risiken bergen könnte.
In vielen Berichten wird auf das Risiko dieser Systeme hingewiesen, ungültige Bilder in den Nachrichten zu erzeugen und die Stimmen von Personen in betrügerischen Einladungen nachzuahmen.
Neuanfang