Die Synthetisierung von Stimmen ermöglicht eine Vielzahl neuer, personalisierbarer Medienangebote. RTL Deutschland treibt derzeit die Entwicklung so genannter „Text-to-Speech“-Angebote voran, die Texte durch rechenintensive Künstliche Intelligenz (KI) in lebensechte Sprache umwandeln können. Das Projekt ist Teil einer umfassenden Partnerschaft für technologische Innovationen in den Bereichen Medien und Bildung von Bertelsmann mit dem Technologieunternehmen Microsoft und entstand in Zusammenarbeit mit der Softwareagentur Appsfactory. Gefördert wird das Projekt vom Journalismus Lab der Landesanstalt für Medien NRW.
Für einen Showcase hat RTL Deutschland die Stimmen von RTL-Moderator Maik Meuser und Podcast-Host Inken Wriedt aufgenommen und durch ein künstliches neuronales Netz synthetisiert, das jetzt die neuen Text-to-Speech-Anwendungen von RTL ermöglicht. Aus vier Stunden gesprochenem Text sind im Rahmen des Projekts lebensechte, natürlich klingende Versionen der Stimmen entstanden, die vom menschlichen Original nicht mehr zu unterscheiden sind. Alle Stimmen, die den Nutzerinnen und Nutzern vertraut sind, können so in vielen Bereichen zum Einsatz kommen.
Anwendungsmöglichkeiten sind beispielsweise personalisierbare Audio News Briefings oder die ab sofort verfügbare Vorlesefunktion bei den textbasierten Online-Nachrichtenangeboten von RTL und ntv. Der Abruf kann über Smart Speaker ebenso erfolgen wie über In-Car-Entertainment-Systeme oder die Onlineangebote von RTL Deutschland. Auch im Bereich der digitalen Bildung kann KI unterstützen wie beispielsweise bei funktionalen Texten in Schulungsvideos. Hier ist RTL Deutschland im engen Austausch mit Relias, einem Unternehmen der Bertelsmann Education Group, die weltweit einer der führenden Anbieter digitaler Bildung speziell für das Gesundheitswesen ist.
Isabella Thissen, Senior Vice President Editorial Products & Innovation bei RTL Deutschland: „Die Übertragung von Text in lebensechte Sprache macht durch den Einsatz von Künstlicher Intelligenz und Machine Learnig derzeit enorme Fortschritte. Dies eröffnet uns gerade im Informationsbereich neue Möglichkeiten für nutzerzentrierte und vertrauenswürdige Angebote. Wir sammeln mit unserem Innovationscase aktuell wertvolle Erfahrungen und gestalten diese Entwicklung aktiv mit. Perspektivisch werden KI-Stimmen, wie wir sie gerade entwickeln, in Produkte münden, die unseren Nutzern über vertraute Stimmen eine neue Erfahrung ermöglichen.“
„Wir freuen uns sehr über die Zusammenarbeit, denn innovative Medienunternehmen wie RTL entdecken jetzt die großen Chancen von KI-Technologien“, sagt Holger Meinzer, Director Industry Relations Media & Telco bei Microsoft Deutschland. „Künstliche Intelligenz kann beispielsweise Inhalte automatisiert und nahezu in Echtzeit in andere Formate umsetzen, die Barrierefreiheit von Medienangeboten verbessern und eine nutzerzentrierte personalisierte Ansprache des Publikums ermöglichen. Sie wird damit zu einem entscheidenden Faktor, um die Wettbewerbsfähigkeit von Medienunternehmen durch attraktive eigene Plattformen und innovative Angebote zu stärken. Mindestens genauso wichtig ist dabei aber auch der verantwortungsvolle Umgang mit solchen Technologien.“
Das Pilotprojekt folgt strengen ethischen Vorgaben, die in den Richtlinien von Microsoft für den verantwortungsvollen Umgang mit künstlicher Intelligenz festgeschrieben sind. So werden synthetische Stimmen bei künftigen Einsätzen für die Nutzerinnen und Nutzer klar erkennbar gekennzeichnet. Auch inhaltlich gibt es klare Richtlinien. Ausgeschlossen von der Synthetisierung mittels KI sind beispielsweise alle Inhalte, welche die Meinungsbildung manipulativ beeinflussen könnten. Zu diesen Fragen befindet sich das Projektteam im Austausch mit der Medienanstalt NRW.