Aussteller & Produkte
Events & Speakers

In einem Blogbeitrag hat Google die allgemeine Verfügbarkeit von Cloud Text-to-Speech angekündigt. Die übers Internet angebotene Sprachsynthese wurde auf nunmehr 14 Sprachen erweitert, wobei Google allerdings amerikanisches, britisches und australisches Englisch als eigene Sprachen zählt. Die Auswahl der Sprecher wurde mithilfe des neuronalen Netzwerks von WaveNet auf 24 erweitert. Die von der Londoner Firma Deepmind entwickelte Technik analysiert Audioaufnahmen von realen menschlichen Sprechern, um die Sprachausgabe natürlicher wirken zu lassen.

Gleichzeitig baut Google sein Angebot Cloud Speech-to-Text aus. Für die Transkription von Aufnahmen mit zwei Sprechern, die sich per Telefon unterhalten, greift der Dienst einfach auf die unterschiedlichen Kanäle zu, um die Texte den jeweiligen Personen zuzuordnen. Bei Aufnahmen etwa von Konferenzen kann der Anwender über die Programmierschnittstelle (API) dem System die Zahl der Teilnehmer mitteilen. Anschließend ist Cloud Speech-to-Text in der Lage, im Gesprächsverlauf die Stimmen immer besser voneinander zu trennen und die Zuweisungen zu aktualisieren. Zudem hat Google die Funktionalität um eine Erkennung der jeweiligen Sprache erweitert.