Google bringt seinen Sprachdiensten mehr Austausch bei (Foto:Google)
In einem
Blogbeitrag
hat Google die allgemeine Verfügbarkeit von
Cloud Text-to-Speech
angekündigt. Die übers Internet angebotene Sprachsynthese wurde auf nunmehr 14 Sprachen erweitert, wobei Google allerdings amerikanisches, britisches und australisches Englisch als eigene Sprachen zählt. Die Auswahl der Sprecher wurde mithilfe des neuronalen Netzwerks von
WaveNet auf 24
erweitert. Die von der Londoner Firma
Deepmind
entwickelte Technik analysiert Audioaufnahmen von realen menschlichen Sprechern, um die Sprachausgabe natürlicher wirken zu lassen.
Gleichzeitig baut Google sein Angebot
Cloud Speech-to-Text
aus. Für die Transkription von Aufnahmen mit zwei Sprechern, die sich per Telefon unterhalten, greift der Dienst einfach auf die unterschiedlichen Kanäle zu, um die Texte den jeweiligen Personen zuzuordnen. Bei Aufnahmen etwa von Konferenzen kann der Anwender über die Programmierschnittstelle (API) dem System die Zahl der Teilnehmer mitteilen. Anschließend ist Cloud Speech-to-Text in der Lage, im Gesprächsverlauf die Stimmen immer besser voneinander zu trennen und die Zuweisungen zu aktualisieren. Zudem hat Google die Funktionalität um eine Erkennung der jeweiligen Sprache erweitert.