„Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Hesitationen wie ‚äh‘ oder ‚hm‘, Lacher und Huster“, erklärt Alex Waibel, Professor für Informatik am KIT. „Oft werden Worte zudem noch undeutlich ausgesprochen.“ Dies macht es bereits für Menschen schwierig, ein akkurates Mitschreibens zu leisten, aber bisher war es für eine KI noch schwieriger. Das neu programmierte Computersystem vom KIT erledigt diese Aufgabe besser als Menschen sowie schneller als andere Systeme.

„Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System, da Fehler und Verzögerungen die Übersetzung unverständlich machen“, erläutert Waibel. Das neue System erreicht eine Fehlerrate von 5,0 Prozent, der Mensch liegt bei 5,5 Prozent. Neben der Genauigkeit ist auch ein rapides Ergebnis wichtig, damit Studierende der Vorlesung live folgen können. Diese Verzögerung liegt erstmalig bei einer Sekunde – dem niedrigsten Latenz-Wert, den je ein Spracherkennungssystem dieser Qualität erreichte.

Laut Waibel könne ein Erkennungs-System noch nicht Inhalte oder Zusammenhänge alleine verstehen. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“ Jedoch können Dialog-, Übersetzungs- und weitere KI Module jetzt schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Das KIT auf der HANNOVER MESSE