Automatische Spracherkennung (ASR)

Die Umwandlung von gesprochener Sprache in Text ist Grundlage für Digitale Assistenten wie Alexa, Siri und Co. und damit eine wichtige Basistechnologie auf dem Gebiet der künstlichen Intelligenz.

Bis vor wenigen Jahren war die verwendete Technologie mehrstufig, d.h. zunächst wurden anhand der Sprachdaten Phoneme erkannt und anschließend aus den Phonemen dann Worte und Sätze. Dabei kamen statistische Methoden wie Hidden Markov Modelle zum Einsatz.

Aktuelle Ansätze basieren auf einem “End-to-End” Deep Learning, d.h. man trainiert (rekurrente) neuronale Netze, die aus den Sprachdaten unmittelbar Text erzeugen.

Mit NVIDIAs Open Source Toolkit NeMo gibt es eine frei verfügbare Bibliothek mit aktuellen Modellen wie Jasper und QuartzNet.

Freie Trainingsdaten gibt es aktuell vor allem für English, etwa Libri Speech (mit ca. 1000 Studen gesprochenem Text samt Transkription).

Hier ergeben sich zwei konkrete Projektideen:

Aufbau eines Trainingsdatensatzes für Deutsch

Entwicklung einer (Web)-Anwendung zur Sammlung von Sprachdaten und deren Transskription
ggf. Verwendung von Mitschnitten meiner Vorlesung
ggf. Sammlung von Radiointerviews (etwa beim Deutschlandfunk), zu denen Transskriptionen existieren

Training eines ASR-Modells

Hier wäre insbesondere das Training eines deutschen Modells und der Vergleich der Erkennungsqualität selbst trainierter Modelle mit kommerziellen Anwendungen (etwa von Nuance) interessant.