Aktuelle Methoden des Natural Language Processings (NLP) basieren auf Methoden des Deep Learnings. Die Durchführung von NLP-Projekten im unternehmerischen Kontext bringt die Herausforderungen mit sich, dass entsprechende Expert*innen aus dem ML- und NLP-Bereich benötigt werden und das Training und die Bereitstellung trainierter Modelle einen effizienten Workflow erfordert.
In den letzten Jahren haben sich cloudbasierte KI-Dienste etabliert, die den Workflow für NLP ganzheitlich abbilden. Sie erlauben über eine webbasierte Benutzeroberfläche das Training von NLP-Modellen für bestimmte wiederkehrende Aufgaben, ohne dass Anwender Quelltext schreiben müssen. Ferner erlauben sie webbasiert die Evaluation der trainierten Modelle sowie ihre Bereitstellung in den produktiven Betrieb auf Knopfdruck. Allerdings erfordern diese Werkzeuge, dass gegebenenfalls sensible Daten zum Serviceanbieter externalisiert werden müssen. Ferner sind die Werkzeuge nicht auf eigene Bedürfnisse anpassbar.
Im Rahmen seiner Abschlussarbeit hat Timo Neuhaus ein frei verfügbares und erweiterbares Werkzeug entwickelt, das eine solche End-to-End-Funktionalität bietet. Die entwickelte Anwendung erlaubt zum einen durch Interaktion mit einer webbasierten Benutzerfläche das containervirtualisierte Training von aktuellen Transformer-basierten NLP-Modellen für die Aufgabe der Token Classification, ohne Quelltext schreiben zu müssen. Gleichzeitig bietet sie die Möglichkeit zur webbasierten Evaluation der trainierten Modelle sowie deren unmittelbare Inbetriebnahme mit wenigen Klicks.
Die Anwendung kann entweder vollständig lokal betrieben werden oder als Webanwendung der FH Südwestfalen unter autonlp.informatik.fh-swf.de genutzt werden. Darüber hinaus ist die Software so konzipiert, dass sie künftig leicht um weitere NLP-Aufgaben wie etwa die Textklassifikation erweitert werden kann.