Evaluierung des Topic-Modeling Verfahrens "Top2Vec" für die deutsche Sprache

Unter arXiv:2008.09470 beschreibt Dimo Angelov einen interessanten Ansatz für das Topic Modelling, unter github.com/ddangelov/Top2Vec gibt es auch passenden Code dazu.

Eine aus meiner Sicht spannende Forschungsfrage ist, wie gut das für die deutsche Sprache funktioniert. Dazu muss man das Verfahren auf die deutsche Sprache anwenden, z.B. auf Nachrichten oder Stellenanzeigen, die man mithilfe von scrapy crawlt, und mit etablierten Verfahren (TF-IDF, LDA) vergleichen.