Entwicklung einer optimierten Dokumentensuche für den Hochsauerlandkreis mittels Retrieval Augmented Generation
Der Hochsauerlandkreis setzt auf innovative Technologien, um die interne Dokumentensuche zu optimieren und seinen Mitarbeitern den Arbeitsalltag zu erleichtern. In einer aktuellen Bachelorarbeit an der Fachhochschule Südwestfalen wurde ein neues Dokumentensuchsystem entwickelt, das auf Retrieval Augmented Generation (RAG) basiert. Dieses Verfahren kombiniert die Stärken großer Sprachmodelle (LLMs) mit der Effizienz der Informationsgewinnung aus Datenbanken.
Die Herausforderung
Die Mitarbeiter des Jobcenters des Hochsauerlandkreises greifen täglich auf eine umfangreiche Wissensdatenbank zu, die wichtige Informationen wie Gerichtsurteile, Handlungsempfehlungen und Vorlagen enthält. Die bisherige Suchfunktion basierte auf Stichwortsuche oder Navigation durch eine Baumstruktur.
Aufgrund der Größe der Datenbank gestaltete sich die Suche oft umständlich und zeitaufwändig.
Die Lösung
Die Bachelorarbeit untersuchte und evaluierte verschiedene RAG-Verfahren, um eine effiziente und skalierbare Dokumentensuche zu ermöglichen.
Im Fokus der Arbeit standen folgende Aspekte:
- Optimierung der Datenaufbereitung: Die Dokumente wurden in kleinere Textabschnitte, sogenannte “Chunks”, unterteilt. Dabei wurden verschiedene Chunking-Strategien getestet, die auf Zeichenlänge oder der Struktur der Dokumente basieren.
- Auswahl geeigneter Algorithmen: Für das Abrufen relevanter Chunks aus der Datenbank wurden verschiedene Retriever-Methoden verglichen. Zusätzlich wurde der Einsatz von Rerankern untersucht, die die Suchergebnisse anhand ihrer Relevanz neu ordnen.
- Nutzung eines Large Language Models: Für die Generierung der Antworten wurde das LLM gpt-4o-mini von OpenAI verwendet. Dieses Modell zeichnet sich durch seine Kosteneffizienz und Rechenleistung aus.
Die Ergebnisse
Die Evaluierung des Systems zeigte vielversprechende Ergebnisse. Der Default-Retriever in Kombination mit strukturbasiertem Chunking erwies sich als effektivste Methode. Der Einsatz von Rerankern brachte in diesem Fall keine signifikante Verbesserung. Die generierten Antworten wurden von den Mitabeiter*innen des HSK mit der Schulnote “gut” (2,2) bewertet.
Das neue Dokumentensuchsystem soll den Mitarbeitern des Jobcenters den Arbeitsalltag erleichtern und die Bearbeitung komplexer Aufgaben effizienter gestalten. Der Hochsauerlandkreis unterstreicht damit seine Vorreiterrolle bei der Nutzung innovativer Technologien im öffentlichen Sektor.