Web-Mining

Die im World-Wide-Web gespeicherten Informationen wachsen kontinuierlich an und stellen somit eine unentbehrliche Quelle diverser Analysevorhaben dar. Im Vordergrund steht hierbei die Analyse der gespeicherten Webseiteninhalte (Web-Content-Mining), die vorwiegend aus schwach- oder unstrukturierten Texten bestehen.

Zur Analyse des Web-Contents werden u.a. Ansätze des Text-Minings angewendet. Unter dem Schlagwort „semantisches Web“ bestehen darüber hinaus seit einigen Jahren Bestrebungen, die unstrukturierten Daten mit semantischen Informationen anzureichern, so dass diese effizient durch Maschinen verarbeitet werden können. Die Grundlage hierfür stellen Ontologien zur Verfügung, auf deren Basis Repräsentationssprachen definiert werden, mit denen die semantische Anreicherung erfolgt. Aufbauend auf den Repräsentationssprachen existieren Inferenzmechanismen und Abfragesprachen, die aus den gespeicherten Informationen (implizites) Wissen ableiten können. Zusätzlich zum WebContent-Mining können weitere Informationen aus der Verlinkungsstruktur der HTML-Seiten (Web-Structure-Mining) und aus der Nutzung der Webseiten (Web-Usage-Mining) gewonnen werden.

Das Modul führt in die Grundlagen des Text-Minings ein und zeigt deren Anwendung zur Analyse von textuellen Webseiteninhalten. Außerdem werden die Grundlagen des semantischen Webs behandelt und die Prinzipien der Wissensrepräsentation durch Ontologien sowie die dazugehörigen Inferenzmechanismen eingeführt, wobei diese anhand von konkreten Repräsentationssprachen nachvollzogen werden. Es werden Ansätze zum Web-Structure- und Web-Usage-Mining behandelt.

Lernergebnisse

Nach der erfolgreichen Bearbeitung des Moduls ist der Studierende mit den grundlegenden Ansätzen des Text-Minings vertraut und kann auf dieser Basis konkrete Analyseanwendungen konzipieren und diese unter Verwendung aktueller Technologien umsetzen. Er ist somit in der Lage Web-Content-Analysen durchzuführen. Darüber hinaus kann er die Prinzipien des Web-Structure- und des Web-Usage-Mining erläutern und diese in Analyseprojekten anwenden. Der Studierende kann ferner die Ansätze des semantischen Webs wiedergeben, unter Verwendung konkreter Repräsentationssprachen Texte semantisch anreichern und Inferenzmechanismen zur Gewinnung von neuem Wissen auf der Basis existierender Abfragesprache konzipieren und umsetzen.