Die im World-Wide-Web gespeicherten Informationen wachsen kontinuierlich an und stellen somit eine
unentbehrliche Quelle diverser Analysevorhaben dar. Im Vordergrund steht hierbei die Analyse der gespeicherten
Webseiteninhalte (Web-Content-Mining), die vorwiegend aus schwach- oder unstrukturierten Texten bestehen.
Zur Analyse des Web-Contents werden u.a. Ansätze des Text-Minings angewendet. Unter dem Schlagwort „semantisches
Web“ bestehen darüber hinaus seit einigen Jahren Bestrebungen, die unstrukturierten Daten mit semantischen
Informationen anzureichern, so dass diese effizient durch Maschinen verarbeitet werden können. Die Grundlage
hierfür stellen Ontologien zur Verfügung, auf deren Basis Repräsentationssprachen definiert werden, mit denen die
semantische Anreicherung erfolgt. Aufbauend auf den Repräsentationssprachen existieren Inferenzmechanismen und
Abfragesprachen, die aus den gespeicherten Informationen (implizites) Wissen ableiten können. Zusätzlich zum WebContent-Mining können weitere Informationen aus der Verlinkungsstruktur der HTML-Seiten (Web-Structure-Mining)
und aus der Nutzung der Webseiten (Web-Usage-Mining) gewonnen werden.
Das Modul führt in die Grundlagen des Text-Minings ein und zeigt deren Anwendung zur Analyse von textuellen
Webseiteninhalten. Außerdem werden die Grundlagen des semantischen Webs behandelt und die Prinzipien der
Wissensrepräsentation durch Ontologien sowie die dazugehörigen Inferenzmechanismen eingeführt, wobei diese
anhand von konkreten Repräsentationssprachen nachvollzogen werden. Es werden Ansätze zum Web-Structure- und
Web-Usage-Mining behandelt.
Lernergebnisse
Nach der erfolgreichen Bearbeitung des Moduls ist der Studierende mit den grundlegenden Ansätzen des Text-Minings
vertraut und kann auf dieser Basis konkrete Analyseanwendungen konzipieren und diese unter Verwendung aktueller
Technologien umsetzen. Er ist somit in der Lage Web-Content-Analysen durchzuführen. Darüber hinaus kann er die
Prinzipien des Web-Structure- und des Web-Usage-Mining erläutern und diese in Analyseprojekten anwenden. Der
Studierende kann ferner die Ansätze des semantischen Webs wiedergeben, unter Verwendung konkreter
Repräsentationssprachen Texte semantisch anreichern und Inferenzmechanismen zur Gewinnung von neuem Wissen
auf der Basis existierender Abfragesprache konzipieren und umsetzen.