Web Mining - LinkFang.de





Web Mining


Unter Web Mining (web mining) auch Webmining versteht man die Übertragung von Techniken des Data-Mining zur (teil)automatischen Extraktion von Informationen aus dem Internet, speziell dem World Wide Web. Web Mining übernimmt Verfahren und Methoden aus den Bereichen Information Retrieval, maschinelles Lernen, Statistik, Mustererkennung und Data-Mining. Dabei können drei Untersuchungsgegenstände unterschieden werden:

  • Die Inhalte (Web-Content-Mining) – beispielsweise mit Verfahren des Information Retrieval.
  • Die Struktur der Verlinkung (Web-Structure-Mining) - beispielsweise mit Verfahren der Webometrie. Beim Web-Structure-Mining kommen so genannte Hubs zum Einsatz. Es gibt gute Hubs, die auf viele wertvolle Seiten verweisen, und wertvolle Seiten, auf die viele Hubs verweisen.
  • Das Benutzerverhalten (Web-Usage-Mining) - beispielsweise durch die Analyse von Logdateien.

Arten des Web Minings

Web-Usage-Mining versucht Regularitäten in der Benutzung von Webseiten beziehungsweise Webressourcen zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert. Zum Web-Usage-Mining gehört beispielsweise auch die Analyse der Customer Journey.

Web-Structure-Mining versucht, die einer Webseite beziehungsweise Domäne zugrunde liegende Verweisstruktur zu erkennen. Basierend auf der Topologie der Verweise (Hyperlinks) der Webseite, mit optionaler Beschreibung derselben, wird ein Modell erstellt. Dieses kann für die Kategorisierung und das Ranking einer Webseite nützlich sein und lässt Rückschlüsse auf Ähnlichkeiten zwischen Webseiten und deren Beziehungen zueinander zu. Zum Beispiel könnten inhaltsreiche Webseiten (sog. Authorities) und überblicksartige Webseiten (sogenannte Hubs) für ein bestimmtes Thema ausfindig gemacht werden (vgl. HITS Algorithmus).

Web-Content-Mining befasst sich mit der Erkennung von Regularitäten in den Inhalten einer Webressource. Web-Content-Mining ist ein Anwendungsgebiet für das Text Mining. Die Inhalte der Daten im Web bestehen aus unstrukturierten Daten wie Textdokumenten, semi-strukturierten Daten wie HTML-Dokumenten und stärker strukturierten Daten wie Tabellen oder dynamisch generierten HTML-Seiten. Grundsätzlich bestehen die Inhalte einer Webseite aus verschiedenen Datentypen, wie Texten, Bildern, Audio-, Video-, Metadaten und Hyperlinks. Web-Content-Mining von multiplen Datentypen wird als „Multimedia-Data-Mining“ bezeichnet und kann als Instanz von Web-Content-Mining verstanden werden. Hauptsächlich bestehen die Inhalte des Webs jedoch aus unstrukturiertem Text. Text Mining kann als Instanz und übergeordnetes Forschungsgebiet von Web-Content-Mining verstanden werden. Die verwendeten Methoden sind allgemeine Data-Mining-Methoden, wobei statistische und computerlinguistische Verfahren die Transformation der Texte in eine (für das Data-Mining) adäquate Form realisieren.

Siehe auch

Literatur

Weblinks


Kategorien: Data-Mining | Computerlinguistik | Dokumentation

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Web Mining (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.