Hochschulschrift

Clustern mit Hintergrundwissen

Mit der immer größer werdenden Menge von Textdokumenten durch das WWW und Dokument-Management-Systeme stellt das automatische und effiziente Berechnen von Clustern ein immer wichtigeres Mittel zur Strukturierung von sehr großen Dokumentsammlungen dar. Auch im Customer-Relationship-Management bzw. Marketing werden Clusterverfahren zur Kundensegmentierung eingesetzt. Die Clustergüte der verfügbaren Clusterverfahren ist nicht immer zufriedenstellend und die Ergebnisse sind häufig schwer verständlich. In diesem Buch werden drei neu entwickelte Methoden zur Lösung dieser Fragestellungen unter Verwendung von formal repräsentiertem Hintergrundwissen in Form von Ontologien beim Clustern vorgestellt: Subjektives Clustern berechnet benutzerbezogene Cluster bei gleichzeitiger Dimensionsreduktion. Der Anwender kann dabei aus mehreren ontologiebasierten, niedrigdimensionalen Clusterungen auswählen. Hintergrundwissen lässt sich erfolgreich während der Vorverarbeitung der Dokumente in den Clusterprozess integrieren. Es konnte gezeigt werden, dass diese neue ontologiebasierte Repräsentation für Textdokumente gegenüber der herkömmlichen wortbasierten Repräsentation zu einer Steigerung der Clustergüte führt. Erstmals werden Verfahren der Formalen Begriffsanalyse zur Präsentation von Textclustern verwendet, die für Menschen leicht verständliche Beschreibungen der berechneten Cluster liefern. Die entwickelten Methoden wurden in zwei Anwendungsgebieten eingesetzt und evaluiert. Einerseits wurden die Kunden der Deutschen Telekom AG anhand ihrer Verbindungsdaten, andererseits Dokumente dreier realer Textkorpora geclustert: Nachrichtentexte der Agentur Reuters, Lernmaterialen zur Programmiersprache Java und Texte landwirtschaftlicher Fachzeitschriften. In allen Fällen konnte gezeigt werden, dass die in diesem Buch vorgestellten Methoden zu einer Verbesserung der Clustergüte bzw. zu leichter verständlichen Clusterergebnissen führen.

Standort
Deutsche Nationalbibliothek Frankfurt am Main
ISBN
9783898382861
3898382869
Maße
21 cm
Umfang
XXII, 242 S.
Sprache
Deutsch
Anmerkungen
Ill., graph. Darst.
Zugl.: Karlsruhe, Univ., Diss., 2004

Erschienen in
Dissertationen zur künstlichen Intelligenz ; Bd. 286

Klassifikation
Informatik
Schlagwort
Dokumentenverwaltungssystem
Text Mining
Cluster-Analyse
Formale Begriffsanalyse

Ereignis
Veröffentlichung
(wo)
Berlin
(wer)
AKA
(wann)
2004
Urheber

Inhaltsverzeichnis
Rechteinformation
Bei diesem Objekt liegt nur das Inhaltsverzeichnis digital vor. Der Zugriff darauf ist unbeschränkt möglich.
Letzte Aktualisierung
11.03.2025, 12:31 MEZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Deutsche Nationalbibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Objekttyp

  • Hochschulschrift

Beteiligte

Entstanden

  • 2004

Ähnliche Objekte (12)