Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Ludmila Himmelspach

doi:10.18453/rosdok_id00002202

zum übergeordneten Dokument

Ludmila Himmelspach

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Universität Rostock, 2009

In: 21. Workshop Grundlagen von Datenbanken : 02.-05. Juni 2009, Rostock-Warnemünde : Proceedings, Seiten 129-133

https://doi.org/10.18453/rosdok_id00002202

Abstract: Die klassischen Methoden zur Clusteranalyse wurden entwickelt, um auf vollständigen Daten Analysen durchzuführen. Oft fehlen aber in Daten einzelne Werte - systematisch oder unsystematisch -, z.B. infolge der Probleme bei der Datenerfassung, Datenübertragung, Datenbereinigung oder weil Daten aus unterschiedlichen Quellen stammen. Demzufolge können die traditionellen Clusteringmethoden zur Analyse solcher Daten nicht ohne weiteres angewendet werden. Im Rahmen dieses Beitrags werden unterschiedliche Strategien zum Umgang mit fehlenden Werten in Daten für das Clusteringproblem vorgestellt, analysiert und miteinander verglichen. Dabei wird das besondere Augenmerk auf die Untersuchung der Leistungsfähigkeit dieser Verfahren in Abhängigkeit von den Ausfallmechanismen, die den fehlenden Werten zugrundeliegen, und von dem Anteil fehlender Werte in Daten gelegt.

Artikel Freier Zugang

Titel:

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Gesamttitel:

21. Workshop Grundlagen von Datenbanken: 02.-05. Juni 2009, Rostock-Warnemünde : Proceedings

In:

Enthalten in:

21. Workshop Grundlagen von Datenbanken: 02.-05. Juni 2009, Rostock-Warnemünde : Proceedings

Seiten 129-133

PURL:	https://purl.uni-rostock.de/rosdok/id00002177

Beteiligte Personen:

Ludmila Himmelspach[VerfasserIn]
	1082053074

Zusammenfassung:

Die klassischen Methoden zur Clusteranalyse wurden entwickelt, um auf vollständigen Daten Analysen durchzuführen. Oft fehlen aber in Daten einzelne Werte - systematisch oder unsystematisch -, z.B. infolge der Probleme bei der Datenerfassung, Datenübertragung, Datenbereinigung oder weil Daten aus unterschiedlichen Quellen stammen. Demzufolge können die traditionellen Clusteringmethoden zur Analyse solcher Daten nicht ohne weiteres angewendet werden. Im Rahmen dieses Beitrags werden unterschiedliche Strategien zum Umgang mit fehlenden Werten in Daten für das Clusteringproblem vorgestellt, analysiert und miteinander verglichen. Dabei wird das besondere Augenmerk auf die Untersuchung der Leistungsfähigkeit dieser Verfahren in Abhängigkeit von den Ausfallmechanismen, die den fehlenden Werten zugrundeliegen, und von dem Anteil fehlender Werte in Daten gelegt. [Deutsch]

Dokumenttyp:

Artikel

Einrichtung:

Fakultät für Informatik und Elektrotechnik

Sprache:

Deutsch

Sachgruppe der DNB:

004 Informatik

Umfang:

1 Online-Ressource (Seiten 129-133)

Veröffentlichung /
Entstehung:

Rostock: Universität Rostock