Streudiagramm - LinkFang.de





Streudiagramm


Ein Streudiagramm (engl. scatter plot) ist die graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale. Diese Wertepaare werden in ein kartesisches Koordinatensystem eingetragen, wodurch sich eine Punktwolke ergibt. Die Darstellung der Punkte kann durch verschiedene kleine Symbole erfolgen.

Anwendung

Man erhofft sich durch das Muster der Punkte im Streudiagramm Informationen über die Abhängigkeitsstruktur der beiden Merkmale zu erkennen, die durch die Koordinaten repräsentiert sind.

Nebenstehendes Beispieldiagramm enthält Punkte, die die beiden Merkmale „Länge“ und „Breite“ von verschiedenen Artillerieschiffen darstellen. Die Schiffe sind in vier Klassen eingeteilt, denen unterschiedliche Farben zugewiesen sind (Zerstörer, leichter Kreuzer, schwerer Kreuzer, Schlachtschiff). Man erkennt durch ein solches Streudiagramm auf einen Blick verschiedene Korrelationen in den erfassten Daten.

Häufig auftretende Korrelationen sind Cluster (Ballungen) und lineare Strukturen. Cluster können mit der Clusteranalyse untersucht werden. Zur Quantifizierung von linearen Korrelationen bietet sich vor allem die Regressionsanalyse an.

Falls ein drittes (metrisches) Merkmal auch noch mit dargestellt werden soll, kann das durch die Größe der Punkte (bzw. Kreise) geschehen. Den dabei entstehenden Diagrammtyp nennt man Blasendiagramm.

Streudiagramme bei ordinalskalierten Merkmalen

Es sind im Allgemeinen nur stetig verteilte Daten für Streudiagramme geeignet. Beobachtungen diskret verteilter Merkmale überlagern sich, wenn gleiche Werte mehrfach vorliegen. Es gibt jedoch auch Möglichkeiten, ordinalskalierte Merkmale in Streudiagramme darzustellen:

  • Durch „Sonnenblumen“: Es wird an jedem Koordinatenpaar ein Kreis eingetragen. Die Zahl der Wertepaare, die auf diesem Punkt liegen, wird durch Striche an den Kreis dargestellt, so dass sich eine stilisierte Sonnenblume ergibt.
  • Durch einen „Jittered Scatterplot“ („Verwackeltes Streudiagramm“): Es werden auf die Daten kleine Zufallszahlen addiert, so dass die Werte leicht auseinandergezogen werden und eine Punktwolke ergeben. Man muss sich allerdings im Klaren sein, dass die Werte eigentlich übereinanderliegen. Man könnte sie als „pseudometrisch“ bezeichnen.

Das folgende Beispiel zeigt beide Möglichkeiten anhand der Evaluation einer Statistik-Vorlesung, bei der die Merkmale „Stoff ist verständlich“ und „Gesamtnote Statistik“ (Noten von 1 bis 4) in ein Streudiagramm eingetragen wurden.

Sonnenblumen-Streudiagramm Jittered scatter plot

Dotplot

Der Dotplot wird auch als das eindimensionale Streudiagramm bezeichnet. In ihm wird eine Variable entweder auf der x-Achse oder auf der y-Achse (wie in den Grafiken) dargestellt. Je nachdem wie viele Werte die Beobachtungen der Variablen annehmen, ergibt sich das Problem, dass man nur einen Datenpunkt sieht, obwohl sich hinter ihm (viele) weitere Beobachtungen verbergen können.

Ähnlich wie beim Sonnenblumen-Streudiagramm können Symbole genutzt werden um die Anzahl der Punkte darzustellen. In der Grafik links symbolisiert ein größerer Kreis, dass sich hinter ihm mehr Beobachtungen verbergen als bei einem kleineren Kreis. In der Grafik rechts wird für jeden Datenpunkt ein Kreis gezeichnet. Tritt der gleiche Wert mehrfach auf, werden rechts neben dem ersten Kreis weitere Kreise gezeichnet.

Eine weitere Möglichkeit ist, auf der einen Achse den Beobachtungswert zu zeichnen und für die andere Achse einen zufälligen, z. B. aus einer Gleichverteilung stammenden, Wert zu wählen. Auch kann man eine Dichteschätzung einzeichnen.

Der Dotplot erlaubt Einblicke in die Verteilung einer Variablen, z. B. wo die Beobachtungen besonders dicht sind oder verteilen sich die Beobachtungen auf nur wenige Werte.

Streudiagramm-Matrix

In einer Streudiagramm-Matrix wird für einen multivariaten Datensatz für Paare von Variablen jeweils ein Streudiagramm gezeichnet. Dabei unterscheiden sich die Streudiagramme oben rechts von denen unten links in der Grafik nur dadurch welche Variable auf die x-Achse bzw. y-Achse abgebildet wird. D. h. die entsprechenden Punktwolken sind nur an der 45-Grad-Linie gespiegelt. In Variationen der Streudiagramm-Matrix werden statt den gespiegelten Punktwolken auch weitere Informationen, z. B. Korrelationskoeffizienten oder Regressionfunktionen dargestellt.

Auf der Diagonalen sind in der Grafik rechts nur die Variablennamen eingetragen. Es gibt jedoch auch hier eine Vielzahl von Variationen, z. B. mit weiteren Informationen (Boxplots, Dichteschätzungen) über die jeweilige Variable.

Die Streudiagramm-Matrix hat einige Nachteile:

  • Die Anzahl der dargestellten Variablen sollte nicht zu groß werden, da sonst die Fläche für jedes Streudiagramm zu klein und damit unübersichtlich wird. Die Brüder Tukey haben daher Maßzahlen, zusammenfassend mit Scagnostics bezeichnet, vorgeschlagen, die die Eigenschaft der Punktwolke charakterisieren:
Hauptartikel: Scagnostics
  • Die Streudiagramm-Matrix zeigt bei [math]p[/math] Variablen genau [math]p(p-1)/2[/math] Projektionen der multivariaten Daten. Eine interessante Datenstruktur muss jedoch nicht in diesen Projektionen sichtbar sein. Dann sollte man entweder auf die Grand Tour oder Projection Pursuit-Verfahren zurückgreifen.

Siehe auch

 Wiktionary: Streudiagramm – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Weblinks

 Commons: Streudiagramme  – Sammlung von Bildern, Videos und Audiodateien

Kategorien: Diagramm (Statistik)

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Streudiagramm (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.