Diskriminanzfunktion - LinkFang.de





Diskriminanzfunktion


Eine Diskriminanzfunktion oder Trennfunktion ist eine Funktion, die bei der Diskriminanzanalyse jeder Beobachtung einen Scorewert zuordnet. Aus dem Scorewert wird die Gruppenzugehörigkeit jeder Beobachtung und die Grenzen zwischen den Gruppen bestimmt. Bei bekannter Gruppenzugehörigkeit der Beobachtungen werden also die Merkmalsvariablen bei minimalen Informationsverlust zu einer einzigen Diskriminanzvariablen zusammengefasst.

Die Fisher’sche Diskriminanzfunktion ist die bekannteste Diskriminanzfunktion, die das Fisher’sche Kriterium realisiert. Sie wurde 1936 von R. A. Fisher entwickelt und beschreibt eine Metrik, die die Güte der Trennbarkeit zweier Klassen in einem Merkmalsraum misst und wurde 1936 von ihm in The use of multiple measurements in taxonomic problems veröffentlicht.

Einleitung

Gegeben seien N d-dimensionale Merkmalsvektoren x, von denen n1 der Klasse C1 und n2 der Klasse C2 angehören. Eine Diskriminanzfunktion beschreibt nun die Gleichung einer Hyperebene, die die Klassen optimal voneinander trennt. Davon gibt es, je nach Trennbarkeit der Klassen, lineare und nicht-lineare, was im folgenden Bild in zwei Dimensionen erläutert ist.

Beispiel

Die Grafik rechts zeigt gute (blau) und schlechte (rot) Kreditkunden einer Bank. Auf der x-Achse ist das Einkommen und auf der y-Achse die Kreditsumme der Kunden (in Tausend EUR) dargestellt. Die Diskriminanzfunktion ergibt sich zu

[math]d=-0,256-0,048\text{ Einkommen}+0,007\text{ Kreditsumme}[/math].

Die parallelen schwarzen Linien von links unten nach rechts oben ergeben sich für [math]d=-3, -2, \ldots, 3[/math].

Die Werte der Diskriminanzfunktion für jede Beobachtung sind unterhalb des Datenpunktes angegeben. Man sieht, dass die schlechten Kunden hohe Werte in der Diskriminanzfunktion haben während gute Kunden niedrige Werte erhalten. So könnte eine daraus abgeleitete Regel für neue Kunden sein:

[math]d=\begin{cases} \leq 0 & \Rightarrow\text{ guter Kunde}\\ \gt 0 & \Rightarrow\text{ schlechter Kunde} \end{cases}[/math]

Lineare Diskriminanzfunktion

Wie das einleitende Beispiel zeigt, suchen wir eine Richtung in den Daten, so dass die Gruppen bestmöglich voneinander getrennt werden. In der Grafik ist diese Richtung mit der gestrichelten Linie gekennzeichnet. Die gestrichelte und die schwarze Linie, die sich im schwarzen Punkt kreuzen bilden ein neues gedrehtes Koordinatensystem für die Daten.

Solche Drehungen werden mit Linearkombinationen der Merkmalsvariablen beschrieben. Die kanonische lineare Diskriminanzfunktion für [math]p[/math] Merkmalsvariablen ist daher gegeben durch:

[math]D = \beta_0 + \beta_1 X_1 + \beta_2 X_2 +...+\beta_p X_p[/math]

mit [math]D[/math] der Diskriminanzvariable, [math]X_j[/math]'s die Merkmalsvariablen und [math]\beta_j[/math] die Diskriminanzkoeffizienten. Ähnlich zur multiplen linearen Regression werden die Diskriminanzkoeffizienten berechnet; jedoch wird nicht ein quadratischer Fehler für [math]D[/math], sondern bzgl. eines Diskriminanzmaßes optimiert.

Für jede mögliche Richtung werden die Datenpunkte (rote und blaue Punkte) auf die gestrichelte Linie projiziert (hellblaue und hellrote Punkte). Dann werden die Gruppenmittelpunkte (für die hellroten und hellblauen Punkte) und das Gesamtmittel (schwarzer Punkt) bestimmt.

Zum einen wird nun der Abstand jedes hellroten bzw. hellblauen Punktes zu seinem Gruppenmittelpunkt bestimmt und diese quadrierten Abstände aufsummiert zu [math]D_{within}[/math] (Intravarianz, engl. within scatter). Je kleiner [math]D_{within}[/math] ist, desto näher liegen die projizierten Punkte an ihren Gruppenmittelpunkten.

Zum anderen wird für jeden hellroten und hellblauen Punkt der Abstand zwischen dem zugehörigen Gruppenmittelpunkt und dem Gesamtmittelpunkt und quadrierten Abstände aufsummiert zu [math]D_{between}[/math] (Intervarianz, engl. between scatter). Je größer [math]D_{between}[/math] ist, desto weiter liegen die Gruppenmittelwerte auseinander.

Daher wird die Richtung in den Daten so gewählt, dass

[math]\lambda=\frac{D_{between}}{D_{within}}[/math]

maximal ist. Je größer [math]\lambda[/math] ist, desto deutlicher sind die Gruppen voneinander getrennt.

Fisher’sches Kriterium

Das Berechnen der optimal trennenden Hyperebene ist in zwei Dimensionen noch relativ einfach, wird jedoch in mehreren Dimensionen schnell zu einem komplexeren Problem. Daher bedient sich Fisher eines Tricks, der zunächst die Dimension reduziert und danach die Diskriminanzfunktion berechnet. Dazu werden die Daten in eine einzige Dimension projiziert, wobei die Projektionsrichtung von entscheidender Bedeutung ist.

Die Klassen sind viel besser voneinander getrennt, wenn die Merkmalsvektoren in Richtung w2 projiziert sind, als in Richtung w1.

Um diese Tatsache formal zu schreiben, werden ein paar Definitionen benötigt.

Bezeichne [math]\mathbf{m}^{(i)}[/math] den Mittelwert der Klasse Ci und [math]\mathbf{m}[/math] den Mittelwert des gesamten Merkmalsraumes.

[math]S_W=\sum_{\mathbf{x}\in C_1}{(\mathbf{x}-\mathbf{m}^{(1)})(\mathbf{x}-\mathbf{m}^{(1)})^T}+\sum_{\mathbf{x}\in C_2}{(\mathbf{x}-\mathbf{m}^{(2)})(\mathbf{x}-\mathbf{m}^{(2)})^T}[/math]

heißt Intravarianz (englisch: within scatter) und misst die Varianz innerhalb der Klassen, während die Intervarianz (englisch: between scatter)

[math]S_B=(\mathbf{m}^{(1)}-\mathbf{m})(\mathbf{m}^{(1)}-\mathbf{m})^T+(\mathbf{m}^{(2)}-\mathbf{m})(\mathbf{m}^{(2)}-\mathbf{m})^T[/math]

die Varianz zwischen den Klassen beschreibt. Die geeignetste Projektionsrichtung ist dann offensichtlich diejenige, die die Intravarianz der einzelnen Klassen minimiert, während die Intervarianz zwischen den Klassen maximiert wird.

Diese Idee wird mit dem Fisher’schen Kriterium anhand des Rayleigh-Quotienten mathematisch formuliert:

[math]J(w)=\frac{|w^TS_Bw|}{|w^TS_Ww|}[/math]

Mit diesem Kriterium wird die Güte der Trennbarkeit der Klassen im Merkmalsraum gemessen. Damit gilt dann, dass die Projektionsrichtung [math]w[/math] genau dann optimal ist (im Sinne der Trennbarkeit der Klassen), wenn [math]J(w)[/math] maximal ist.

Die Erläuterungen lassen bereits erkennen, dass das Fisher'sche Kriterium nicht nur zu einer Diskriminanzfunktion, sondern auch zu einem Optimierungsverfahren für Merkmalsräume erweitert werden kann. Bei letzterem wäre ein Projektionsverfahren denkbar, das einen hochdimensionalen Merkmalsraum ähnlich der Hauptkomponentenanalyse in eine niedere Dimension projiziert und dabei gleichzeitig die Klassen optimal voneinander trennt.

Fisher’sche Diskriminanzfunktion

Eine Diskriminanzfunktion ordnet Objekte den jeweiligen Klassen zu. Mit dem Fisher’schen Kriterium kann bereits die optimale Projektionsrichtung, genauer gesagt der Normalenvektor der optimal trennenden Hyperebene, bestimmt werden. Es muss dann nur noch für jedes Objekt getestet werden, auf welcher Seite der Hyperebene es liegt.

Dazu wird das jeweilige Objekt zunächst auf die optimale Projektionsrichtung projiziert. Danach wird der Abstand zum Ursprung gegen einen vorher bestimmten Schwellwert [math]w_0[/math] getestet. Die Fisher’sche Diskriminanzfunktion ist demnach von folgender Form:

[math]f(\mathbf{x})=\mathbf{w}^T\mathbf{x}-w_0[/math]

Ein neues Objekt [math]y[/math] wird nun je nach Ergebnis von [math]f(y)[/math] entweder C1 oder C2 zugewiesen. Bei [math]f(y)=0[/math] ist anwendungsabhängig zu entscheiden, ob [math]y[/math] überhaupt einer der beiden Klassen zuzuordnen ist.

Anzahl von Diskriminanzfunktionen

Zur Trennung von [math]K[/math] Klassen lassen sich maximal [math]K-1[/math] Diskriminanzfunktionen bilden, die orthogonal (d. h. rechtwinklig bzw. unkorreliert) sind. Die Anzahl der Diskriminanzfunktionen kann auch nicht größer werden als die Anzahl der Merkmalsvariablen, die zur Trennung der Klassen bzw. Gruppen verwendet werden:[1]

[math]M=min(K-1,p)[/math].

Standardisierte Diskriminanzkoeffizienten

Wie bei der linearen Regression kann man auch standardisierte Diskriminanzkoeffizienten [math]\beta_i^*[/math]. Das Ziel ist herauszufinden, welche Merkmalsvariablen den größten Einfluss auf die Diskriminanzvariable haben. Dafür werden die Merkmalsvariablen [math]X_i[/math] standardisiert:

[math]Z_i = \frac{X_i-\bar{x_i}}{s_i}[/math]

mit [math]\bar{x}_i[/math] das arithmetische Mittel und [math]s_i[/math] die Standardabweichung. Danach werden die Koeffizienten neu berechnet:

[math]D= \beta_0^* + \beta_1 Z_1 + \beta_2^* Z_2 +...+\beta_p^* Z_p[/math]

und es gilt

[math]\beta_i^* = \beta_i s_i[/math].
Variable Koeffizient Stand. Koeffizient
Einkommen 0,048 1,038
Kreditsumme -0,007 -1,107

Wäre jetzt einer der standardisierten Koeffizienten aus dem Beispiel nahe Null, dann könnte man die Diskriminanzfunktion vereinfachen, wenn man diese Merkmalsvariable weglässt bei nur geringfüg geringerer Diskriminationskraft.

Beispiel

Ein einfacher Quader-Klassifikator soll anhand des Alters [math]x[/math] einer Person bestimmen, ob es sich um einen Teenager handelt oder nicht. Die Diskriminanzfunktion ist

[math] g(x)= \begin{cases} 1 & \mbox{wenn } 13 \le x \le 19 \\ -1 & \mbox{sonst} \end{cases} [/math]

Da der Merkmalsraum eindimensional ist (nur das Alter wird zur Klassifikation herangezogen), sind die Trennflächen-Punkte bei [math]x=13[/math] und [math]x=19[/math]. In diesem Fall muss vereinbart werden, dass die Trennflächen mit zur Klasse "Teenager" gehören.

Einzelnachweise

  1. Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2008). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer: Berlin, S.200. ISBN 978-3-540-85044-1

Literatur

  • R. Kraft: Diskriminanzanalyse. Technische Universität München-Weihenstephan, 8. Juni 2000, abgerufen am 24. Oktober 2012 (PDF; 99 kB).
  • Christopher M. Bishop, Neural Networks for Pattern Recognition, Oxford University Press, 1995.
  • Richard O. Duda and Peter E. Hart, Pattern Classification and Scene Analysis, Wiley-Interscience Publication, 1974.
  • Keinosuke Fukunaga, Introduction to Statistical Pattern Recognition, Academic Press, 1990.

Kategorien: Klassifizierung | Multivariate Statistik

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Diskriminanzfunktion (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.