Indexkonstruktion mit unterschiedlichen Wertebereichen

EnricoPalazzo · 18 Juli 2008

Ich mal wieder mit ner schnöden Statistikfrage.

ich möchte einen Index konstruieren, in den zwei Indikatoren mit unterschiedlichem Wertebereich einfließen.

Konkret geht es um einen Index aus BIP (absolut in $) und BIP-Wachstum in Prozent.

Ich könnte natürlich einfach die absoluten Werte für das BIP-Wachstum ausrechnen, allerdings würde dann dass BIP (absolut) viel stärker wiegen als das Wachstum. Ich möchte aber, dass die beiden Indikatoren gleichgewichtet in den Index einfließen.

Welche Möglichkeiten gibt es dafür?

Danke schonmal.

Gruß EP

EnricoPalazzo · 22 Juli 2008

Keine Mathe-Genies unterwegs?

Oder hab ich die Frage nicht konkret genug formuliert?

Phosgen · 23 Juli 2008

Ähm, ja.
Grob geschätzt gibt es unendlich viele Möglichkeiten, um in etwa das zu erreichen, was du hier so schwammig umreißt. Ob man da mit Wurzeln, Logarithmen oder Reziproken arbeitet, ist absolute Geschmackssache. Mit etwas Kreativität läßt sich da sicher auch die Riemannsche Zetafunktion verwursten.

Als erstes solltest du dir auf jeden Fall darüber klar werden, was du mit diesem Index überhaupt ausdrücken willst. Ich meine, man könnte die beiden Werte einfach multiplizieren. Dann wäre beide Faktoren gleich gewichtet. Nur ist sicherlich fraglich, ob das Ergebnis auch nur annähernd dem entspricht, was du dir vorstellst.

EnricoPalazzo · 23 Juli 2008

Phosgen-HKLO schrieb:
Ähm, ja.
Grob geschätzt gibt es unendlich viele Möglichkeiten, um in etwa das zu erreichen, was du hier so schwammig umreißt. Ob man da mit Wurzeln, Logarithmen oder Reziproken arbeitet, ist absolute Geschmackssache. Mit etwas Kreativität läßt sich da sicher auch die Riemannsche Zetafunktion verwursten.

Als erstes solltest du dir auf jeden Fall darüber klar werden, was du mit diesem Index überhaupt ausdrücken willst. Ich meine, man könnte die beiden Werte einfach multiplizieren. Dann wäre beide Faktoren gleich gewichtet. Nur ist sicherlich fraglich, ob das Ergebnis auch nur annähernd dem entspricht, was du dir vorstellst.

Danke für die Antwort. Auf die Riemannsche Zetafunktion bin ich ja mal gespannt.

Der Index soll langfristig zur Fallauswahl in einem Forschungsdesign verwendet werden und ökonomischen Erfolg abbilden. Dazu sind vorraussichtlich mehr als zwei Indikatoren notwendig. Für die finale Auswahl der Indikatoren wollte ich mich dann jedoch an Ökonomen wenden bzw. muss ich selbst noch einiges an Literatur wälzen.

Worum es mir bei dem jetzigen Index aus zwei Indikatoren geht, ist einen ersten Eindruck zu bekommen. Ich möchte den ökonomischen Erfolg einzelner Staaten einer Region z. B. Asien oder Europa abbilden und vergleichen. Dabei sollen sowohl Wachstum als auch Entwicklungsniveau berücksichtigt werden.

Es sollen also beispielsweise Indexwerte für alle Staaten der EU ermittelt werden. Ich dachte da an so eine dolle Exeltabelle in bunten Farben mit Werten von 1-100 oder so.

Nehmen wir mal den Vorschlag mit der Multiplikation.

Staat A hat ein Wachstum von 5% und ein absolutes BIP von 1000

Staat B hat ein Wachstum von 3% und ein absolutes BIP von 4000

Staat C hat ein Wachstum von 1% und ein absolutes BIP von 8000

Dann hätte ich bei Multiplikation folgende Werte

Staat A: 5000
Staat B: 12000
Staat C: 8000

Das sind nun natürlich schöne gerade Zahlen, aber wie setze ich das in einen Index um. Kann ich die Werte zu einer Skala von 1-100 transformieren und wenn ja wie? Welche Vor- bzw. Nachteile hat diese multiplikative Indexbildung?

Hasentod · 23 Juli 2008

EnricoPalazzo schrieb:
Das sind nun natürlich schöne gerade Zahlen, aber wie setze ich das in einen Index um. Kann ich die Werte zu einer Skala von 1-100 transformieren und wenn ja wie? Welche Vor- bzw. Nachteile hat diese multiplikative Indexbildung?

Das ist ein Problem welches immer bei Aggregationsformeln auftritt. In diesem Zusammenhang kann ich Phosgen-HKLO nur zustimmen, du kannst nahezu jede mathematische Funktion.

Dein Problem liegt darin, dass du versucht mehrere nicht zu vereinbare Kriterien zu vereinen. Ein Standardverfahren hierzu ist beide Werte zu normalisieren (z.B. Mittelwert und Standardabweichung bilden) und dann beide Werte gewichtet zu addieren. Wie die Gewichte gewählt werden, hat große Auswirkungen auf die Ordnung der einzelnen Individuen.

Einen möglichen Ausweg stellen eventuell mehrkriterielle Auswahlverfahren dar. Denkbar sind z.B. pareto-optimale Teilmenge zu bestimmen. Allerdings kommt dann keine absolute Ordnung zu stande. Mit einer Tabelle von Platz 1 bis 100 wirst du hiermit nicht kommen.
Für die Theorie dahinter kann ich diesen Foliensatz anbieten. Könnte zugegebenermaßen etwas schwierig zu verstehen sein, wenn man mit den Notationen nicht vertraut ist.

Falls du mehr an praktischen Vorschlägen, als an theoretischen Hintergründen interessiert:

Normalisere jeden Werte, indem du sie durch den (betragsmäßig) größten Wert dividierst. Damit liegen alle Werte zwischen 1 und 0, bzw. 1 und -1, falls negative Werte vorhanden sind. Danach summierst du alle normaliserte Werte zusammen. Falls dir die Rangfolge dann nicht gefällt, experimentiere mit anderen Gewichten, z.B. 2*WertA+WertB.

Sollte für BWLer ausreichen

EnricoPalazzo · 25 Juli 2008

Hasentod

Danke für die Hilfe.

Ein Standardverfahren hierzu ist beide Werte zu normalisieren (z.B. Mittelwert und Standardabweichung bilden) und dann beide Werte gewichtet zu addieren.

Wie meinst du das? Ich nehme also die Daten für meine beiden Indikatoren. Nun hab ich beispielsweise für den EU-Raum 27 Staaten.

Ich berechne für die 27 Staaten den Mittelwert und die Standardabweichung für beiden Indikatoren. Die generelle Bedeutung dieser Maßzahlen ist mir bewusst, allerdings weiß ich nicht welche Bedeutung sie für die Indexbildung haben :confused:

Normalisere jeden Werte, indem du sie durch den (betragsmäßig) größten Wert dividierst. Damit liegen alle Werte zwischen 1 und 0, bzw. 1 und -1, falls negative Werte vorhanden sind. Danach summierst du alle normaliserte Werte zusammen.

Hier stockts bei mir auch. Was ist denn der (betragsmäßig) größte Wert?

Falls dir die Rangfolge dann nicht gefällt, experimentiere mit anderen Gewichten, z.B. 2*WertA+WertB.

Ist das nicht ziemlich willkürlich. Mir gehts wie gesagt um eine Gleichgewichtung der beiden Indikatoren. Mit dem Index möchte ich dann das oberste Quartil der Verteilung identifizieren und jene Staaten, die in diesem Quartil liegen in meine Fallauswahl aufnehmen.

Wenn ihr mir dieses Vorhaben einmal für Doofe erklären könntet, ware ich euch sehr sehr dankbar.

Gruß EP

Hasentod · 25 Juli 2008

EnricoPalazzo schrieb:
Ist das nicht ziemlich willkürlich. Mir gehts wie gesagt um eine Gleichgewichtung der beiden Indikatoren. Mit dem Index möchte ich dann das oberste Quartil der Verteilung identifizieren und jene Staaten, die in diesem Quartil liegen in meine Fallauswahl aufnehmen.

Leider ist dein Problem inhärent willkürlich. Zur Anschauung mal ein Beispiel:
Ein paar Kinder sammeln Äpfel mit Birnen und wollen bestimmen, wer am erfolgreichsten ist. Ist eine Birne genauso viel Wert wie ein Apfel? Bei Äpfel und Birnen macht es vielleicht Sinn die Anzahl zu addieren und als Metrik zu verwenden.
Aber was passiert, wenn die Kinder jetzt Äpfel und Himbeeren pflücken? Ist ein Apfel eine Himbeere wert? Sicher nicht, sind aber 10 Himbeeren zu einem Apfel gerechtfertigt, oder soll stattdessen besser das Gewicht als Maß berücksichtig werden? Eine eindeutige Antwort gibt es nicht. Wie eine solche Bewertung aussieht muss im Einzelfall definiert werden. Für Himbeeren und Kürbisse brauchst du eventuell ein anderes Maß.

Genauso sieht es aus, wenn du BIP und Wachstum vergleichen willst. Die Werte sind prinzipiell unvereinbar, um sie dennoch zu vereinen benötigst du ein entsprechendes Metrik.

Und hier kommen wir zu den verschiedenen Verfahren, die ich im letzten Post angerissen habe.

EnricoPalazzo schrieb:
Ich berechne für die 27 Staaten den Mittelwert und die Standardabweichung für beiden Indikatoren. Die generelle Bedeutung dieser Maßzahlen ist mir bewusst, allerdings weiß ich nicht welche Bedeutung sie für die Indexbildung haben
[..]
Hier stockts bei mir auch. Was ist denn der (betragsmäßig) größte Wert?

Welche mathematische Funktion am besten geeignet ist, hängt sehr stark von der Verteilung der Zahlen ab. Stammen alle Werte aus einem "ähnlichem" Wertebereich, sind andere Verfahren sinnvoll als bei stark streuenden.

Ein kleines Beispiel zur einer Normaliserung:

Gegeben sind Werte A:{14,12,6,3,-7,-16}
und Werte B:{24,260,1,44,58,18}

Der betragsmäßig größte Wert in A ist 16 =|-16| und 260 in B.
Dividiert durch diese Werte ergibt (gerundet)
A:{0.875, 0.75, 0.375, 0.1875, -0.4375, -1}
B:{0.0923, 1, 0.004, 0.169, 0.223, 0.07}

Der Vorteil dieses Verfahren ist, dass die beide Wertebereiche jetzt im gleichen Intervall [1..-1] definiert sind. Addierst du A und B kannst du sie danach sortieren und kennst das "beste" Wertepaar. Das ist in diesen Fall das zweite Wertepaar (12,260).

Ich hoffe, dass die Idee dahinter klarer geworden ist. Die Standardabweichung arbeitet ahnlich, du kannst aber genauso gut die Werte logarithmisch skalieren, hängt alles von Einzelfall und den Werten ab, was besser geeignet ist.

Ich glaube, dass oben vorgestellte Normaliserungsverfahren für den Vergleich von BIP und Wachstum geeignet seien sollte.
Wichtig ist, dass du in deiner Arbeit angibst, wie dein Index berechnet wird. Am besten mit einer kurzen Begründung.

Gruß
Hasentod

EnricoPalazzo · 26 Juli 2008

Ein kleines Beispiel zur einer Normaliserung:

Gegeben sind Werte A:{14,12,6,3,-7,-16}
und Werte B:{24,260,1,44,58,18}

Der betragsmäßig größte Wert in A ist 16 =|-16| und 260 in B.
Dividiert durch diese Werte ergibt (gerundet)
A:{0.875, 0.75, 0.375, 0.1875, -0.4375, -1}
B:{0.0923, 1, 0.004, 0.169, 0.223, 0.07}

Der Vorteil dieses Verfahren ist, dass die beide Wertebereiche jetzt im gleichen Intervall [1..-1] definiert sind. Addierst du A und B kannst du sie danach sortieren und kennst das "beste" Wertepaar. Das ist in diesen Fall das zweite Wertepaar (12,260).

Tausend Dank, nun hats auch bei mir geklingelt. Mit dem Verfahren bildet man quasi alle Fälle im Vergleich zum Fall mit dem höchsten Wert beim jeweiligen Indikator ab.

Was mir noch helfen würde wäre die Bezeichnung dieses Verfahrens, damit ich mich über die Vor- bzw. Nachteile selbigens informieren kann.

Für weiterführende Literatur im Bereich Indexkonstruktion wäre ich auch dankbar, irgendwie komm ich bei meiner Recherche nicht so weit und lande immer nur bei Einführungswerken zu Methoden der empirischen Sozialforschen, die ich schon kenne und wo solche Fragen i. d. R. nur unzureichend behandelt werden.

Hasentod · 26 Juli 2008

In der Informatik werden diese Techniken als Aggregationsfunktionen bezeichnet. Ob Wirtschaftswissenschaftler die gleichen Bezeichnungen verwenden entzieht sich meinen Kenntnissen.

An Literatur habe ich auch nichts parat, aber per Google konnte ich auf die Schnelle das Buch "Aggregation Functions: A Guide for Practitioners" finden. Das Abstract ließt sich zumindest sehr gut.

Edit: Bei Google-Books ist ein Großteil des Buches frei verfügbar. Gucks duhier. Ein paar Seiten sind ausgelassen.

Indexkonstruktion mit unterschiedlichen Wertebereichen

EnricoPalazzo

Guest

EnricoPalazzo

Guest

Phosgen

Mitglied

EnricoPalazzo

Guest

Hasentod

Ist öfter hier

EnricoPalazzo

Guest

Hasentod

Ist öfter hier

EnricoPalazzo

Guest

Hasentod

Ist öfter hier