Die Prozedur UNIVARIATE berechnet neben den deskriptiven Statistiken, die wir bereits mit der Prozedur MEANS kennengelernt haben, weitere Lage- und Streuungsmaße, die uns u.a. zusätzliche Informationen darüber liefern, ob die Annahme einer Normalverteilung der Daten begründet ist oder nicht (Optionen NORMAL, PLOT). Dies ist eine wichtige Voraussetzung für die Entscheidung, ob parametrische oder nichtparametrische Verfahren angewendet werden können. Außerdem kann mit der Option FREQ eine Häufigkeitstabelle angefordert werden.
Die Prozedur UNIVARIATE kann mit folgenden Optionen und Anweisungen aufgerufen werden:
PROC UNIVARIATE <DATA=sasdatei> <optionen>;
VAR variablenliste;
<ID variable;>
Im folgenden Beispiel werden die Werte der Variablen iq in eine SAS-Datei iqdata eingelesen:
DATA iqdata; INPUT iq @@; DATALINES; 75 112 100 116 99 111 85 82 108 85 94 91 118 103 102 133 98 106 92 102 115 109 100 57 108 77 94 121 100 107 104 67 111 88 87 97 102 98 101 88 90 93 85 107 80 106 120 91 101 103 109 100 127 107 112 98 83 98 89 106 79 117 85 94 119 93 100 90 102 87 95 109 142 94 93 72 98 105 122 104 104 79 102 104 107 97 100 109 103 107 106 96 83 107 102 110 102 76 98 88 ; PROC CHART; HBAR iq; RUN; PROC UNIVARIATE NORMAL PLOT ; VAR iq; RUN;
Wir erhalten mit der Prozedur CHART zunächst folgendes Histogramm:
IQ Cum. Cum. Midpoint Freq Freq Percent Percent 60 |* 1 1 1.00 1.00 72 |*** 5 6 5.00 6.00 84 |******** 16 22 16.00 22.00 96 |**************** 31 53 31.00 53.00 108 |****************** 36 89 36.00 89.00 120 |**** 8 97 8.00 97.00 132 |* 2 99 2.00 99.00 144 |* 1 100 1.00 100.00 -----+----+----+--- 10 20 30 Frequency
Dann liefert uns die Prozedur UNIVARIATE die folgende nach verschiedenen Abschnitten gegliederte Ausgabe:
Variable=IQ Moments N 100 Sum Wgts 100 Mean 99.28 Sum 9928 Std Dev 13.56025 Variance 183.8804 Skewness -0.06286 Kurtosis 1.134433 USS 1003856 CSS 18204.16 CV 13.65859 Std Mean 1.356025 T:Mean=0 73.21398 Pr>|T| 0.0001 Num ^= 0 100 Num > 0 100 M(Sign) 50 Pr>=|M| 0.0001 Sgn Rank 2525 Pr>=|S| 0.0001 W:Normal 0.988697 Pr<W 0.9239
Quantiles(Def=5) 100% Max 142 99% 137.5 75% Q3 107 95% 120.5 50% Med 100 90% 115.5 25% Q1 91 10% 82.5 0% Min 57 5% 76.5 1% 62 Range 85 Q3-Q1 16 Mode 102 Extremes Lowest Obs Highest Obs 57( 24) 121( 28) 67( 32) 122( 79) 72( 76) 127( 53) 75( 1) 133( 16) 76( 98) 142( 73) Stem Leaf # Boxplot 14 2 1 0 13 13 3 1 0 12 7 1 | 12 012 3 | 11 56789 5 | 11 01122 5 | 10 56666777777889999 17 +-----+ 10 0000001122222223334444 22 *-----* 9 56778888889 11 | + | 9 001123334444 12 +-----+ 8 5555778889 10 | 8 0233 4 | 7 56799 5 | 7 2 1 | 6 7 1 | 6 5 7 1 0 ----+----+----+----+-- Multiply Stem.Leaf by 10**+1
Normal Probability Plot 142.5+ * | | * +++ | *+++ | *** | **** | ++** | ***** | ****** | ****+ | ****+ | ****+ | ***+ | **** | ++*+ |++++* | 57.5+* +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
Die Angaben in den einzelnen Abschnitten haben folgende Bedeutung:
Der mit dem Begriff 'Moments' überschriebene Abschnitt enthält die gleichen deskriptive Statistiken wie sie auch durch die Prozedur MEANS berechnet werden, sowie zusätzlich noch folgende Angaben: Die Zeile Num^=0 gibt die Anzahl der von Null verschiedenen Werte (in unserem Beispiel 100) an.
Die letzte Zeile wird über die beim Prozeduraufruf zu spezifizierende Option NORMAL erzeugt. Die Zeile enthält das Ergebnis des Tests auf Normalverteilung. (Für Stichproben mit einem Umfang N < 2000 wird der Shapiro-Wilks-Test gerechnet, ansonsten der Kolmogorov-Smirnov-Test (D:NORMAL und Prob > D).) Der Wert der Teststatistik W (0 < W £ 1) wird unter der Spalte W:Normal 0.988697 angegeben, während die mit Pr<W bezeichnete Spalte mit dem zugehörigen p-Wert (0 £ p £ 1) die Wahrscheinlichkeit dafür angibt, unter der Nullhypothese einen solchen Testwert W zu erhalten (hier: p=0.9239). Die Nullhypothese, daß die Daten einer normalverteilten Grundgesamtheit entstammen, kann mit dem ermittelten p-Wert nicht abgelehnt werden, d.h. der Test liefert keinen Verdachtsmoment dafür, daß die Daten nicht normalverteilt sind. (p-Werte nahe Null dagegen würden darauf schließen lassen, daß die Daten nicht einer Normalverteilung entstammen.)
In dem Abschnitt 'Quantiles' erhält man weitere Informationen über die Verteilung der Daten. In der linken Spalte erscheinen die Quartile, d.h. die Werte, welche die der Größe nach angeordnete Beobachtungsreihe in genau vier gleichgroße Bereiche unterteilen. Das 0%-Quantil (0% Min) kennzeichnet den niedrigsten Wert (Minimum), das 100%-Quantil (100% Max) den höchsten Wert (Maximum). Das 50%-Quantil (50% Med) bezeichnet den Median oder Zentralwert (100), d.h. die eine Hälfte der Werte liegt darunter, die andere über dem Median. Der Median ist als Lagemaß für ordinale Daten besonders geeignet. Das 25%-Quantil (25% Q1) wird als das 1. Quartil, das 75%-Quantil (75% Q3) als das 3. Quartil bezeichnet. Das 1. und 3. Quartil trennen jeweils 25% und 75% der Verteilung ab. Die Differenz zwischen maximalem und minimalem Wert wird als Spannweite (Range=85), die Differenz zwischen dem 3. und dem 1. Quartil wird als Quartilsabstand (Q3-Q1) bezeichnet (16). In diesem Bereich um den Median liegen gerade 50% der Beobachtungen. Der Modalwert (Mode) bezeichnet den häufigsten Wert (102). Zur Berechnung der Quantile wird die Beobachtung selbst oder das arithmetische Mittel zweier benachbarter Werte verwendet. Diese Methode wird standardmäßig verwendet (Bezeichnung Def=5 in der Überschrift 'Quantil').
In diesem Abschnitt werden die fünf niedrigsten und die fünf höchsten Werte der SAS-Datei aufgeführt. Daneben in Klammern ist die Nummer der Beobachtung angegeben; sie kann bei Angabe einer Variablen in der ID-Anweisung durch deren Wert ersetzt werden, was in beiden Fällen bei der Fehlersuche hilfreich sein kann.
Die grafischen Darstellungen erhält man nur, wenn man beim Aufruf der Prozedur UNIVARIATE die Option PLOT spezifiziert.
Das Stamm-Blatt Diagramm (Stem Leaf) sieht einem horizontalen Balkendiagramm sehr ähnlich. Auf der vertikalen Achse, dem Stamm (stem), werden in unserem Beispiel die Zehnerstellen der Zahlenwerte aufsteigend aufgetragen. Für die Häufigkeiten der Zahlen, die zu den einzelnen Zehnerwerten gehören, werden die Einerstellen eingetragen, also etwa 2, 5, 6, 7, 9 und 9 für den Stamm 7. Zum 7. Stamm gehören somit die IQ-Werte (Blätter) 72, 75, 76, 77, 79 und 79. (Am unteren Ende des Stamm-Blatt Diagramms findet man einen Hinweis, wie die Zahlenwerte zu lesen sind. Für unser Beispiel ergibt sich etwa für die kleinste Beobachtung: Stamm.Blatt x 101=5.7x101.) Unter # wird die Häufigkeit pro Stamm explizit angegeben.
In dem Boxplot wird der Quartilsabstand (Q3-Q1) durch die Länge der Box dargestellt, wobei der Mittelwert durch ein + (in der Mitte) und der Median durch eine gestrichelte Linie, die mit je einem * (Stern) am Ende abgeschlossen wird, gekennzeichnet ist. Wie wir aus der Ausgabe der Prozedur UNIVARIATE und dem Boxplot entnehmen können, haben in unserem Fall Median, Mittelwert und Modalwert (s. Abschnitt Quantiles) nahezu den gleichen Wert. Die annähernde Gleichheit der Werte von Mittelwert (99.28), Median (100) und Modalwert(102) ist ein weiterer Hinweis auf eine annähernde symmetrische eingipfelige Verteilung der IQ-Werte.
Die senkrechten Linien, die sich zu beiden Seiten der Box über 1.5 Quartilsabstände nach unten und oben erstrecken, werden als 'whiskers' bezeichnet; Werte, die 1.5 bis 3.0 Quartilsabstände außerhalb der Box, also des Quartilsabstandes, liegen, werden mit einer Null (0), Werte die darüber hinausgehen mit einem Stern (*) markiert; sie werden als 'Ausreißer' (outliers) bezeichnet.
Mit der Angabe der Option PLOT beim Prozeduraufruf erhält man diesen Quantil-Quantil-Plot (QQ-Plot) der Daten, in dem Pluszeichen (+) und Sterne (*) zu erkennen sind. Die Quantile der theoretischen Normalverteilung (+) werden gegen die Quantile der empirischen Verteilung (*) geplottet.
Die Werte der theoretische Normalverteilung (+) bilden eine gerade Linie, die von den Quantilen der empirischen Verteilung (*) überlagert werden. Je weniger Pluszeichen nun in dem Diagramm zu erkennen sind, desto stärker nähert sich die empirische Verteilung der Normalverteilung an.
Die Prozedur UNIVARIATE bietet auch die Möglichkeit hochauflösende Grafiken ausgeben zu lassen, die stärker vom Benutzer gestaltet werden können. Dazu können Sie die Plotanweisungen HISTOGRAM, PROBPLOT, und QQPLOT verwenden, während mit der Anweisung INSET die deskriptiven Statistiken direkt in die Grafik eingebunden werden. Weitergehende Informationen hierzu erhalten Sie in der Syntaxbeschreibung der SAS-Onlinedokumentation.