Die Prozedur UNIVARIATE

Die Prozedur UNIVARIATE berechnet neben den deskriptiven Statistiken, die wir bereits mit der Prozedur MEANS kennengelernt haben, weitere Lage- und Streuungsmaße, die uns u.a. zusätzliche Informationen darüber liefern, ob die Annahme einer Normalverteilung der Daten begründet ist oder nicht (Optionen NORMAL, PLOT). Dies ist eine wichtige Voraussetzung für die Entscheidung, ob parametrische oder nichtparametrische Verfahren angewendet werden können. Außerdem kann mit der Option FREQ eine Häufigkeitstabelle angefordert werden.

Die Prozedur UNIVARIATE kann mit folgenden Optionen und Anweisungen aufgerufen werden:

   PROC UNIVARIATE <DATA=sasdatei> <optionen>;
      VAR variablenliste;
      <ID variable;>

Im folgenden Beispiel werden die Werte der Variablen iq in eine SAS-Datei iqdata eingelesen:

   DATA iqdata;
      INPUT iq @@;
      DATALINES;
    75 112 100 116  99 111  85  82 108  85 94  91 118 103 102
   133  98 106  92 102 115 109 100  57 108 77  94 121 100 107
   104  67 111  88  87  97 102  98 101  88 90  93  85 107  80
   106 120  91 101 103 109 100 127 107 112 98  83  98  89 106
    79 117  85  94 119  93 100  90 102  87 95 109 142  94  93
    72  98 105 122 104 104  79 102 104 107 97 100 109 103 107
   106  96  83 107 102 110 102  76  98  88
   ;

   PROC CHART;
      HBAR iq;
   RUN;
   PROC UNIVARIATE NORMAL PLOT ;
      VAR iq;
   RUN;

Wir erhalten mit der Prozedur CHART zunächst folgendes Histogramm:

    IQ                              Cum.              Cum.
   Midpoint                   Freq  Freq  Percent  Percent
    60   |*                      1     1     1.00     1.00
    72   |***                    5     6     5.00     6.00
    84   |********              16    22    16.00    22.00
    96   |****************      31    53    31.00    53.00
   108   |******************    36    89    36.00    89.00
   120   |****                   8    97     8.00    97.00
   132   |*                      2    99     2.00    99.00
   144   |*                      1   100     1.00   100.00
         -----+----+----+---
              10   20   30

              Frequency

Dann liefert uns die Prozedur UNIVARIATE die folgende nach verschiedenen Abschnitten gegliederte Ausgabe:

   Variable=IQ
                    Moments

    N               100  Sum Wgts        100
    Mean          99.28  Sum            9928
    Std Dev    13.56025  Variance   183.8804
    Skewness   -0.06286  Kurtosis   1.134433
    USS         1003856  CSS        18204.16
    CV         13.65859  Std Mean   1.356025
    T:Mean=0   73.21398  Pr>|T|       0.0001
    Num ^= 0        100  Num > 0         100
    M(Sign)          50  Pr>=|M|      0.0001
    Sgn Rank       2525  Pr>=|S|      0.0001
    W:Normal   0.988697  Pr<W         0.9239

               Quantiles(Def=5)

    100% Max       142       99%     137.5
     75% Q3        107       95%     120.5
     50% Med       100       90%     115.5
     25% Q1         91       10%      82.5
      0% Min        57        5%      76.5
                              1%        62
    Range           85
    Q3-Q1           16
    Mode           102


                    Extremes

       Lowest    Obs     Highest    Obs
           57(      24)      121(      28)
           67(      32)      122(      79)
           72(      76)      127(      53)
           75(       1)      133(      16)
           76(      98)      142(      73)


      Stem Leaf                       #  Boxplot
        14 2                          1     0
        13
        13 3                          1     0
        12 7                          1     |
        12 012                        3     |
        11 56789                      5     |
        11 01122                      5     |
        10 56666777777889999         17  +-----+
        10 0000001122222223334444    22  *-----*
         9 56778888889               11  |  +  |
         9 001123334444              12  +-----+
         8 5555778889                10     |
         8 0233                       4     |
         7 56799                      5     |
         7 2                          1     |
         6 7                          1     |
         6
         5 7                          1     0
           ----+----+----+----+--
       Multiply Stem.Leaf by 10**+1

                          Normal Probability Plot
      142.5+                                                  *
           |
           |                                              * +++
           |                                            *+++
           |                                         ***
           |                                     ****
           |                                 ++**
           |                              *****
           |                        ******
           |                     ****+
           |                 ****+
           |              ****+
           |           ***+
           |       ****
           |    ++*+
           |++++*
           |
       57.5+*
            +----+----+----+----+----+----+----+----+----+----+
                -2        -1         0        +1        +2

Die Angaben in den einzelnen Abschnitten haben folgende Bedeutung:

  1. Moments

    Der mit dem Begriff 'Moments' überschriebene Abschnitt enthält die gleichen deskriptive Statistiken wie sie auch durch die Prozedur MEANS berechnet werden, sowie zusätzlich noch folgende Angaben: Die Zeile Num^=0 gibt die Anzahl der von Null verschiedenen Werte (in unserem Beispiel 100) an.

    Die letzte Zeile wird über die beim Prozeduraufruf zu spezifizierende Option NORMAL erzeugt. Die Zeile enthält das Ergebnis des Tests auf Normalverteilung. (Für Stichproben mit einem Umfang N < 2000 wird der Shapiro-Wilks-Test gerechnet, ansonsten der Kolmogorov-Smirnov-Test (D:NORMAL und Prob > D).) Der Wert der Teststatistik W (0 < W £ 1) wird unter der Spalte W:Normal 0.988697 angegeben, während die mit Pr<W bezeichnete Spalte mit dem zugehörigen p-Wert (0 £ p £ 1) die Wahrscheinlichkeit dafür angibt, unter der Nullhypothese einen solchen Testwert W zu erhalten (hier: p=0.9239). Die Nullhypothese, daß die Daten einer normalverteilten Grundgesamtheit entstammen, kann mit dem ermittelten p-Wert nicht abgelehnt werden, d.h. der Test liefert keinen Verdachtsmoment dafür, daß die Daten nicht normalverteilt sind. (p-Werte nahe Null dagegen würden darauf schließen lassen, daß die Daten nicht einer Normalverteilung entstammen.)

  2. Quantiles

    In dem Abschnitt 'Quantiles' erhält man weitere Informationen über die Verteilung der Daten. In der linken Spalte erscheinen die Quartile, d.h. die Werte, welche die der Größe nach angeordnete Beobachtungsreihe in genau vier gleichgroße Bereiche unterteilen. Das 0%-Quantil (0% Min) kennzeichnet den niedrigsten Wert (Minimum), das 100%-Quantil (100% Max) den höchsten Wert (Maximum). Das 50%-Quantil (50% Med) bezeichnet den Median oder Zentralwert (100), d.h. die eine Hälfte der Werte liegt darunter, die andere über dem Median. Der Median ist als Lagemaß für ordinale Daten besonders geeignet. Das 25%-Quantil (25% Q1) wird als das 1. Quartil, das 75%-Quantil (75% Q3) als das 3. Quartil bezeichnet. Das 1. und 3. Quartil trennen jeweils 25% und 75% der Verteilung ab. Die Differenz zwischen maximalem und minimalem Wert wird als Spannweite (Range=85), die Differenz zwischen dem 3. und dem 1. Quartil wird als Quartilsabstand (Q3-Q1) bezeichnet (16). In diesem Bereich um den Median liegen gerade 50% der Beobachtungen. Der Modalwert (Mode) bezeichnet den häufigsten Wert (102). Zur Berechnung der Quantile wird die Beobachtung selbst oder das arithmetische Mittel zweier benachbarter Werte verwendet. Diese Methode wird standardmäßig verwendet (Bezeichnung Def=5 in der Überschrift 'Quantil').

  3. Extremes

    In diesem Abschnitt werden die fünf niedrigsten und die fünf höchsten Werte der SAS-Datei aufgeführt. Daneben in Klammern ist die Nummer der Beobachtung angegeben; sie kann bei Angabe einer Variablen in der ID-Anweisung durch deren Wert ersetzt werden, was in beiden Fällen bei der Fehlersuche hilfreich sein kann.

  4. Stamm-Blatt Diagramm und Boxplot

    Die grafischen Darstellungen erhält man nur, wenn man beim Aufruf der Prozedur UNIVARIATE die Option PLOT spezifiziert.

    Das Stamm-Blatt Diagramm (Stem Leaf) sieht einem horizontalen Balkendiagramm sehr ähnlich. Auf der vertikalen Achse, dem Stamm (stem), werden in unserem Beispiel die Zehnerstellen der Zahlenwerte aufsteigend aufgetragen. Für die Häufigkeiten der Zahlen, die zu den einzelnen Zehnerwerten gehören, werden die Einerstellen eingetragen, also etwa 2, 5, 6, 7, 9 und 9 für den Stamm 7. Zum 7. Stamm gehören somit die IQ-Werte (Blätter) 72, 75, 76, 77, 79 und 79. (Am unteren Ende des Stamm-Blatt Diagramms findet man einen Hinweis, wie die Zahlenwerte zu lesen sind. Für unser Beispiel ergibt sich etwa für die kleinste Beobachtung: Stamm.Blatt x 101=5.7x101.) Unter # wird die Häufigkeit pro Stamm explizit angegeben.

    In dem Boxplot wird der Quartilsabstand (Q3-Q1) durch die Länge der Box dargestellt, wobei der Mittelwert durch ein + (in der Mitte) und der Median durch eine gestrichelte Linie, die mit je einem * (Stern) am Ende abgeschlossen wird, gekennzeichnet ist. Wie wir aus der Ausgabe der Prozedur UNIVARIATE und dem Boxplot entnehmen können, haben in unserem Fall Median, Mittelwert und Modalwert (s. Abschnitt Quantiles) nahezu den gleichen Wert. Die annähernde Gleichheit der Werte von Mittelwert (99.28), Median (100) und Modalwert(102) ist ein weiterer Hinweis auf eine annähernde symmetrische eingipfelige Verteilung der IQ-Werte.

    Die senkrechten Linien, die sich zu beiden Seiten der Box über 1.5 Quartilsabstände nach unten und oben erstrecken, werden als 'whiskers' bezeichnet; Werte, die 1.5 bis 3.0 Quartilsabstände außerhalb der Box, also des Quartilsabstandes, liegen, werden mit einer Null (0), Werte die darüber hinausgehen mit einem Stern (*) markiert; sie werden als 'Ausreißer' (outliers) bezeichnet.

  5. Normal probability plot

    Mit der Angabe der Option PLOT beim Prozeduraufruf erhält man diesen Quantil-Quantil-Plot (QQ-Plot) der Daten, in dem Pluszeichen (+) und Sterne (*) zu erkennen sind. Die Quantile der theoretischen Normalverteilung (+) werden gegen die Quantile der empirischen Verteilung (*) geplottet.

    Die Werte der theoretische Normalverteilung (+) bilden eine gerade Linie, die von den Quantilen der empirischen Verteilung (*) überlagert werden. Je weniger Pluszeichen nun in dem Diagramm zu erkennen sind, desto stärker nähert sich die empirische Verteilung der Normalverteilung an.

Die Prozedur UNIVARIATE bietet auch die Möglichkeit hochauflösende Grafiken ausgeben zu lassen, die stärker vom Benutzer gestaltet werden können. Dazu können Sie die Plotanweisungen HISTOGRAM, PROBPLOT, und QQPLOT verwenden, während mit der Anweisung INSET die deskriptiven Statistiken direkt in die Grafik eingebunden werden. Weitergehende Informationen hierzu erhalten Sie in der Syntaxbeschreibung der SAS-Onlinedokumentation.

Weiter zum Zweigruppenvergleich

Zurück zur Übersicht