SuchenPrintviewID-Home

Einfacher Einstieg in die statistische Datenanalyse: SAS und JMP

SAS
JMP
Lizenzen an der Universität Zürich
Kurse und Kontakt

Im Rahmen heutiger Studiengänge müssen für Semesterarbeiten oder Diplomarbeiten immer häufiger Daten erhoben und analysiert werden. Auch nach den Studium ist in vielen Fächern das Publizieren von Forschungsarbeiten ohne fundierte statistische Datenanalyse nicht mehr denkbar.

Die dazu notwendigen Statistik-Kenntnisse werden meist schon während des Studiums vermittelt, beziehungsweise im Selbststudium angeeignet. Der grosse Schritt ist dann aber der, die vorhandenen theoretischen Kenntnisse im praktischen Forschungskontext anzuwenden. Mit den Mitteln der heutigen Technologien bieten sich dazu vorzugsweise software-gestützte Werkzeuge an. Der Markt bietet dazu eine mehr als reichhaltige Palette an. Wie aber soll eine Wahl getroffen werden? Was muss ein solches Werkzeug können? Welches ist das für das Vorhaben geeignetste?

Dieser Artikel stellt zwei an der Universität Zürich für Studierende und Mitarbeiter vorhandene Statistik-Pakete im Überblick vor: SAS und JMP (ausgesprochen “jump”). Jedes dieser Pakete hat seine spezifischen Anwendungsfelder, die je nach aktuellem Bedarf die Wahl erleichtern werden. In einer gerafften Darstellung werden SAS und JMP im Folgenden vorgestelllt. Dies kann natürlich nicht eine eigene Evaluation ersetzen, sondern will als eine erste Entscheidungshilfe verstanden sein.

SAS

SAS ist vor gut dreissig Jahren an der University von North Carolina aus einem Forschungsprojekt entstanden. Seither wurden die Statistik Funktionen permanent erweitert, so dass die Software heute eine Vielzahl von Standard-Verfahren robust und gut dokumentiert abdeckt. Nicht zuletzt diese längjährige kontinuierliche Verbesserung hat dazu beigetragen, dass SAS vor allem in der Pharma-Branche das Standard-Paket für die Auswertung klinischer Studiendaten ist.

Die gesamte Statistik-Funktionalität ist auf den Betriebssystemen Windows, Unix (AIX, Solaris, Linux, HP-UX) und auf IBM-Mainframes (z/OS) verfügbar. Im Folgenden wird das Arbeiten unter Windows mit der einfach zu bedienende graphischen Benutzeroberfläche (GUI) “SAS Enterprise Guide” vorgestellt.

SAS wird im Allgemeinen “Stand-Alone”, also auf einem einzelnen Arbeitsplatz (Laptop, Desktop Computer) eingesetzt, d.h. die Benutzerin arbeitet selbständig mit Ihren Daten.

Für grössere Forschungsprojekte (z.B. Sekundäranalyse von Volkszählungsdaten) kann es sinnvoll sein, die Analysedaten auf einem zentralen Server (Windows, UNIX) zu verwalten und den Forschenden Zugang via Windows-Arbeitsplätze anzubieten. So brauchen die grossen Datenmengen nur einmal gespeichert zu werden und es ist sichergestellt, dass sämtliche Untersuchungen auf derselben Datenbasis stattfinden. Zudem können so Resultate (neue Daten, Berichte) allen Mitgliedern der Arbeitsgruppe konsolidiert zur Verfügung gestellt werden. In diesem Fall spricht man von einer “Client-Server”-Umgebung.

Eine der wesentlichen Stärken von SAS ist neben der umfangreichen Sammlung statistischer Prozeduren die Möglichkeit die Untersuchungsabläufe als eigene Projekte darzustellen und zu verwalten. So können einzelne Analyseschritte zu ganzen Abläufen “zusammengesetzt” und als Ganzes abgespeichert werden. Damit wird die Vorgehensweise automatisch dokumentiert und ist für andere jederzeit nachvollziehbar. Zudem können je nach Bedarf die einzelnen Schritte modifiziert und der ganze Prozess neu gerechnet werden.

Im Benutzer-Desktop können entweder Daten im SAS-Format (SAS-Tabellen) oder jede andere Art von externen tabellarischen Daten (EXCEL, Textfiles im CSV-Format, Microsoft Access, Oracle, MySQL, etc.) mit dem Projekt verknüpft und direkt verwendet werden. Ein Konversion der Daten ist dabei nicht nötig. Einmal Bestandteil des Projekts, können die Datentabellen miteinander vereinigt (join), gefiltert, aufgespalten (split), sortiert, umgestellt oder auf andere Art modifiziert und so für die entsprechende Analyse vorbereitet werden.

Untenstehende Bilder zeigen ein Beispiel einer Clusteranalyse mit der Abbildung der Resultate in einer Kartengraphik.

Abb. 1
Abb. 1

Die eigentlichen Analyseschritte (z.B. Häufigkeitsauszählung, Regression, Clusteranalyse, Zeitreihen, etc.) werden dann direkt als Knoten an die Daten “angehängt”. Bei der Definition der Analyseknoten und der Prozedur-Parametrisierung wird der Benutzer durch sogenannte “Wizards” interaktiv geführt. Die Kombination mehrerer Analyseschritte führt letzlich zum vollständigen Untersuchungsplan in einer Workflow-Darstellung. Damit bleiben auch komplexe Abläufe übersichtlich und nachvollziehbar.

Der bei der Erstellung des Analyseablaufs generierte SAS-Code kann jederzeit eingesehen, modifiziert und für eine automatisierte Verarbeitung (batch) oder ausführliche Dokumentation separat abgespeichert werden. Aus dem Geschilderten ergibt sich, dass für die Erstellung der Projekte im Normalfall keinerlei Programmierkenntnisse notwendig sind. Sollen dennoch spezielle Verarbeitungsschritte durchgeführt werden, so können solche Code-Fragmente in der SAS-eigenen Programmiersprache geschrieben und ebenfalls im Projekt verwaltet werden.

Die Ausgabe der Ergebnisse erfolgt standardmässig im HTML-Format. Pro Ausgabeteil kann diese Einstellung so verändert werden, dass wahlweise HTML, PDF, RTF (für Import in z.B. Word) oder einfaches Text-Format erstellt wird. Dabei können jeweils eine Vielzahl von Parametern zur Gestaltung (Farben, Schrift, Bilder für Diagramme, Logo, etc.) verändert werden.

Verbrechensraten
Abb. 2

Hier eine Auswahl einiger Analysemöglichkeiten von SAS: Deskriptive Statistik (Häufigkeiten, Mittelwerte, Standardabweichungen, tabellarische Zusammenstellung, Kreuztabellen, ...), ANOVA, Regression, Clusteranalyse, Zeitreihen, Pareto, Faktoren-, Hauptkomponenten-, Diskriminanz-Analyse, Survival, Forecasting, Control Charts, u.v.a.m.

Eine ausführlichere Beschreibung der Funktionalität finden Sie hier:
SAS Research Community: support.sas.com/rnd/intro.html
Enterprise Guide: www.sas.com/technologies/bi/query_reporting/guide/
Online-Dokumentation: support.sas.com/onlinedoc/913/

Für den Einstieg empfiehlt es sich, das im Enterprise Guide integrierte Tutorial durchzuarbeiten. Es zeigt alle wesentlichen Arbeitschritte anhand von einfachen Beispielen auf.

JMP

JMP ist eine Desktop Statistik-Software und vor allem für die graphisch unterstützte interaktive Datenanalyse geeignet. Das Paket ist für Macintosh, Windows und Linux verfügbar.

Das Einlesen von Daten geschieht entweder durch Öffnen von JMP-Tabellen oder durch importieren von tabellarischen Daten. Unterstützte Formate sind SAS-Daten, EXCEL, Textfiles (CSV), Microsoft Access und andere.

JMP zeichnet sich durch eine sehr einfache und direkte Anwendung der Analysemethoden aus. Bei jeder Methode wird ein eigenes Fenster geöffnet, in dem die Parameter angegeben werden. Sofort werden die entsprechenden Resultate berechnet und sowohl tabellarisch als auch graphisch angezeigt. Eine für die interaktive Datenanalyse äusserst nützliche Funktion ist die permanente Verknüpfung der Resultatfenster. Werden zum Beispiel im einen Fenster eine Gruppe von Punkten (Scatterplot) markiert, sind dieselben Datenpunkte in allen anderen Graphiken und Tabellen ebenfalls markiert. Dies erlaubt der Analysandin, vorher nicht erkennbare Zusammenhänge in den Daten zu entdecken. Ebenso können die Graphiken interaktiv bearbeitet, bzw. umgestaltet werden, um eine optimale Aussage zu erhalten.

Durch die hohe Flexibilität bei der Steuerung der Parameter und der interaktiven Resultatdarstellung eignet sich JMP sehr gut für die explorative Datenanalyse.

Abb. 3
Abb. 3

Im Lieferumfang von JMP sind neben verschiedenen Tutorials auch Handbücher (im PDF-Format) zu ausgewählten Themen inbegriffen. Auf Grund seiner Vielseitigkeit wird JMP in verschiedensten Forschungsbereichen eingesetzt: Chemie. Pharma, Medizin, Biotechnologie, Halbleiterherstellung oder Fabrikation/Produktion.. Dies die wichtigsten Analysemöglichkeiten: Verteilungen, Regression, Mulitvariate Verfahren, Clusteranalyse, Zeitreihen, Six Sigma, DOE. Die meisten Verfahren stellen die Resultate auch graphisch dar. Mehr zu JMP erfahren Sie hier: www.jmp.com

Lizenzen an der Universität Zürich

Die Universität Zürich hat eine Campus-Lizenz sowohl für SAS als auch für JMP. Beide Pakete sind in den öffentlichen Arbeitsräumen der Universität installiert oder können für die Lehre und Forschung an Studierende und Mitarbeiter abgegeben werden (student copy). Der Bezug erfolgt über die Informatikdienste der Universität. Bei Bedarf können für Dozenten kostenlos Lehrerexemplare von Kursunterlagen bei SAS Schweiz angefordert werden.

Kurse und Kontakt

Zu den beiden vorgestellten Softwarepaketen findet am 29. November 2006 eine Lunchveranstaltung statt. Die Informatikdienste bieten im Wintersemester Kurse zu SAS an. Kontakt: Werner Bodmer, Informatikdienste Universität Zürich; Olivier Zaech, Academic Program Manager SAS Schweiz, Infos zu SAS allgemein unter: www.sas.com/switzerland/academic

Olivier Zaech