English| Impressum & AGBs | Datenschutz

SAS Trainings

Datenqualität

Name: Inhalt:
Datenqualität

In diesem Kurs lernen Sie zahlreiche Kritereien und Möglichkeiten kennen, die Qualität Ihrer Daten zu überprüfen.

Einführung: Sechs erste Kriterien. Zielsetzung, Konzept und Grundlagen.
Vollständigkeit: U.a. Kontrollmöglichkeiten auf der Ebene der Anzahl der Datensätze, Kontrollmöglichkeiten auf der Ebene der Anzahl der Fragebögen, Kontrollmöglichkeiten auf der Ebene der Anzahl der Variablen, Kontrollmöglichkeiten auf der Ebene von Werten bzw. Missings.
Einheitlichkeit: U.a. Vereinheitlichung von Strings 1: UPCASE, LTRIM, INDEX und IF, Vereinheitlichung von Strings 2: UPCASE, LTRIM, DO-IF, INDEX und SUBSTR, Vereinheitlichung von Symbolen oder Sonderzeichen, Vereinheitlichung von Währungen und Messeinheiten, Vereinheitlichung über Akronyme, Vereinheitlichung über Entfernen von identischen Zeichenfolgen, Vereinheitlichung über Zählen von String-Schablonen, Vereinheitlichung über eine Schablone (Schleife, LOOP), Vereinheitlichung von gemischten Zeichenketten (Telefonnummern), Vereinheitlichung von Datumsvariablen und –werten, Einheitlichkeit von Interpunktion bzw. Nachkommastellen.
Doppelte Werte und mehrfache Datenzeilen: Überprüfung auf Dubletten, Entfernen doppelter Datenzeilen über ID-Variable, Identifikation der Art und Anzahl von Doppelten, Anzeigen von gefilterten und doppelten Datenzeilen, Identifikation von Doppelten und Ausfiltern beim Einlesen von Datenzeilen (gruppierte Daten), Identifikation von Doppelten und Ausfiltern beim Einlesen von Datenzeilen (genestete Daten).
Missings (Bedeutung, Kodierung, Rekonstruktion): U.a. Ursachen, Folgen, Ausmaß und Muster, Welche Missings sollten nicht durch Werte ersetzt bzw. gelöscht werden?, Löschen von Missings: Paarweises vs. listenweises Löschen, Komplett leere Zeilen: Technische Probleme als Ursache von Missings, Rekonstruktion von Missings (Logisches Vorgehen, Stereotypengeleitetes Vorgehen, Univariate Schätzung, Multivariate Ähnlichkeit (Hot deck-Imputation), Multivariate Schätzung (Missing Value Analysis, Rechnen mit Missings.
Ausreißer: U.a. Merkmale von Ausreißern (Die Perspektive entscheidet mit („Frames“), Univariat oder/und multivariat, Datenmerkmale), Univariate Ausreißer (Identifikation über Maße, Regeln, Tests, Diagramme), Multivariate Ausreißer (Identifikation über Maße, Besonderheiten bei (bivariaten) Messwertreihen, Identifikation über Diagramme), Ursachen, Möglichkeiten des Umgehens mit Ausreißern.
Plausibilität: Formales und inhaltliches Vorgehen, Die praktische Überprüfung der Qualität von Daten (Qualität der Daten einer Variablen bzw. zweier Variablen).
Überprüfen mehrerer Variablen und Datensätze, Arbeitsgrundlage: Ein Datensatz: U.a. Screenings innerhalb einer Spalte (Variablen), Screenings innerhalb mehrer Spalten (Variablen), Vergleich zwischen Spalten (Variablen) auf absolute Übereinstimmung, Spalten- und zeilenweise Analyse mehrerer numerischer Daten, Rekodieren von Werten und Missings in mehreren Variablen, Einheitliches „Auffüllen“ von mehreren Datenzeilen, Umbenennen zahlreicher Variablennamen (Präfixe, Suffixe).
Überprüfen mehrerer Variablen und Datensätze, Arbeitsgrundlage: Mehrere (separate) Datensätze: U.a. Prüfregeln zum Zusammenfügen, Das Überprüfen mehrerer Datensätze auf Vollständigkeit (Überprüfung fortlaufend gespeicherter Daten, Überprüfung segmentiert gespeicherter Daten), Vergleich von Datensätzen auf identische Inhalte, Vergleich von Datensätzen auf Missings, Identifizieren spezieller Werte auch in separaten Datensätzen, Aufteilen eines Datensatzes in einheitlich gefilterte Subdatensätze.
Zeit- bzw. datumsbezogene Probleme: U.a. Einsichten durch Zeitdifferenzen, Überprüfung von Datumseingaben (Zahlendreher), Varianten zum Beheben des „Jahr 2000“-Problems (ISO 8601, Y2K), Zeitstempel, Das Berechnen von Alter und anderes.Weitere Kriterien für die Datenqualität.
Steuerung:
Dauer:
Syntax
2 Einheiten

Zurück

 
Kontakt Sitemap
1998-2015 Copyright by Method Consult Switzerland, Dr.Schendera