Datenqualität mit SSIS: Eine kleine Linksammlung

1. Juli 2010

Bei einem Vortrag der SQL PASS fürs Rhein-Main Gebiet hat Tillmann Eitelberg über Datenqualität – und speziell wie man diese mittels SSIS Tasks sicherstellen kann – referiert. Datenqualität ist für Business Intelligence-Anwendungen von höchster Bedeutung, da die Gleichung “falsche Zahlen = Fehlentscheidungen” hohe Kosten mit sich bringen kann. Dabei lassen sich mit einfachen Methoden oft bereits die Mehrzahl der Fehler in den Daten bereinigen.

Es wurden die von SSIS mitgelieferten Tasks vorgestellt, die jedoch schnell an ihre Grenzen stoßen können, wenn es um spezielle oder komplexere Logik geht. Auch sind die Standardtasks laut des Referenten oft eher langsam. Deshalb hat Eitelberg zusätzlich eine Reihe von SSIS-Tasks von Drittanbietern vorgestellt, wovon die meisten kostenlos bei Codeplex verfügbar sind. Als letztes wurden eigene Tasks der Firma datenfabrik vorgestellt. Diese waren zwar von der Funktionalität sehr umfangreich, sind aber sehr stark auf Datenqualität bei personenbezogenen Daten wie Adressen, PLZ und Telefonnummern, beschränkt.

Hier kurz die Links zu den vorgestellten SSIS Tasks von Drittanbietern:

Und hier ist noch ein Link zu einem Codeplex-Projekt, das eine Menge an Beispielen für SSIS Packages und eigene Tasks und Components enthält. Eine sehr gute Quelle, wenn man mit der Entwicklung von eigenen Tasks beginnen möchte. Zudem finden sich hier interessante Tutorials. Einfach mal reinschauen: http://msftisprodsamples.codeplex.com/

Viel Spaß mit euren Daten!