Profilowanie jest etapem pozwalającym na zbadanie danych znajdujących się w źródle. Polega na połączeniu się z danym źródłem, pobraniem próbki danych ze źródła (liczba rekordów jest definiowalna np. 200000) i wygenerowaniem raportów związanych z danymi w takim źródle. Dzięki profilowaniu poznajemy dokładny rozkład danych, możemy znaleźć wyjątki od reguł, itp. Na tym etapie system umożliwi:
- prezentację stanu kluczowych danych. Na przykład, w tabeli klienci w polu data_urodzenia mamy dane w formacie yyyy-mm-dd w 80%, w 10% to dd-mm-yyyy, a 10% to wartości puste. Najwięcej wystąpień ma data 17-01-2009. A z arkusza Excel telefony.xlsx w zakładce ‘numery’ mamy 10500 numerów, 10100 ma format +48xxxxxxxxx, a 400 ma format xxxxxxxxx. Numer +48111111111 występuje 75 razy (może to oznaczać, że dysponent jak nie zna numeru telefonu, to wpisuje jedynki),
- identyfikację reguł czyszczenia danych.
Dzięki profilowaniu danych możemy wygenerować raporty dotyczące stanu danych. Raporty te mogą być ogólne, ale mogą też dotyczyć pojedynczych rekordów, które spełniają reguły walidacyjne lub ich nie spełniają.
W trakcie procesu przy wykryciu odstępstw od reguł, system proponuje określone działania związane z czyszczeniem danych. Przy każdej propozycji znajduje się szczegółowy opis akcji do podjęcia.
Dodatkowo system generuje kod, który można wstawić w procesach czyszczenia danych.
Na końcu tego etapu posiadamy katalog danych oraz wiedzę na temat danych i ich jakości:
- mamy zdefiniowane wszystkie źródła,
- dla każdego ze źródeł mamy wyznaczone kluczowe tabele, którymi będziemy zajmować w dalszych etapach,
- znamy modele danych w źródłach,
- znamy wszystkie tabele spełniające reguły semantyczne (wraz z procentowym rozkładem danych w kolumnie). Na przykład, dostaniemy informację, że dane spełniające wzorzec dowodu osobistego (3 duże litery i 6 cyfr) znajdują się w bazie systemu Alfa w tabeli klienci oraz kli_tmp, w arkuszu Excel ‘windykacje.xlsx’ w arkuszu ‘windykacje’ w kolumnie ’ kli_wind’ i w systemie SAP w tabeli customers,
- opcjonalnie oznaczyliśmy dane tagami,
- znamy dokładnie jakość danych. Dzięki profilowaniu znamy rozkłady danych w tabelach, kolumnach, plikach płaskich, itp. – wiemy, ile jest wartości pustych, jaki rozkład maja pozostałe dane, znamy statystyki (np. najdłuższy i najkrótszy ciąg znaków, największa i najmniejsza wartość). Jakość zapisana jest w postaci raportów lub dostępna w strukturach platformy Precisely Spectrum,
- wiemy, które dane spełniają reguły walidacyjne, a które ich nie spełniają,
- posiadamy gotowe scenariusze poprawy danych wraz z kodami, których możemy użyć na dalszych etapach zapewnienia jakości danych.
W kolejnych etapach fizycznie poprawiamy jakość danych.
W narzędziu Precisely Discovery dostępne są również karty wyników (KPI), które stanowią graficzne przedstawienie stanu danych. Pomagają mierzyć i śledzić poprawę jakości danych. Narzędzie umożliwia tworzenie i przypisywanie kart wyników do danych dotyczących parametrów, takich jak dokładność, spójność i kompletność.
Za pomocą Discovery Scorecards możemy definiować własne parametry i reguły. KPI są przypisywane na podstawie skonfigurowanych reguł i limitów progowych ustawionych dla zdefiniowanych danych.
W systemie zostało udostępnione API, za pomocą którego możemy pobrać informację dot. profilowania danych (m.in. pobranie informacji o statystykach dla wybranych kolumn oraz modeli, konfiguracji profilowania, kartach wyników).