Blog

AZ Frame
/
Bez kategorii
/
Zarządzanie danymi – czyszczenie

Zarządzanie danymi - czyszczenie danych

30.07.2021 | Ewa Suszek

Kolejnym etapem zarządzania danymi jest czyszczenie danych. W zależności od zaprojektowania procesu, dane mogą być poprawiane w źródłach, w dedykowanych strukturach bazodanowych, w plikach lub na raportach.

Sugerujemy utworzenie tymczasowych, dedykowanych struktur danych z danymi oczyszczonymi i na podstawie typu danych podjęcie określonych akcji:

automatyczna zmiana danych w źródłach, np. poprawa kodów pocztowych, zmiana formatów dat, telefonów, uzupełnienie brakujących danych. Taka zmiana możliwa jest, jeśli w źródle mamy dane niepoprawne lub o błędnym formacie i zadecydowano, że dane te mogą być zmienione (oryginalne dane zapisywane są w archiwum). Lista zmienianych rekordów wraz z wartościami oryginalnymi i docelowymi zapisywana jest w postaci raportu i/lub dedykowanych wpisów w bazie danych platformy Precisely,
„ręczna” zmiana danych – dostarczenie opiekunom klientów lub opiekunom danych informacji o bieżącej postaci danych i docelowej ich postaci. Doradca ma za zadanie skontaktować się z klientem i wyjaśnić, czy ten dopuszcza zmianę danych. W przypadku zgody następuje zmiana w systemie źródłowym.

Sam proces czyszczenia danych składa się z kilku elementów:

Normalizacja danych,
Standaryzacja,
Deduplikacja,
Wzbogacanie danych.

Normalizacja danych polega na analizie kolumn, w których przechowywanych jest kilka typów danych, ich rozdzieleniu i zapisaniu w dedykowanych strukturach. Na przykład, w wielu systemach w jednym polu zapisane są imię i nazwisko albo adres. Proces normalizacji będzie polegał na zapisaniu imion i nazwisk w dedykowanych kolumnach. Dla adresów zapisanych w jednym polu, proces normalizacji spowoduje zapis danych w polach kraj, miejscowość, ulica, numer domu, numer mieszkania, kod pocztowy, województwo.

Normalizacja bazuje na zaawansowanych algorytmach platformy Precisely i posiłkuje się słownikami wbudowanymi w systemie lub pochodzącymi od dostawców zewnętrznych.

Za pomocą Discovery Scorecards możemy definiować własne parametry i reguły. KPI są przypisywane na podstawie skonfigurowanych reguł i limitów progowych ustawionych dla zdefiniowanych danych.

W systemie zostało udostępnione API, za pomocą którego możemy pobrać informację dot. profilowania danych (m.in. pobranie informacji o statystykach dla wybranych kolumn oraz modeli, konfiguracji profilowania, kartach wyników).

Standaryzacja danych polega na dopasowaniu danych do określonych standardów. Po zdefiniowaniu standardów, które mają dominować w organizacji należy zweryfikować, czy wszystkie dane spełniają te standardy. W przypadku odstępstw, należy zmodyfikować dane tak, aby spełniały założenia.

Przykładem działań standaryzacyjnych są:

Standaryzacja dat. W całej organizacji w różnych systemach możemy spotkać zapis dat w różnych formatach. System po profilowaniu zaraportuje, że np. 60% dat w badanych systemach ma format ‘YYYY-MM-DD’, 20% ma format ‘DD-MM-YYYY’, 10% ma format ‘YY-MM-DD’ i 10% ma format ‘YYYYDDMM’. System zaproponuje doprowadzenie standardu pól do zdefiniowanego na etapie katalogowania formatu. Wygenerowany zostanie kod zmieniający inne formaty na docelowy,
Standaryzacja adresów e-mail – weryfikacja spełnienia reguł walidacyjnych (np. co najmniej 3 znaki, znak @, co najmniej 3 znaki w których musi istnieć ‘.’),
Standaryzacja imion – imiona bez zdrobnień i w mianowniku, zgodne ze słownikiem,
Standaryzacja nazwisk – nazwisko zgodne ze słownikiem,
Standaryzacja adresów – weryfikacja, czy nazwy krajów, miast, ulic, województw, kodów pocztowych są zgodne ze słownikiem,
I wiele innych…

Deduplikacja danych – po działaniach normalizacyjnych i standaryzacyjnych znacznie łatwiej znaleźć rekordy podobne. Dzięki zastosowaniu mechanizmów logiki rozmytej (fuzzy logic) – mechanizmów bazujących na określonych algorytmach i porównywaniu według wag, jesteśmy w stanie znaleźć rekordy podobne. Dzięki analizie rekordów podobnych możemy znaleźć duplikaty (nawet pomimo błędów w danych, np. literówek, braku liter). Deduplikacja jest bardzo ważnym etapem, bo eliminacja duplikatów prowadzi do lepszej obsługi klientów i fizycznych oszczędności organizacji (wysyłane informacje, kontakt jest z jednym klientem, a nie z kilkoma jego obrazami).

Wzbogacanie danych – dane możemy wzbogacić przez informacje słownikowe, pobrane z innych źródeł danej instytucji lub pobrane z zewnątrz. Przykładem uzupełniania danych jest wzbogacenie ich o geolokalizację, nawigację do punktu, dane statystyczne i inne informacje. Platforma Precisely posiada bardzo rozbudowane mechanizmy uzupełniania danych o informacje geograficzne i nawigacyjne.