Blog

  1. AZ Frame
  2. /
  3. Bez kategorii
  4. /
  5. Zarządzanie danymi –
Zarządzanie danymi - profilowanie danych
20.07.2021 | Ewa Suszek

Po skatalogowaniu źródeł danych, należy dla każdego z tych źródeł określić kluczowe dane.

Kluczowe informacje będą określane funkcją środowiska, w którym się znajdują. Przykładowo dla Excela będą to arkusze, dla baz relacyjnych – tabele, portali internetowych – strony html, itp. Lista źródeł i zawartych w nich kluczowych danych może powstać na przykład w postaci pliku PDF, MS Excel, itp. i stanowić będzie podstawę dalszych prac.

To, co wyróżnia narzędzia Precisely od bezpośredniej konkurencji, to możliwość definicji i zarządzania relacjami pomiędzy danymi. Kontekstowość informacji coraz bardziej liczy się w obecnym świecie, ponieważ coraz więcej danych jest powiązanych ze sobą. Dzięki rozwiązaniom bazującym na bazie grafowej możemy przechowywać i zarządzać informacjami dotyczącymi powiązań pomiędzy danymi.

Dzięki kontekstowości możemy obserwować wpływ zmian określonej danej na otaczający ją świat (zmiana rekordu powoduje interakcje ze wszystkimi węzłami, do których dana ma bezpośrednie lub pośrednie relacje). Te funkcjonalności zaimplementowane są, m.in. w module Data Lineage.

W przypadku zmian struktur danych model zostaje przebudowany.

Pozycję narzędzi Precisely Spectrum w podejściu kontekstowym pokazuje poniższe zestawienie Forrester Wave (uznany podmiot opiniotwórczy oferujący usługi z zakresu badań i doradztwa biznesowego – to swoisty Think Tank sprzedający wiedzę i udostępniający ją w formie raportów).

Poniższy graf obrazuje pozycję narzędzia Precisely (SPECTRUM) w odniesieniu do konkurencji.

Standaryzacja danych

Równoległym procesem do prac inwentaryzacyjnych będą prace związane z definicją standardów danych. Należy zdefiniować standardy zarówno związane z formatami (np. format daty, numeru telefonu, identyfikatorów, np. NIP), jak i pozostałymi regułami walidacyjnymi (np. przechowujemy imiona w mianowniku, bez zdrobnień).

Jak wspomnieliśmy powyżej – etap ten leży przede wszystkim w gestii biznesu. To osoby korzystające z danych wiedzą, które dane są kluczowe. Te same osoby powinny zdefiniować wymagane formaty i standardy oraz przyszłe reguły walidacyjne. IT powinno pomóc w identyfikacji źródeł oraz w określeniu powiązań wynikających ze struktur bazodanowych.

Ze względu na bardzo ważny etap w procesie zarządzania danymi AZ Frame oferuje wsparcie również przy definicji kluczowych danych.

Bardzo ważnym aspektem zarządzania danymi w organizacji jest ustanowienie spójnych standardów danych. W tym przypadku na pomoc mogą przyjść referencyjne zbiory danych, które pozwalają opisywać obiekty (np. klient) w spójny i jednoznaczny sposób.

Przykłady definicji standardów to:

  • Numer telefonu powinien składać się z prefiksu (+ oraz kod kraju; Polska +48) oraz numeru (dla telefonów komórkowych i stacjonarnych w Polsce to 9 cyfr). Jeśli prefiks jest różny niż +48 można wpisać dowolną liczbę cyfr większą niż 4. Pomiędzy cyframi nie ma żadnych separatorów,
  • Nazwa ulicy w Polsce musi być zgodna ze słownikiem Teryt,
  • Imię musi być zgodne ze słownikiem imion. Nie dopuszcza się zdrobnień.

Przy wykorzystaniu modułu Glossary możemy również ustanowić zasady i reguły rządzące danymi.

W systemie zostało również udostępnione API, za pomocą którego możemy zarządzać referencyjnymi zbiorami danych (aktualizacja zbioru, dodanie zbioru, pobranie listy, pobranie zbioru).

Modelowanie danych

W systemie Precisely Discovery udostępniony jest również moduł modelowania danych. Możemy utworzyć modele fizyczne na postawie zdefiniowanych połączeń (odzwierciedlenie struktur danych znajdujących się w źródłach – tworzone automatycznie) oraz modele logiczne (bazujące na schematach encji i relacji), które porządkują zasoby danych w organizacji. Na przykład w docelowym modelu logicznym powinna się znajdować jedna tabela opisująca klienta/beneficjenta i jedna tabela opisująca adresy klienta/beneficjenta.

W źródłowych bazach danych organizacji (i odpowiadającym im modelach) może występować kilka tabel przechowujących dane klienta i kilkanaście tabel przechowujących adresy. Modelowanie służy odwzorowaniu danych źródłowych na model docelowy.

Za pomocą logicznego modelu danych możemy zwizualizować dane oraz wykorzystać funkcję federacji danych. Modele te umożliwiają łączność z wieloma źródłami danych i systemami zapewniając widok danych w czasie rzeczywistym, bez konieczności fizycznego wyodrębniania danych ze źródeł. 

 

Zarówno modele fizyczne, jak i logiczne możemy poddać procesom profilowania danych. Modele logiczne możemy również udostępnić innym aplikacjom i systemom.

Need help icon

Potrzebujesz wsparcia? Jesteśmy zawsze po Twojej stronie

Chętnie odpowiemy na nurtujące Cię pytania. Naszą największą domeną jest doświadczenie i wiedza, dlatego pomożemy Ci w wielu obszarach.

skontaktuj się