Blog

  1. AZ Frame
  2. /
  3. Bez kategorii
  4. /
  5. Zarządzanie danymi – weryfikacja
Zarządzanie danymi - weryfikacja danych
16.07.2021 | Ewa Suszek

Etap ten polega na fizycznym połączeniu się ze źródłami danych, odkryciu modelu danych oraz weryfikacji typów danych, które przechowywane są w kolumnach. Na tym etapie następuje:

  • wyszukiwanie odpowiednich zestawów danych,
  • definicja semantyk (czyli definicji składni określonych danych) na każdy model.

Cechą, która odróżnia platformę Discovery od innych platform, jest możliwość definicji semantyk. Na przykład, możemy zdefiniować warunki dla wykrycia typu danych „dowód osobisty” – 3 duże litery i 6 cyfr; dla PESEL – 11 cyfr, gdzie trzecia przyjmuje wartość 0, 1, 2, 3 , piąta 0,1,2,3.

System posiada olbrzymie możliwości definicji metod semantycznych dzięki użyciu języka Groovy. Język ten, to język skryptowy wzorowany na składni języka JAVA. Oznacza to prostotę, dużą liczbę osób zdolnych do programowania w tym języku oraz olbrzymie możliwości tworzenia reguł w środowisku Precisely Spectrum.

Dzięki funkcji odkrycia danych – system rozpoznaje struktury danych oraz typy danych w zdefiniowanym źródle . Do poprawnego wykrycia typów danych wykorzystując zdefiniowane semantyki. Dzięki powyższym mechanizmom możemy znaleźć kolumny (w tabelach lub plikach), w których istnieją, np. PESELe, imiona, nazwiska, e-maile, numery telefonów, daty itp. Jeśli system na przykład znajdzie w kolumnie ciągi znaków składające się z 3 dużych liter i 6 cyfr, to wskaże, że w kolumnie tej mogą znajdować się numery dowodów osobistych. Jeśli znajdzie ciąg znaków zaczynający się od +48 i 9 cyfr, to wskaże, że w kolumnie znajdują się numery telefonów z polskich sieci. Gdybyśmy nie zdefiniowali semantyk, system nie przyporządkowałby danych do dowodów osobistych i polskich numerów telefonów.

Po odkryciu danych istnieje możliwość otagowania (różnymi tagami) tabel oraz kolumn. Dzięki tej funkcjonalności możemy wyszukać wszystkie pola oznaczone określonymi tagami (np. drugie imię możemy oznaczyć tagami: dane_klienta, imię, drugie_imię, dane_osobowe).

Po etapie weryfikacji danych mamy połączenia do wszystkich zdefiniowanych źródeł danych i znamy struktury danych w tych źródłach oraz znamy ogólną zawartość kolumn.

Need help icon

Potrzebujesz wsparcia? Jesteśmy zawsze po Twojej stronie

Chętnie odpowiemy na nurtujące Cię pytania. Naszą największą domeną jest doświadczenie i wiedza, dlatego pomożemy Ci w wielu obszarach.

skontaktuj się