Blog

AZ Frame
/
Bez kategorii
/
Zarządzanie danymi w świecie Machine

Zarządzanie danymi w świecie Machine Learning, część I

11.04.2022 | Ewa Suszek

Motywacje

Dziś mamy możliwość udoskonalania i optymalizacji praktycznie każdego procesu w dowolnym sektorze naszej gospodarki – dzieje się to w oparciu o DANE, na niespotykaną dotąd skalę. Gromadzenie, analizowanie, wyłanianie trendów lub korelacji, ostrzeganie, uczenie się – te procesy i zadania możemy realizować niewielkimi kosztami w porównaniu z tym, co było dostępne ponad dekadę temu.

Podejmując decyzje biznesowe chcemy w większym stopniu opierać się na danych.

Podejmowanie decyzji na podstawie danych działa tylko wtedy, gdy dane są gotowe do użycia, w momencie, kiedy trzeba podjąć decyzję. Oznacza to, że rozwój danych musi być zaplanowany z wyprzedzeniem dla poszczególnych części modelu operacyjnego i konsekwentnie zarządzany oraz udostępniany. Obserwując przedsiębiorstwa globalne, które odniosły w ostatniej dekadzie największy sukces, są to te, które odniosły sukces w wykorzystywaniu danych do napędzania biznesu. Zarządzanie danymi wystrzeliło na pierwszy plan dyskusji. Zdaliśmy sobie sprawę, że wraz ze sztuczną inteligencją pojawiają się nowe wymagania w wykorzystaniu i zarządzaniu danymi, jeśli chcemy wykorzystywać mechanizmy uczenia maszynowego. Mówimy tu o użyciu ich w sposób masowy i zautomatyzowany.

W tym miejscu przyjrzymy się, w jaki sposób można ulepszyć swoje podejście do wykorzystania i zarządzania danymi. Może to wymagać zmiany organizacyjnej, ale w dłuższej perspektywie nie ma odwrotu. Organizacje decydują się na zmiany, gdyż to co jeszcze dekadę temu nie było możliwe – zbyt duże obciążenie dla zbyt małego zwrotu – dziś wspierane jest przez odpowiednie metody i narzędzia. Obecnie większość przedsiębiorstw określa zarządzanie danymi, jako bardzo ważną część swojej strategii, ale najczęściej dzieje się tak dlatego, że złe zarządzanie danymi jest ryzykowne (utrata ciągłości działania, naruszenia bezpieczeństwa, niezgodność RODO, itp.). Oczywiście są to ważne powody, aby nadać temu priorytet, ale dziś idziemy krok dalej.

Dzisiejszy kierunek

Demokratyzacja dostępu i modeli danych

Wykorzystanie danych na dużą skalę wymaga wyższego nadzoru nad danymi. Mówimy o „demokratyzacji” dostępu i użycia danych w całym przedsiębiorstwie oraz wdrażaniu narzędzi, które przekazują dane w ręce wielu, a nie tylko nielicznych grup eksperckich. Ta idea musi zostać wsparta przez automatyzację procesu i łatwość korzystania. Demokratyzacja obserwowana jest obecnie nie tylko w zakresie dostępu do danych, ale również w zakresie tworzenia modeli zarządzania danymi i modeli sztucznej inteligencji budowanych w oparciu o dane.

Zarządzanie danymi oparte na współpracy między IT a interesariuszami biznesowymi

Dlaczego tak ważne jest, aby zarządzanie danymi opierało się na współpracy między IT a biznesem? Ponieważ zestawy umiejętności dla każdej z tych perspektyw zarządzania są różne. Osoby odpowiedzialne za zarządzanie danymi będą miały doświadczenie w architekturze danych, prywatności, integracji i modelowaniu. Jednak osoby po stronie zarządzania informacjami powinny być ekspertami biznesowymi – z wiedzą: Jakie są dane? Skąd pochodzą? Jak i dlaczego dane są cenne dla firmy? Jak dane mogą być wykorzystywane w różnych kontekstach biznesowych ? W jaki sposób należy ostatecznie wykorzystać dane?

Od Danych przez Informację do Wiedzy

Jakość danych to fundament:

Jak mówimy w branży: śmieci na wejściu dają śmieci na wyjściu. Aby osiągnąć wyższy stopień wykorzystania i automatyzacji, zadbajmy o podstawy:

dane są „technicznie” czyste i integralne;
dane są dokładne, a przy tym istotne (nie gromadzimy śmieci oraz eliminujemy szumy);
dane powinny być reprezentatywne, biznesowo przydatne, z różnych (szerokie rozumienie) źródeł;
przemyślane okresy zbieranych danych, ale także właściwe i różne rozdzielczości/granulacje.

Metadane:

Projekty modernizacji infrastruktury danych i uporządkowania podstawowych potrzeb w zakresie danych, tj. pozyskiwanie danych, zamykanie projektów migracji do chmury, implementacja data lake i konfigurowanie nowych narzędzi BI, itd. wyzwoliły spory potencjał, ale w dalszym rozwoju wymaga on organizacji, aby uniknąć chaosu.
Potrzebne jest budowanie informacji i odpowiedzi na pytania kontekstowe, takie jak „Co właściwie oznacza ta nazwa kolumny lub dany atrybut?”, „Jakie są relacje pomiędzy poszczególnymi polami? Jakie są wartość minimalne, krytyczne i maksymalne?
Chociaż nie są to nowe pytania, istnieje potrzeba do wprowadzenia systemowego podejścia do organizacji metadanych.

Profilowanie jakości:

Profilowanie danych, to proces przeglądania danych w celu zrozumienia ich zawartości i struktury, sprawdzenia ich jakości oraz określenia sposobu ich wykorzystania w przyszłości.
Profilowanie może odbywać się kilka razy w całym cyklu życia zasobu danych, od płytkiej do dogłębnej oceny. Obejmuje obliczanie brakujących wartości, minimów i maksimów, mediany, wartości krytycznych (progowych), rozkładu częstotliwości, oraz innych kluczowych wskaźników statystycznych, które pomagają użytkownikom zrozumieć podstawową jakość danych.
Włączenie metadanych jako funkcji kontekstu do stosu danych, umożliwiając użytkownikom końcowym zrozumienie i zaufanie do informacji.

Firmy data-driven, czyli napędzane przez dane i potrafiące na ich podstawie podejmować lepsze decyzje, odnoszą dziś największe sukcesy, tym samym są najwyżej wycenianie i konkurencyjne względem pozostałych przedsiębiorstw. Chcąc odnosić sukcesy warto ulepszyć swoje podejście do wykorzystania i zarządzania danymi z uwzględnieniem dzisiejszych trendów.