MLOPs – demokratyzacja i automatyzacja w zarządzaniu danymi i modelami danych.
Obecnie większość firm określa zarządzanie danymi jako bardzo ważną część swojej strategii dotyczącej danych, ale najczęściej dzieje się tak dlatego, że złe zarządzanie danymi jest ryzykowne. Warto jednak pójść o krok dalej. Aby ulepszyć swoje podejście do wykorzystania i zarządzania danymi – należy te procesy zdemokratyzować i zautomatyzować. To może wymagać zmiany organizacyjnej, ale w dłuższej perspektywie nie ma alternatywy.
Przejście od danych do posiadania informacji, tzn. jakie dane mamy, ich zautomatyzowany opis i kontekst, to ważny krok w kierunku zastosowania sztucznej inteligencji i uczenia maszynowego do wykorzystania danych . Nie zatrzymujemy się jednak na „statystycznym” rozumieniu danych. Chodzi również o to, czy dane są godne zaufania w oparciu o kontekst biznesowy. Można to zilustrować na przykładzie zgłębiania problemu rozumienia wartości progowych – wprawdzie umiemy generować różne statystyki, a nawet wykonywać detekcję anomalii, jednak stale mamy wyzwanie z właściwą interpretacją biznesową.
Na przykład dane dotyczące sprzedaży zazwyczaj nie powinny wzrosnąć o więcej niż 5% tygodniowo. 100% wzrost sprzedaży powinien ostrzec i zatrzymać przepływ danych, zamiast generować typowy raport, z którego korzysta prezes. Inny przykład: zużycie CPU może wzrosnąć o 300%, ale nadal nie musi to być powodem do alarmu w sensie awarii, gdyż doczasowe zużycie było bardzo niskie. Nie każda anomalia stanowi błąd w rozumieniu operacji biznesowej.
Ta potrzeba inteligentnych alertów skłoniła organizacje do włączenia zespołów biznesowych w proces pisania kontroli jakości danych. Dążymy do osiągnięcia inteligentnych rozwiązań, które są w stanie automatycznie generować reguły oparte na działalności biznesowej na podstawie korelacji i trendów, w tym z użyciem Machine Learning (ML).
Tradycyjne zarządzanie danymi wzbogacone o budowanie i zarządzanie modelami danych z wykorzystaniem ML
Rozwój i wykorzystanie modeli uczenia maszynowego w środowisku produkcyjnym wymaga jasnych, jednoznacznych zasad, ról, standardów i metryk.
Solidny program do zarządzania modelami uczenia maszynowego ma na celu udzielenie odpowiedzi na takie pytania, jak: Kto odpowiada za wydajność i utrzymanie produkcyjnych modeli uczenia maszynowego? W jaki sposób aktualizowane i/lub odświeżane są modele uczenia maszynowego, aby uwzględnić douczanie (reagować na dryf lub pogorszenie modelu) ? Jakie wskaźniki wydajności są mierzone podczas opracowywania i wyboru modeli oraz jaki jest poziom wydajności akceptowalny dla biznesu? W jaki sposób modele są monitorowane w czasie, aby wykryć ich pogorszenie lub nieoczekiwane, anomalne dane i prognozy? W jaki sposób modele poddawane są audytowi i czy można je wyjaśnić osobom spoza zespołu, które je opracowują?
Jakość modelu uczenia maszynowego będzie odgrywać szczególnie ważną rolę w skuteczności aplikowania i wykorzystywania sztucznej inteligencji, w tym (na początkowym etapie) do przekonania osób wdrażających taką strategię w firmie.
Zagadnienia od strony ułożenia procesu
Centralizacja
Koniecznością jest scentralizowane, kontrolowane środowisko, w którym odbywa się cała praca nad danymi. To sprawia, że zarządzanie danymi i sztuczną inteligencją jest istotnie prostsze.
Mówimy o MLOps
Niezbędne jest ciągłe monitorowanie, odświeżanie i testowanie modeli, aby zapewnić, że ich wydajność odpowiada potrzebom biznesu. W tym celu MLOps jest próbą wykorzystania najlepszych procesów DevOps z tworzenia oprogramowania i zastosowania Ciągłej Integracji do nauki o danych. Tak jak podejście DevOps drastycznie poprawiło jakość i zwinność dostawy oprogramowania, podobnie powinniśmy postąpić z zarządzaniem danymi. Poczynając od odtwarzalności/powtarzalności przepływów pracy i modeli (wymaga wersjonowania nie tylko kodu, ale także danych i modeli), poprzez strategię testowania i walidacji modeli do podłączanie pętli sprzężenia zwrotnego w celu dalszego ulepszania modelu. Monitorowanie modeli stosujemy w celu wykrycia spadku ich wydajności , a trening ciągły zapewnia automatycznie reagowanie na pogorszenie wydajności modelu.
Udostępnianie
Demokratyzacja wyraża się przez szybszy i lepszy dostęp do danych, ale także ich rozumienie, zatem:
- zapewnienie współpracy między zespołami,
- szybsze tworzenie modeli; uruchamianie modeli bez konieczności ponownego kodowania; ciągłe douczanie,
- zarządzanie zasobami surowych danych i modeli i monitorowanie modelu.
Ostatecznie prowadzi nas to do zbudowania mechanizmu, który umożliwia podejmowania decyzji w czasie rzeczywistym w oparciu o scentralizowaną analitykę.
Nowe role w MLOps
Organizacje coraz częściej zdają sobie sprawę z konieczności istnienia centralnego zespołu odpowiedzialnego za tworzenie platform danych, które pomagają pozostałym członkom organizacji lepiej wykonywać swoją pracę. Naturalnie, zespół ten potrzebuje lidera.
Lider platformy danych
W przeszłości zajmowały się tym bardziej tradycyjne stanowiska, takie jak specjaliści ds. hurtowni danych czy architekci danych. Obecnie powszechne stało się posiadanie lidera danych, który prowadzi inicjatywę w zakresie danych w całej organizacji. Liderzy platform danych zazwyczaj nadzorują modernizację (lub tworzenie od podstaw, w przypadku firm rozpoczynających działalność) stosu danych w firmie. Zdolności lidera do przekonania ludzi i zespołów w organizacji do przyjęcia danych (i platform danych) w ich codziennej pracy prowadzi do motywacji i dostarczenia wiedzy osobom decydującym o tym, w jakie produkty danych należy inwestować, z motywacją osób, które ostatecznie z tych produktów korzystają.
Inżynier analityki
Analitycy podkreślają ograniczenia polegające na zależność od inżynierów danych w zakresie produktywizacji i tworzenia modeli danych. Dzięki technologii i narzędziom umożliwiamy analitykowi łatwość pracy z danymi, oddając cały proces transformacji danych w jego ręce. Dziś analityk stał się również Inżynierem Analityki i jest właścicielem całego stosu danych, począwszy od ich pozyskiwania i transformacji, a skończywszy na dostarczaniu użytecznych zbiorów danych do pozostałych działów firmy.
Jak wspomniano wyżej, w celu ulepszenia podejścia do wykorzystania i zarządzania danymi należy te procesy zdemokratyzować i zautomatyzować – najlepiej poprzez metodykę MLOPS lub MLDevOPS. Dzięki demokratyzacji danych decyzje w firmach będą mogły być podejmowane przede wszystkim w oparciu o dane.
Firmy potrafiące wykorzystać drzemiący w danych potencjał i zmieniające swoje procesy biznesowe, to firmy odnoszące największe sukcesy.