Machine Learning dla branży farmaceutycznej | Część 1

Machine Learning: podstawy teoretyczne i perspektywy dla branży farmaceutycznej i Life Science

Sztuczna inteligencja, Machine Learning i analityka predykcyjna to pojęcia wielokrotnie przywoływane przez ekspertów z branży IT i przemysłu. Przedstawiane są jako główne elementy strategii technologicznego rozwoju biznesu, które postępowe firmy powinny starać się wdrażać w całym zakresie swojej działalności w ciągu najbliższych lat. Specjaliści IT, napędzani dzięki ułatwieniom, które oferują platformy operacyjne ze zintegrowanymi komponentami AI od takich dostawców jak Google, SAP, IBM i Amazon (AWS), powinni zacząć aktywnie badać, jakie korzyści te technologie mogą przynieść zarówno dla ich przedsiębiorstw, jak i biznesu klientów. Według International Data Corporation (IDC) 77,6 miliarda dolarów ze światowych wydatków w 2022 roku (Forbes, 2019) to wydatki korporacyjne przeznaczone na sztuczną inteligencję. Szczególnie dotyczy to obszarów zarządzania, zasobów ludzkich, zaopatrzenia czy marketingu.

Mimo to, nasze obecne doświadczenie mówi, że większość firm, które działają w środowisku farmaceutycznym, nie wykorzystuje żadnego elementu Machine Learning w swojej działalności. Choć możliwości jest wiele, ostrożne podejście do nowych technologii, nieodłącznie związane z branżami GMP, jest jedną z ogólnych przyczyn, dla których branża ta pozostaje w tyle w dziedzinie AI. Obserwujemy zazwyczaj, że dość trudno jest zrozumieć tę technologię, dostrzec, jakie możliwości oferuje oraz określić, w jaki sposób podejść do wdrażania sztucznej inteligencji przestrzegając jednocześnie wszystkich regulacji.

W tej serii postów postaramy się odpowiedzieć na powyższe pytania z perspektywy firmy konsultingowej SAP, stawiającej nacisk na standardy opisane przez Dobre Praktyki Produkcyjne (GMP – Good Manufacturing Practice). Skupiając się na wspomnianych technologiach i ich zastosowaniu oraz łącząc je z naszą wiedzą o branży, mamy nadzieję przedstawić kompleksowy przegląd możliwości zastosowania nowych technologii w firmach farmaceutycznych. Seria składa się z trzech części, które poprowadzą Cię w podróży po Machine Learning. W każdym wpisie przybliżymy konkretny temat. W tej części skupimy się na podstawach sztucznej inteligencji oraz trudnościach związanych z rozpoznaniem potencjalnych korzyści, które oferuje jej wdrożenie.

W 2 wpisie z tej serii pokażemy przykładowy scenariusz wykorzystania analizy prognostycznej oraz opowiemy jak udowodnić jego skuteczność poprzez proof of concept. W ostatniej, trzeciej części serii omówimy, co jest potrzebne, by wykonać pierwszy krok do wdrożenia modeli AI w środowisku farmaceutycznym i o czym pamiętać podczas formułowania strategii AI.

Modne hasła – AI, Analityka Predykcyjna i Machine Learning

Powróćmy na chwilę do haseł, o których mówiliśmy we wstępie. Czym w zasadzie różnią się te modne sformułowania?

Zacznijmy od Sztucznej Inteligencji (AI). Sztuczna Inteligencja oferuje komponentom IT możliwość ‘myślenia i uczenia się’, czyli zdolności, które do tej pory przypisywaliśmy wyłącznie ludziom. Termin AI obejmuje wszystkie technologie, które mają na celu stworzenie inteligentnego rozwiązania IT, stąd jego nazwa. Składa się z różnych podgałęzi, z których każda koncentruje się na innym aspekcie. Począwszy od podstawowej analityki preskryptywnej (ang. Prescriptive analytics), poprzez rozwinięte modele predykcyjne, a skończywszy na wyrafinowanych algorytmach głębokiego uczenia się, które mogą na przykład zapewnić kamerze zdolności poznawcze, takie jak rozpoznawanie twarzy. Jednak definicja sztucznej inteligencji jest szeroka i dość często prowadzi do większego zamieszania niż do klarownego wyjaśnienia zagadnienia.

Bardziej szczegółowy jest termin Analityki Predykcyjnej. Są to narzędzia analityczne, które zazwyczaj wspierają przedsiębiorstwa w podejmowaniu decyzji na zasadzie odpowiedzi na pytanie, „co może się wydarzyć dalej?”. Poprzez zintegrowanie formuł statystycznych z funkcjami raportowania, kalkulacje prawdopodobieństwa mogą być wykonywane przy pomocy różnych technik. Analityka Predykcyjna bada, jakie zmienne wejściowe i wyjściowe są identyfikowane w poszczególnych zależnościach, aby na tej podstawie wybrać model statystyczny. Następnie, przetwarzając zmienne wejściowe, model może obliczyć statystyczną szansę na wystąpienie pewnego z góry ustalonego zdarzenia. Dowodzi to, że modele predykcyjne w rzeczywistości nie przewidują przyszłości, a jedynie pokazują prawdopodobne wariacje tego, co może się zdarzyć. Co więcej, modele te mogą być całkowicie statyczne bez możliwości improwizacji w czasie.

Machine Learning rozwiązuje ten problem. To dziedzina z zakresu analityki predykcyjnej, która zajmuje się opracowywaniem samonapędzających się algorytmów. Pozwalają one na ewolucję modeli predykcyjnych w czasie, co odróżnia je od analizy predykcyjnej. Modele uczenia maszynowego mogą się dostosowywać, gdy zwiększa się objętość lub dokładność danych. Na podstawie nowych spostrzeżeń, obliczenia statystyczne umożliwiają komponentowi IT możliwość „uczenia się”. Podstawowym przykładem może być zmiana średnich lub wariancji stosowanych w obliczeniach prawdopodobieństwa.

Modelowanie predykcyjne

Kluczem do generowania dokładnych modeli predykcyjnych jest posiadanie rozległych zbiorów danych zawierających zarówno zmienne wejściowe, jak i wyjściowe lub odpowiednio nazwanych zmiennych niezależnych i zależnych. Dane wejściowe i wyjściowe są niezbędne w procesie zwanym modelowaniem. Jest to coś, co wszyscy robiliśmy w liceum: analizowanie zmiennych wejściowych i wyjściowych w celu określenia równania (lub wzoru) ich relacji. Modelowanie predykcyjne obejmuje w zasadzie te same działania, jednak zestawy danych są zazwyczaj znacznie większe niż zestawy danych, z których korzystaliśmy w szkole. Analizując i przetwarzając ogromne ilości zebranych danych wejściowych i wyjściowych, można wygenerować model, który pozwala na „przewidywanie” wyników na podstawie danych wejściowych i przy pomocy statystycznych obliczeń prawdopodobieństwa. Należy jednak mieć świadomość, że zidentyfikowana zależność pomiędzy zmiennymi nie zawsze ma sens. Do walidacji relacji pomiędzy zmiennymi wejściowymi i wyjściowymi wymagana jest wiedza na temat procesu.

Wynikiem modelowania jest rzeczywisty typ modelu (lub równania, jak przedstawiano wcześniej). W modelowaniu można stosować różne techniki statystyczne, w zależności od tego, która najlepiej pasuje do zbioru danych. Typową metodologią jest stosowanie regresji. Zarówno techniki regresji liniowej, jak i logistycznej są niezbędnymi algorytmami do identyfikacji zależności pomiędzy zmiennymi w dużych zbiorach danych. IBM, który jest liderem technologicznym w dziedzinie AI, posiada dogłębną wiedzę na temat technik modelowania statystycznego.

Technologiczne stymulanty Analityki Predykcyjnej i Machine Learning

Jak stwierdziliśmy już we wstępie, obecny postęp technologiczny sprawia, że właśnie ten moment jest właściwym momentem aby zacząć wykorzystywać analizę predykcyjną lub nawet Machine Learning w biznesie. Dlatego ważne jest, aby znać czynniki stymulujące, ponieważ one także stanowią podstawę dla zbiorów danych, które pozwalają na zastosowanie i ulepszanie modelowania predykcyjnego.

Po pierwsze, początek ery Internet of Things można określić jako siłę napędową. Znaczna część procesów biznesowych, które mogą zostać wzmocnione przez AI, działa i rozwija się dzięki czujnikom. Czujniki są w stanie samodzielnie gromadzić dane wejściowe wykorzystywane w modelu predykcyjnym, dlatego też urządzenia te są dobrze przystosowane do wykorzystania w rozwiązaniach predykcyjnych. Hype na IoT dał początek coraz większej produkcji zarówno inteligentniejszych jak i tańszych modułów czujników. Widzimy, że kraje takie jak Chiny skutecznie wykorzystują efekt skali do obniżenia cen czujników, co pozwala na zwiększenie liczby czujników w danym środowisku i wykorzystanie ich do gromadzenia dodatkowych danych. Ze względu na rozwój technologiczny kiedyś drogi sprzęt obecnie możemy kupić za ułamek dawnej ceny. Nowe technologie dają również możliwość opracowania bardziej zaawansowanych czujników. Pomyślmy o czujnikach, które mogą mierzyć niemierzalne wcześniej zmienne lub o nowszych technologiach, które pozwalają na szybszą, dokładniejszą i krótszą analizę zestawu zmiennych.

Kolejnym przełomem technologicznym, który wywołał boom na Machine Learning, jest rozwój systemów baz danych i hostingu w chmurze. Większe bazy danych, inteligentniejsze infrastruktury, zewnętrzne możliwości hostingowe i szybsze technologie, takie jak baza danych HANA in-memory firmy SAP, są kluczem do przyjmowania, obliczania i prezentacji danych z coraz większą prędkością. Techniki takie jak hot-and-cold data storage, hosting danych w chmurze czy, platformy wielkich zbiorów danych takie jak Hadoop, wspierają obecnie możliwość przetwarzania niemal nieograniczonych ilości nieuporządkowanych danych z różnych źródeł, kluczowych dla rozwoju modeli predykcyjnych. Im mniejszy jest odstęp czasu pomiędzy analizą danych a przedstawieniem wyników, tym skuteczniejsze są podejmowane decyzje. Ilustrują to typowe systemy OLAP z jedną codzienną aktualizacją danych, prowadzącą do podejmowania decyzji na podstawie już nieaktualnych informacji. W Machine Learning możemy dostrzec potencjał na dynamiczne zmiany. Szczególnie ze względu na duże zainteresowanie tą dziedziną technologicznych gigantów, takich jak IBM, AWS i Google, możemy dostrzec, że narzędzia predykcyjne są coraz bardziej user-friendly. Narzędzia programistyczne takie jak TensorFlow i PyCharm to świetny przykład rozwiązań, które pozwalają nawet na modelowanie typu „przeciągnij i upuść”, co zmniejsza zapotrzebowanie na super specjalistów w procesie modelowania danych. Wspomniani technologiczni giganci dostarczają również dedykowane modele predykcyjne dostępne od ręki w opcji SaaS za pośrednictwem platform chmurowych. Potrzeba, którą SAP doskonale rozumie, zilustrowana została przez dostępne w standardzie, podstawowe modele predykcyjne w ramach rozwiązania Predictive Maintenance and Service (PdMS).

Analityka Predykcyjna w branży farmaceutycznej

Co sprawia, że podlegająca tak ścisłej kontroli i regulacjom, branża Life Science jest idealnym miejscem do wdrożenia nowoczesnych technologii?

Najbardziej oczywistym powodem jest fakt, że dla przedsiębiorstw tej branży największym priorytetem jest jakość. Ponieważ jakość ma krytyczne znaczenie w środowiskach stosujących GMP (Dobre praktyki produkcyjne), firmy farmaceutyczne mają zazwyczaj określone metody pomiaru i kontroli jakości swoich produktów. Ponadto, dla tych firm ważne jest utrzymanie pod kontrolą parametrów środowiskowych/przyczynowych, takich jak te, które wymagane są w tzw. pomieszczeniach czystych. Wspólną techniką śledzenia zarówno parametrów produktu, jak i parametrów środowiskowych jest pobieranie próbek, które może być albo całkowicie ręczne, albo częściowo/w pełni zautomatyzowane (np. systemy monitorowania środowiska).

Pobieranie próbek opiera się na testowaniu podzbioru grupy statystycznej w celu sprawdzenia składu odpowiednich parametrów jakościowych. Z tego powodu na przestrzeni lat gromadzi się dużą ilość cennych informacji. Tak, więc, z jednej strony mamy wyniki próby jako nasze zmienne wyjściowe. Z drugiej strony, na urządzeniach produkcyjnych, systemach użytkowych i obszarach regulowanych (np. w czystych pomieszczeniach i magazynach) znajduje się już duża ilość sprzętu w postaci czujników. Czujniki te zbierają dane, które reprezentują zmienne wejściowe. Dość często dane wejściowe i wyjściowe są gromadzone przez dłuższy czas i są obecne w zakładach farmaceutycznych, dlatego systemy baz danych zawierające te informacje są prawdziwą kopalnią złota dla modelowania predykcyjnego.

W oparciu o te dane, analityka predykcyjna umożliwia zastosowanie predykcyjnego zarządzania jakością. Poprzez umieszczenie w bazie danych szeregów czasowych dla danych wejściowych (informacje z czujników, dane z laboratoriów, informacje o konserwacji), jak i wyjściowych (wyniki prób), zestaw danych pozwala na badanie korelacji pomiędzy niezależnymi i zależnymi zmiennymi, czyli na modelowanie predykcyjne. Na podstawie zidentyfikowanych zależności pomiędzy zmiennymi można wygenerować różne modele predykcyjne. Od prostych algorytmów wykrywania anomalii, opartych o obserwację różnic pomiędzy zmiennymi, po bardziej dedykowane techniki, takie jak regresja wielowymiarowa. W związku z tym AI może odgrywać kluczową rolę we wczesnej identyfikacji problemów dotyczących zmiennych wejściowych, co ostatecznie pozwala „przewidzieć” przyszłą jakość wyników.

Identyfikacja potencjalnych korzyści, które daje AI

Aby z powodzeniem zidentyfikować możliwości zastosowania AI w Twojej firmie, musisz być świadomy pewnych kwestii:

Znaj swoje dane. Twoje aktualne dane, które znajdują się w różnych systemach baz danych, mogą być prawdziwą kopalnią złota dla modelowania prognostycznego. Pomyśl o przykładowych wynikach i danych z czujników, danych wejściowych i wyjściowych, które są wymagane do wygenerowania modelu predykcyjnego. Pamiętaj także o potencjalnych pułapkach – np. jaka jest jakość tych baz danych? Czy wyniki pochodzą z wiarygodnego (np. skalibrowanego) sprzętu? Czy są jakieś luki?
Zrozum różne modele i ich zastosowania. Aby ustalić, czy dostępne dane mogą być wykorzystane, powinieneś posiadać ogólną wiedzę o różnych rodzajach modeli. Nie znając poszczególnych elementów, nie będziesz w stanie zrozumieć całości układanki. Jeśli wiesz, jakie części składowe są potrzebne do stworzenia modelu predykcyjnego, jesteś w stanie zrozumieć, jakie możliwe modele mogą być zastosowane w konkretnym scenariuszu biznesowym.
Bądź świadomy rozwoju technologicznego. Obserwujemy szybki progres w zakresie przyjmowania, przechowywania i przetwarzania danych, co jest niezbędne do skutecznej analizy danych i obliczania wyników za pomocą modelu predykcyjnego. Postępy w dziedzinie czujników pozwalają na stosowanie niedrogich narzędzi, szybsze i dokładniejsze pobieranie próbek oraz, co równie ważne, dają możliwość monitorowania zmiennych, które do tej pory nie mogły być mierzone. Wspomniane technologie mogą dostarczyć ostatniego elementu układanki niezbędnego do zbudowania efektywnego rozwiązania ML.
Nie bój się odkrywać. Trudno sobie wyobrazić, jaką wartość dodaną może przynieść wdrożenie Machine Learning. Dlatego też zachęcamy do skorzystania z metod design thinking i sprytnego wykorzystania proof of concept, aby określić tę wartość, zanim w pełni rozpoczniesz kosztowny i czasochłonny projekt.

To tyle, jeśli chodzi o teorię. W kolejnym wpisie na blogu spojrzymy na temat z bardziej praktycznej strony i pokażemy Ci jak wyglądają nasze działania w zakresie zastosowania Machine Learning w sektorze farmaceutycznym. Z pomocą teoretycznych podstaw przedstawionych w tej części bloga wyjaśnimy, jak zidentyfikowaliśmy potencjalną szansę oraz w jaki sposób dzięki proof od concept określiliśmy wartość, która może stanowić ostateczny argument za wprowadzeniem Machine Learning w rzeczywistych kontekstach biznesowych GMP.

Dowiedz się więcej o branży Life Science

Powiązane artykuły

Machine Learning dla branży farmaceutycznej | Część 2

Machine Learning dla branży farmaceutycznej | Część 3

Cyfrowe trendy w branży Life Science