Analityka

Wielkie zbiory danych, jeszcze większe wyzwania

Wszyscy doskonale wiemy, że dane to nowa ropa. Zdajemy sobie sprawę, że żyjemy w erze danych. Rozumiemy wartość danych w optymalizacji działań i poszukiwaniu nowych możliwości biznesowych. Pytanie brzmi: jak efektywnie korzystać z danych, aby osiągnąć większy sukces i sprawność, jak budować organizację napędzaną danymi? Najlepszym sposobem na znalezienie odpowiedzi jest udział w„Big Data Tech Warsaw Summit”, niezależnej, dorocznej, międzynarodowej konferencji poświęconej data science oraz inżynierii danych, sztucznej inteligencji i uczeniu maszynowemu, strategiom i monetyzacji danych, DevOps oraz chmurze.

Dane są dziś jednym z najcenniejszych zasobów. Każda firma na świecie chce analizować dane, aby usprawnić swoje wewnętrzne procesy, poprawić współpracę z klientami, dostawcami i partnerami. Nie jest to jednak takie proste. Firmy muszą sprostać kilku wyzwaniom, aby odnieść sukces w tej dziedzinie. Jednym z najważniejszych jest potrzeba posiadania odpowiedniego zestawu umiejętności, trudnego do znalezienia na rynku oraz wyszukania w coraz bardziej złożonej przestrzeni technologicznej odpowiedniego rozwiązania.

Thomas Scholz, Sales Engineering Manager w regionie EMEA, Snowflake

„Wśród wyzwań, którym firmy muszą sprostać, aby odnieść dziś sukces, zdecydowanie numerem jeden jest wzrost ilości danych i konieczność zapanowania nad nim. Ilość danych rosła w ciągu ostatnich kilku lat w tempie wykładniczym. Wygląda na to, że w kolejnych latach nie będzie wyhamowania. To realne wyzwanie dla każdego, kto próbuje zrozumieć dane. Najpierw musi poradzić sobie z ogromną ich ilością”podkreślał Thomas Scholz, Sales Engineering Manager w regionie EMEA w firmie Snowflake, mówiąc o wyzwaniach współczesnej analityki podczas inauguracyjnego wystąpienia na „Big Data Tech Warsaw Summit 2020” (BDTWS 2020).

Argumentował, że firmy muszą również przełamać sztywne i scentralizowane, tradycyjne architektury danych. Współczesne dane są rozproszone, a to wymaga zastosowania zwinnych architektur, w których centrum znajdują się właśnie dane. Te architektury muszą ewoluować wraz ze środowiskiem biznesowym i umożliwiać dostęp w czasie rzeczywistym, przetwarzanie w czasie rzeczywistym oraz dostarczanie wyników w czasie rzeczywistym. To jedyny sposób na zdobycie potrzebnych informacji i uzyskanie wymaganego przyspieszenia biznesowego.

Firmy muszą przełamać tradycyjne, scentralizowane, architektury danych. Współcześnie dane są rozproszone, a to wymaga zastosowania zwinnych architektur, w których centrum znajdują się właśnie dane. Te architektury muszą ewoluować wraz ze środowiskiem biznesowym.

Wyzwanie numer dwa to złożoność. Firmom trudno jest dziś znaleźć odpowiednią technologię. Potrzebują wsparcia ekspertów, ponieważ poświęcają o wiele za dużo czasu na zarządzanie zbyt wieloma elementami technologicznymi, dostosowywanie ich, aktualizowanie i ponowne uruchamianie. Trzecim wyzwaniem jest różnorodność danych –  różne typy danych, ustrukturyzowane i częściowo ustrukturyzowane, a także różne silosy danych. Biznes chce dokładnie zrozumieć klienta. Musi więc wykorzystać i przeanalizować wszystkie dostępne źródła – wewnętrzne i zewnętrzne, otwarte i te dostępne komercyjnie. Trudno jest również zabezpieczyć dane i chronić je przed złośliwym oprogramowaniem. Dlatego czwarty problem dotyczy właśnie bezpieczeństwa i dostępu. Wreszcie wyzwanie numer pięć to koszty utrzymania i koszty wynikające z awarii.

Stawianie czoła tym wyzwaniom i osiągnięcie ostatecznego sukcesu jest łatwiejsze dzięki nowym technologiom, takim jak chmura. Korzystając z nowych technologii i szybko rosnących zbiorów danych, firmy mogą mieć znaczący wpływ na to, jak działają i konkurują na rynku. „Po pierwsze, jeśli jesteśmy w stanie zapanować nad wszystkimi posiadanymi danymi, znacznie łatwiej jest szybciej podejmować lepsze decyzje biznesowe. Po drugie, łatwość użycia i elastyczność pozwalają w nowy sposób obniżyć całkowity koszt skalowania analityki i zarządzania danymi. Po trzecie, możemy wyeliminować nadmierne koszty i skoncentrować się na zapewnieniu doskonałej obsługi klienta z wykorzystaniem danych. Niezależnie od tego, czy usprawniamy nasze interakcje z klientami, budujemy produkty lepszej jakości, czy też udostępniamy dane zarówno klientom wewnętrznym, jak i zewnętrznym, możemy znacznie poprawić ogólną jakość ich obsługi” – przekonywał Thomas Sholz.

Ludzie biznesu chcą dzisiaj dokładnie zrozumieć klienta. Muszą więc wykorzystać i przeanalizować wszystkie dostępne źródła danych – wewnętrzne i zewnętrzne, otwarte i te dostępne komercyjnie. Wyzwaniem, z którym trzeba sobie poradzić jest wielka różnorodność danych.

Wyzwania AI i ML

Wyzwaniem innej natury jest efektywne prowadzenie dużych projektów analitycznych Big Data. Podczas BDTWS 2020 w panelu ekspertów dyskutowano o wyzwaniach, jakie towarzyszą firmom wykorzystującym rozwiązania sztucznej inteligencji (AI) i uczenia maszynowego (ML). To nadal poważny problem, pomimo popularyzacji dedykowanych platform AI, gotowych do użycia bibliotek ML i mnóstwa dostępnych danych.

Marek Wiewiórka, Big Data Architect w GetInData

„Myślę, że zawsze wszystko sprowadza się do danych. Bez względu bowiem na to, jak dobre mamy narzędzia, jak dobre algorytmy możemy zbudować, to jeśli nie mamy dostępu do wszystkich potrzebnych danych, jeśli nie możemy znaleźć odpowiednich danych w swojej organizacji, to nie możemy zrobić nic wartościowego” – mówił Marek Wiewiórka, Big Data Architect w GetInData.

Marcin Choiński, szef ekosystemu Big Data i analityki w TVN

„Specjaliści od data science spędzają około 50% swojego czasu na poszukiwaniu danych, a nie przy pracy na danych” – dodawał prowadzący panel Marcin Choiński, szef ekosystemu Big Data i analityki w TVN.

W wielu przypadkach, kiedy rozpoczyna się projekt uczenia maszynowego, mamy do czynienia z dużą liczbą potencjalnych źródeł danych. Pierwszym krokiem zawsze jest ich ujednolicenie, zapewnienie zunifikowanych warstw, aby użytkownicy mogli uzyskać dostęp do danych w ten sam sposób. Dopiero wtedy możliwe jest zintegrowanie, rozpoczęcie prototypowania i analizowania danych oraz zbudowanie modelu uczenia maszynowego.

Specjaliści od data science spędzają około 50% swojego czasu na poszukiwaniu danych. Jeśli nie ma dostępu do dobrych danych, to nie można zrobić nic wartościowego, bez względu na to jak dobre algorytmy można wykorzystać.

„Narzędzia dostępne obecnie na rynku zapewniają łatwy dostęp do modelowania danych. Nie trzeba być specjalistą od danych, aby prowadzić zaawansowane analizy. Największym wyzwaniem jest znalezienie odpowiednich danych i ocena ich jakości, a nie modelowanie samo w sobie, ponieważ może to również w pewnym stopniu być realizowane automatyczne” – podsumowywał Marek Wiewiórka.

Paweł Zawistowski, Lead Data Scientist w Adform i adiunkt na Politechnice Warszawskiej

Kiedy już model zostanie zbudowany, eksperci od uczenia maszynowego muszą być w stanie go wyjaśnić. Obecnie wiele modeli łatwo zbudować, ale bardzo trudno je wyjaśnić. Taki stan nie może się długo utrzymać i dlatego staje się to coraz bardziej krytyczne. „Staramy się trzymać z dala od tych modeli, których nie możemy całkowicie wyjaśnić, ponieważ od czasu do czasu otrzymujemy żądania wsparcia. Ludzie pytają nas, co się wydarzyło i musimy to wyjaśnić. Poważnym problemem jest sytuacja, gdy nie wiemy, jak debugować model” – mówił Paweł Zawistowski, Lead Data Scientist w Adform i adiunkt na Politechnice Warszawskiej.

Josh Baer, lider produktu Machine Learning Platfrom w Spotify

„Myślę, że jednym z największych wyzwań, z którymi mamy do czynienia, a tak naprawdę głównym powodem istnienia naszych zespołów pracujących nad infrastrukturą, jest to, że mamy ogromny problem z budowaniem modeli w skali produkcyjnej. Nasze pierwsze doświadczenia z uczeniem maszynowym polegały głównie na pracy trzech lub czterech inżynierów nad tworzeniem czegoś od nowa i dostarczania tego na produkcję. Chcieliśmy wykorzystywać wiele systemów na dużą skalę, ulepszać je i wdrażać kolejne wersje. Trudno jednak znaleźć tylu dobrych inżynierów, żeby było to możliwe do utrzymania” – mówił Josh Baer, lider produktu Machine Learning Platfrom w Spotify.

Spotify korzysta z uczenia maszynowego od blisko dekady, ale dopiero w ostatnich latach firma zainwestowała w narzędzia mające na celu ułatwienie życia specjalistom ML i zwiększenie ich produktywności. „Musieliśmy zbudować dużą infrastrukturę, aby ułatwić życie naszym inżynierom, którzy wdrażają uczenie maszynowe na produkcji. Musieliśmy także zmniejszyć liczbę czynności konserwacyjnych związanych z modelami. To było prawdziwe wyzwanie: wymienić wszystkie te elementy, przejść od sytuacji, gdy programista musi każdorazowo rozwiązać problem do zaoferowania mu wbudowanych, wspólnych komponentów infrastrukturalnych, z których może korzystać” – wyjaśniał Josh Baer.

Największym wyzwaniem jest znalezienie odpowiednich danych i ocena ich jakości, a nie modelowanie samo w sobie. Ono może być już w dużym stopniu realizowane automatyczne. 

Migracja do chmury

Firma Spotify nie była jedyną ikoną współczesnej globalnej gospodarki cyfrowej obecną na „Big Data Technology Warsaw Summit 2020”. Przedstawiciele wielu organizacji dzielili się swoimi praktykami i historiami, zaleceniami, wskazówkami, sukcesami i porażkami. Jednym z trendów, które były doskonale widoczne na konferencji, była migracja do platform chmurowych.

Spotify to międzynarodowy dostawca usług medialnych z siedzibą w Sztokholmie. Firma zatrudnia około 3500 pracowników i ma 271 mln użytkowników, z czego prawie połowa płaci za usługę. Jako organizacja zorientowana na konsumentów, najczęściej używa ML do optymalizacji w celu zwiększenia wygody użytkowników. Ma jednak około 70 różnych przypadków użycia uczenia maszynowego – od poprawiania skuteczności targetowania reklam do maksymalizacji doświadczenia w przypadku niektórych usług wewnętrznych.

Przy takiej skali Spotify korzysta prawie w 100% z chmury. Firma przeprowadziła dużą migrację w 2016 i 2017 roku do Google Cloud Platform. „W naszym przypadku chmura obsługuje część pracy, którą kiedyś uważaliśmy za dość interesującą, ale dzisiaj moglibyśmy już uznać za nudną. Zawsze musieliśmy zastanawiać się, gdzie otworzymy nasze następne centrum danych i jak upewnić się, że zapewniamy wystarczającą liczbę maszyn. Teraz nie musimy się tym tak przejmować. Nie musimy martwić się tak bardzo o zarządzanie własnymi bazami danych. Na przykład możemy korzystać z tych usług, które oferują dostawcy w chmurze, i to nam wystarcza” – powiedział Josh Baer.

Fouad Alsayadi, starszy inżynier danych w Truecaller

Podróży do chmury odbyła również firma Truecaller, twórca aplikacji na smartfony oraz usługi identyfikacji rozmówców, blokowania połączeń, wysyłania wiadomości błyskawicznych i nagrywania połączeń. Truecaller ma 150 mln aktywnych użytkowników, którzy generują 30 mld zdarzeń dziennie. Firma przeprowadziła również migrację lokalnych centrów danych do Google Cloud Platform. „Musieliśmy przemyśleć naszą oryginalną architekturę danych opartą na lokalnej infrastrukturze. Chmura szybko stała się atrakcyjną opcją. Braliśmy w tym kontekście pod uwagę rozdzielenie pamięci masowej i mocy obliczeniowej, kwestie utrzymania, a także koszty przetwarzania w chmurze i dostępne usługi” – tłumaczył Fouad Alsayadi, starszy inżynier danych w Truecaller. Łącząc lokalne, hybrydowe i natywne technologie chmurowe, Truecaller zbudował niezawodną, samoobsługową architekturę, która pozwoliła obniżyć koszty i sprawić, że specjalistom od danych pracuje się po prostu lepiej.

Spotify używa uczenia maszynowego w około siedemdziesięciu przypadkach – od optymalizacji obsługi użytkowników, przez poprawę skuteczności targetowania reklam, po maksymalizację doświadczeń w przypadku niektórych usług wewnętrznych.

Nasz biznes to dane

Członkowie zespołu ING Tech Poland podzielili się własną historią na temat nowych platform technologicznych i metodologii stosowanych w praktyce w skali globalnej oraz tym, jak technologie open source i nowoczesne metody uczenia maszynowego zmieniają obszar ryzyka kredytowego. Bank zainwestował w nową platformę, aby szybciej budować modele dla globalnej organizacji i pozostawać w zgodzie z surowymi regulacjami prawnymi.

Konrad Wypchło, Senior Chapter Lead w ING Tech Poland

„Modele i dane są kluczowym zasobem strategicznym zapewniającym przewagę konkurencyjną. Lepsze modelowanie wpływa na zróżnicowanie doświadczenia klienta, pozwala rozwijać biznes i obniżać wymagania kapitałowe, zapewnia lepszy profil ryzyka i wyższą wydajność. Ryzyko kredytowe to jeden z najistotniejszych obszarów zastosowań biznesowych uczenia maszynowego. W ING jesteśmy tego świadomi” – mówił Konrad Wypchło, Senior Chapter Lead w ING Tech Poland.

Tomasz Burzyński, Business Insights Director w Orange

Interesująca była również historia podróży Orange Polska – od jednorazowych przypadków użycia do zaawansowanego ekosystemu danych. Był to świetny przykład wdrożenia środowiska w celu personalizacji relacji z klientami w czasie rzeczywistym. „Personalizacja Omnichannel w Orange Polska to 21 zsynchronizowanych kanałów kontaktów, jeden zaufany zbiór danych, jeden ekosystem i krótki czas wprowadzenia produktów na rynek. Prowadzimy 200 kampanii, mamy ponad 30 wyzwalaczy zdarzeń i 35 modeli uczenia maszynowego. Mamy szacunkowo 3–6 razy lepszy zwrot z inwestycji” – mówił Tomasz Burzyński, Business Insights Director w Orange.

Lepsze modelowanie wpływa na zróżnicowanie doświadczenia klienta, pozwala rozwijać biznes i obniżać wymagania kapitałowe, zapewnia lepszy profil ryzyka i wyższą wydajność. Analiza ryzyko kredytowego to w ING jeden z najistotniejszych obszarów zastosowań biznesowych uczenia maszynowego.

Ketan Gupta, lider produktu w Booking.com

Ketan Gupta, lider produktu w Booking.com, opowiadał uczestnikom BDTWS 2020, jak budować produkty z wykorzystaniem danych i uczenia maszynowego. Od małego start-upu do jednej z czołowych firm turystycznych na świecie – Booking.com ma dzisiaj ponad 28 mln ofert i zarządza 1,5 mln rezerwacji dziennie. „Postęp technologiczny i ogromne ilości danych otwierają nowe możliwości. Dane i uczenie maszynowe pomagają nam udzielić odpowiedzi na pytanie, co i jak budować od podstaw, aby rozwiązywać problemy użytkowników wydajnie i skalowalnie” – wyjaśniał Ketan Gupta.

Analizując dane, firma zauważyła wzrost zgłoszeń do działu obsługi klienta i tendencję do sprawdzania przez użytkowników większej liczby nieruchomości przed dokonaniem rezerwacji. Analiza wykazała, że istnieją dwie grupy podróżnych mających różne cele: jedna grupa nie była w stanie zarezerwować pokoju, ponieważ zostały one wyprzedane, a druga miała zarezerwowany pokój, który był celem pierwszej grupa, ale myślała o zamianie na inny pokój. Rozwiązanie tego problemu polega nie tylko na zwiększeniu dostępnej oferty, ale także na stworzeniu odpowiedniego dopasowania między ofertami partnerów a potrzebami podróżujących. Stworzenie idealnego dopasowania staje się trudne przy ponad 100 mln klientów, ponieważ oznacza, że wariancja popytu rośnie.

„Do połączenia tych elementów, potrzebne są konkretne wskazówki i wtedy właśnie na ratunek przychodzą dane. Opierając się na danych historycznych rezerwacji, można zrozumieć wzorce zachowań podróżnych na podstawie tego, gdzie podróżują, gdzie, kiedy dokonują rezerwacji, jak często angażują się w swoje rezerwacje i nie tylko. Pomaga to utworzyć proxy. Jednak brakuje optymalnego zestawu danych, na którego bazie użytkownicy lubią dokonywać zmian zarezerwowanych pokoi. Nie wiadomo także, dlaczego to robią. To największe wyzwanie przy tworzeniu nowych produktów – nie zawsze mamy odpowiedni zestaw danych. Kluczem tutaj jest uruchomienie proxy i najbardziej zbliżonego produktu, a następnie zebranie większej liczby opinii i danych”wyjaśniał Ketan Gupta. 

Po zebraniu większej ilości danych firma zbudowała prosty model, który prognozował, jakie obiekty będą najbardziej wartościowe dla konkretnego typu podróżnika. Pomogło to dostarczyć klientom lepsze opcje zmiany rezerwacji. Ten prosty model wyznaczył punkt wyjścia. Dodanie większej ilości danych o grupach cenowych i samych podróżnych umożliwiło dostarczanie klientom rekomendacji o wyższej wartości. Efektem były wyższe współczynniki konwersji i sprzedaż większej liczby niezarezerwowanych pokoi partnerów hotelowych. 

Po analizie większej ilości danych Booking.com zbudował prosty model, który prognozował, jakie obiekty będą najbardziej wartościowe dla konkretnego typu podróżnika. Pomogło to dostarczyć klientom lepsze opcje zmiany rezerwacji.


Rok później: nowa era chmury

Marton Balassi, menedżer Streaming Analytics w Cloudera

Jednym z głównych tematów zeszłorocznej konferencji BDTWS była fuzja Cloudera i Hortonworks oraz plany nowej firmy. „Nowa Cloudera, rok po fuzji, jest prawdziwie globalną firmą. Jesteśmy obecni w prawie stu krajach. Mamy tysiące pracowników i klientów wykorzystujących naszą platformę Big Data opartą na otwartym kodzie źródłowym” – mówił na tegorocznej konferencji Marton Balassi, menedżer Streaming Analytics w Cloudera.

Spodziewano się, że nowa firma zmieni świat rozwiązań klasy enterprise big data, oferując klientom zunifikowaną, otwartą, hybrydową usługę chmurową. Nowa platforma Cloudera Data Platform, łącząca to, co najlepsze z obu światów Cloudera CDH i Hortonworks HDP, z nowymi mechanizmami i nowymi funkcjonalnościami, wykorzystująca środowisko chmury, to pierwsza w branży chmura danych dla przedsiębiorstw, zapewniająca kompleksowy zestaw wielofunkcyjnych doświadczeń analitycznych dla dowolnych danych, w dowolnym miejscu, z kolektywnymi mechanizmami bezpieczeństwa, zarządzaniem i kontrolą.

„Tajemniczy składnik oferowany przez Cloudera to zarządzanie i bezpieczeństwo, niezbyt ciekawe elementy naprawdę ciekawego rozwiązania open source. Ale to wyjątkowa okazja, by wypełnić lukę między oprogramowaniem typu open source a rozwiązaniami klasy eneterprise” – dodawał Marton Balassi.

Przedstwiciel Cloudera występował na scenie z przedstawicielem polskiego partnera, 3Soft. Wspólnie zademonstrowali nowe rozwiązania Cloudera dla środowiska chmury hybrydowej, rozmawiali o integracji Apache Flink z platformą Cloudera Data Platform i zaprezentowali kilka rzeczywistych wyzwań, z którymi zmagali się klienci na polskim rynku, oraz to, jak zostały one rozwiązane.


Rośniemy z każdym wydarzeniem

Przemysław Gamdzyk, CEO & Meeting Designer w Evention

„Konferencja z każdym rokiem jest coraz większa. Zaczynaliśmy sześć lat temu od 200 uczestników, a obecnie mamy ich około 650, a może nawet więcej, ponieważ w ostatniej chwili pojawiały nowe rezerwacje. Mamy uczestników z całego świata, ze Wschodu, z Zachodu, Północy i Południa. Dziś to prawdziwie międzynarodowe wydarzenie” – mówił Przemysław Gamdzyk, CEO & Meeting Designer w firmie Evention będącej organizatorem konferencji.

Na Big Data Technology Warsaw Summit 2020 można było zobaczyć trzy rodzaje prezentacji. Wystąpiło ośmiu bezpośrednio zaproszonych mówców, starannie wyselekcjonowanych ze społeczności ekspertów. Prezentacje miało także ośmiu przedstawicieli sponsorów i partnerów. Źródłem ponad połowy wszystkich prezentacji był proces CFP, czyli Call for Presentations.

Adam Kawa, CEO i współzałożyciel GetInData

„Było to zamierzone działanie, ponieważ chcemy, aby konferencja była otwarta dla społeczności, i chcemy mieć pewność, że każdy, kto ma ciekawą historię do opowiedzenia, będzie mógł zabrać głos podczas spotkania. Otrzymaliśmy 73 zgłoszenia i byliśmy pod dużym wrażeniem liczby, a zwłaszcza jakości prezentacji. Wybór najlepszych był bardzo trudny, ponieważ jednocześnie musieliśmy odrzucić wiele znakomitych propozycji” mówił Adam Kawa, CEO i współzałożyciel firmy GetInData, która jest współorganizatorem konferencji.

W programie uczestnicy mogli zauważyć wiele nowoczesnych, ale także sprawdzonych w praktyce technologii Big Data, takich jak: Kafka, Flink, Airflow, Elastic Search, Google Cloud Platform, Kubernetes. To dlatego, że konferencja koncentruje się na rozwiązaniach, które działają na produkcji. Jak co roku, na BDTWS 2020 było również kilka prezentacji, które pokazywały nowe ciekawe technologie, takie jak Hudi, Amundsen, czy wschodzące gwiazdy, takie jak Snowflake. Ich celem jest pokazanie, jak podważają one status quo i jak rozwiązują problemy, których nikt do tej pory nie rozwiązał.

Zarówno te sprawdzone, jak i nowe technologie są wykorzystywane przez prelegentów i ich firmy do budowy potężnych platform Big Data do przetwarzania wsadowego, przetwarzania w czasie rzeczywistym, wdrażania projektów uczenia maszynowego na dużą skalę, na miejscu i w chmurze. Dlatego można przyjąć, że prezentacje oferują praktyczne wnioski wyciągnięte z rzeczywistych przypadków użycia. Zawsze przecież lepiej jest uczyć się na doświadczeniach innych.

Na konferencji były m.in. prezentacje pokazujące, jak nowe, ciekawe technologie podważają status quo w wielu obszarach i pozwalają rozwiązywać problemy, których nikt do tej pory nie rozwiązał.


 

Kategorie: Analityka

Tagi: , ,