Analityka

Dane: wielki potencjał w praktyce

Przesilenie emocjonalne związane z wykorzystaniem Big Data w biznesie jest już za nami. Nikt nie ma wątpliwości, że dane stanowią ogromną wartość i mają wielki potencjał transformacyjny. Teraz przyszedł czas na ciężką pracę oraz chłodną, realną ocenę praktycznych możliwości, jakie otwierają wielkie zbiory danych, zaawansowane rozwiązania analityczne i powiązane z nimi technologie. Trzeba jednocześnie dobrze zrozumieć istniejące ograniczenia. Z punktu widzenia przedsiębiorstw największe wyzwanie stanowi pozyskiwanie danych dla kluczowych projektów biznesowych oraz zapewnienie odpowiedniej liczby ekspertów do ich realizacji. O tym wszystkim – o trendach, wyzwaniach, technologiach, rozwiązaniach i praktycznych zastosowaniach dyskutowało pod koniec lutego podczas Big Data Tech Warsaw 2018 ponad 550 specjalistów z 20 krajów. Bez przesady można powiedzieć, że na jeden dzień Warszawa stała się europejską stolicą Big Data.

Jednym z kluczowych trendów, który będzie nasilać się w najbliższych miesiącach i latach jest konwergencja technologii związanych z Big Data, uczeniem maszynowym i sztuczną inteligencją (Artificial Intelligence – AI). Zacierają się jednocześnie granice pomiędzy zbiorami strukturalnymi i niestrukturalnymi. Dzięki temu ludzie biznesu mogą łatwiej i szybciej podejmować decyzje. Dziś wydaje się jednak, że jeszcze przez długi czas maszyny nie będą w stanie zastąpić ludzkiej wyobraźni i intuicji.

„Jako organizacja staramy się wykorzystywać dane i zaawanasowaną analitykę we wszystkich obszarach, które pozwalają na usprawnienie obsługi klientów a także w zakresie wykrywania nieprawidłowości, łamania prawa oraz modelowania ryzyka. Dostarczamy klientom narzędzia i usługi, które pozwalają im być o krok, przed tym, co się dzieje, prognozować i rozumieć to, co się wydarzy albo może wydarzyć” – mówił Bolke de Bruin, Head of Advanced Analytics Technology w ING.

Jak to wygląda w praktyce? Wyspecjalizowane algorytmy analizują z wysoką skutecznością wielkie zbiory danych. Dzięki temu pozwalają na ostrzeganie zanim dojdzie do zdarzeń, które są w stanie spowodować bankructwo pojedynczej firmy albo nawet zatrząść całą branżą. Kiedy przedsiębiorstwo wpada w kłopoty można zwrócić się do klientów z prośbą o wcześniejsze uregulowanie rachunków. Bank pomaga także klientom dowiedzieć się jaka będzie wielkość sprzedaży w najbliższych miesiącach, jakie akcesoria do produktów będą się najlepiej sprzedawać czy też jak optymalizować łańcuch dostaw. Innym pomaga szybciej wejść na rynek albo w ekspresowym tempie budować i testować nowe produkty.

„W ciągu ostatnich kilku lat najważniejszą zmianą w obszarze Big Data i sztucznej inteligencji jest lepsze zrozumienie tego, gdzie powstaje wartość. Coraz lepiej rozumiemy, co można osiągnąć dzięki tym narzędziom, a co pozostaje dla nas niedostępne. Lepiej widzimy prawdziwe, realne korzyści. Wiemy, że nie wszystko będzie idealne. Wiemy, że nie wystarczą same technologie, nadal potrzebni są ludzie, do wykonania zadań, które przed nami stoją” – tłumaczy Bolke de Bruin.

Przykładem bariery, którą w najbliższym czasie trudno będzie przekroczyć, wydaje się być przetwarzanie języka naturalnego. „Udało się w tym obszarze osiągnąć naprawdę dużo, ale jeszcze daleka droga przed nami. W przewidywalnej przyszłości człowiek nadal pozostanie istotnym komponentem tego, co robimy w obszarze Big Data i AI, w szczególności w bankowości, którą się zajmujemy” – przekonywał Bolke de Bruin.

Jednym z kluczowych trendów, który będzie nasilać się w najbliższych miesiącach i latach jest konwergencja technologii związanych z Big Data, uczeniem maszynowym i sztuczną inteligencją. Zacierają się jednocześnie granice pomiędzy zbiorami strukturalnymi i niestrukturalnymi.

Przygotowani na skalę IoT

Innym trendem, który będzie kształtował obszar Big Data, jest rosnąca ilość danych. Już dzisiaj banki czy firmy telekomunikacyjne muszą mierzyć się z takimi ilościami danych, które sprawiają, że tradycyjne rozwiązania nie są w stanie sobie z nimi poradzić. Opowiadali o tym m.in. Alexey Brodovshuk, Software Development Supervisor w firmie Kcell oraz Krzysztof Zarzycki, Big Data Architect and Co-founder w GetInData.

Największy operator telekomunikacyjny w Kazachstanie musiał opracować we współpracy z GetInData wyspecjalizowane narzędzia do obsługi Big Data, ponieważ firma nie była w stanie działać w oparciu o rozwiązania tradycyjne. „Posiadany wcześniej system nie działał tak jak powinien. Nie oferował potrzebnej skalowalności – był w stanie obsłużyć najwyżej 2 tys. zdarzeń na sekundę – i nie był dostatecznie niezawodny. Nowe rozwiązanie pozwala nam obsłużyć nawet 160 tys. zdarzeń na sekundę, 22Tb danych miesięcznie i świadczyć usługi 10 mln abonentów” – opowiadał Alexey Brodovshuk.

Problem jest jeszcze poważniejszy, kiedy przyjrzymy się ilościom danych generowanych przez urządzenia tworzące internet rzeczy (Internet of Things – IoT). Powstaje coraz więcej rozwiązań mających na celu sprostanie związanych z tym wyzwaniom. Przesyłanie wszystkich danych do centralnych ośrodków staje się nieefektywne, dlatego samo przetwarzanie i filtrowanie danych musi zaczynać się już na brzegu sieci.

O jednym z takich rozwiązań opowiadali podczas konferencji Ernst Kratky, Solutions Sales Lead Big Data Analytics w Cisco Systems oraz Michał Kudelski, Senior Business Solutions Manager w SAS Institute. Opracowana wspólnie przez obie firmy referencyjna architektura analityczna Edge to Enterprise umożliwia analizowanie w czasie rzeczywistym danych na brzegu sieci i podejmowanie w oparciu o to części decyzji. Do centralnego ośrodka przesyłane są przefiltrowane dane w celu prowadzenia analiz historycznych.

„Tradycyjny model, w którym po uzyskaniu dostępu do danych, prowadzone są procesy ETL a następnie dane poddawane są analizie, dobrze się dotychczas sprawdzał. Jednak w nowej rzeczywistości jest niewystarczający. Koszty przechowywania danych są zbyt wysokie a czasy reakcji zbyt wolne. Dlatego powstała konieczność zbliżenia się do źródeł danych, konieczność działanie bezpośrednio w czasie rzeczywistym na strumieniu danych” – mówił Michał Kudelski.

Platforma opracowana przez Cisco i SAS Institute jest obecnie testowana m.in. przez firmy energetyczne. Przy jej pomocy chcą rozwiązać główny problem związany z rozwojem nowoczesnej, złożonej sieci – zagwarantować jej stabilność. „Celem jest identyfikacja zdarzeń, które mogą wpływać na stabilność funkcjonowania całej sieci. Rozwiązanie analityczne pozwala na wykrywanie takich zdarzeń, kategoryzowanie ich, podejmowanie bezpośredniego działania w odniesieniu do konkretnego zdarzenia a następnie pozyskiwanie danych do analizy po zdarzeniu” – wyjaśniał Ernst Kratky.

Prowadzony jest także projekt typu proof of concept, w ramach którego na bieżąco zbierane i analizowane są dane z ciężarówek poruszających się po drogach. Kompletne rozwiązanie, które powstało w oparciu o standardowe elementy Cisco, zbiera informacje z 60 sensorów znajdujących się w każdym pojeździe. Efekty są imponujące. Z 90-procentową dokładnością można prognozować awarie na 30 dni przed ich faktycznym wystąpieniem. To oznacza m.in. 30-procentowy wzrost czasu pracy pojazdów. Dla właścicieli ciężarówek to kluczowy parametr, który bezpośrednio przekłada się na wysokość przychodów. System pozwolił także na ograniczenie kosztów rozszerzonej gwarancji o ok. 20 proc.

Tradycyjne rozwiązania stają się nieużyteczne, kiedy przyjrzymy się ilościom danych generowanych przez urządzenia tworzące internet rzeczy. Przesyłanie wszystkich danych do centralnych ośrodków staje się nieefektywne, dlatego samo przetwarzanie i filtrowanie danych musi zaczynać się już na brzegu sieci.

W świecie otwartych źródeł

Eksperci i uczestnicy konferencji raczej byli zgodni co do tego, że główny nurt rozwoju rozwiązań Big Data nadal będzie odbywał się domenie open source. Wokół tego typu projektów tworzą się ekosystemy, w których uczestniczą także firmy komercyjne. Wydaje się, że jako całość model open source powinien pozostać dominujący. Przykładem to potwierdzającym może być otworzenie przez Yahoo, stanowiącego obecnie część koncernu Oath, źródeł systemu Vespa. Jest to działająca w ekosystemie Apache potężna platforma do przetwarzania Big Data i serwowania danych do użytkowników końcowych.

„To rozwiązanie umożliwiające obsłużenie wymagań pojawiających się na trzecim, najwyższym poziomie dojrzałości wykorzystania Big Data w organizacji. Pozwala na zautomatyzowane podejmowanie w czasie rzeczywistym decyzji opartych na danych. Przykładem takiego zastosowania może być automatyczne blokowanie podejrzanych transakcji kartowych przez banki czy spersonalizowane rekomendacje dotyczące filmów do obejrzenia przygotowywane na bieżąco w oparciu o preferencje konkretnego użytkownika” – mówił Jon Bratseth, Distinguished Architect w Yahoo!. Przekonywał, że Vespa ma w Oath setki zastosowań. Obsługuje miliardy użytkowników, ponad 200 tys. zapytań na sekundę i ponad miliard produktów contentowych. Można na nią patrzeć jako na technologię komplementarną do Hadoop.

Nie można jednak zakładać, że narzędzia do Big Data będą ograniczać się wyłącznie do rozwiązań open source. W niektórych, specjalistycznych obszarach będą pojawiać się rozwiązania komercyjne. „Wyraźnym trendem jest koncentrowanie się na aplikacjach, narzędziach wysokiego poziomu, które pozwalają na obsługę programów bez kodowania. Pojawią się platformy narzędziowe do zarządzania wielkimi zbiorami danych. Wiele z tych narzędzi będzie tworzona w modelu open source. Natomiast pewna część będzie koncentrować się na samych narzędziach wysokiego poziomu” – tłumaczył Joey Frazee, Solutions Engineer w firmie Hortonworks.

Rozwój narzędzi, które nie wymagają umiejętności kodowania, będzie wyraźnie przybierał na sile. Można spodziewać się, że wkrótce standardem staną się aplikacje pozwalające na analizowanie danych za pośrednictwem przyjaznych interfejsów bazujących na języku naturalnym. Będą dostarczać wyniki w formie zwizualizowanej w czasie rzeczywistym. „Narzędzia wysokiego poziomu pozwolą rozwiązać część problemów związanych z brakiem specjalistów. Intuicyjne, proste w użyciu spowodują obniżenie bariery wejścia do świata Big Data” – dodaje Joey Frazee.

Rozwój narzędzi, które nie wymagają umiejętności kodowania, będzie wyraźnie przybierał na sile. Można spodziewać się, że wkrótce standardem staną się aplikacje pozwalające na analizowanie danych za pośrednictwem przyjaznych interfejsów bazujących na języku naturalnym.

Podejście usługowe

Podczas Big Data Tech Warsaw 2018 mówiło się także o tym, że same narzędzia analityczne będą coraz częściej dostarczane w modelu usługowym (as-a-service). Przykładem może być platforma Relativity One. „Jesteśmy firmą działającą w obszarze określanym jako legal tech. Nasza technologia pomaga prawnikom zarządzać i analizować wielkie zbiory danych istotnych z punktu widzenia pozwów i prowadzonych dochodzeń” – opowiadała Elise Tropiano, Senior Technical Product Manager w Relativity.

Kiedy jakaś firma zostaje oskarżona przed sądem, proces wyszukiwania potrzebnych do obrony dokumentów, np. wiadomości elektronicznych, które mogłyby mieć wpływ na przebieg procesu, jest niezwykle kosztowny. Nie chodzi wyłącznie o sam koszt wyszukiwania i wynagrodzeń prawników. Obłożone potencjalnymi karami jest także zobowiązanie do zlokalizowania istotnych dokumentów.

Koszty są zwykle tak wysokie, że nawet jeśli organizacje, które nie czują się winne, zwykle dążą do ugody. Koszty związane z rozprawą są tak dotkliwe, że bardziej opłacalne jest porozumienie pozasądowe. „Relativity udostępnia rozwiązanie w modelu Software as a Service, które kompleksowo pozwala obsłużyć cały proces wyszukiwania i analizowania istotnych informacji. Największa sprawa, jaką obsługiwała nasza platforma, obejmowała 750 mln dokumentów” – mówiła Elise Tropiano. Koszty przygotowań w przypadku tradycyjnego podejścia mogą sięgać 1,5 mln dolarów. Wykorzystanie platformy pozwala je ograniczyć do dziesiątek tysięcy dolarów i rozwiązywać sprawy w ciągu kilku dni.