Wzrost popularności Kubernetesa, technologie open source w modelu chmury, konsolidacja rynku i brak specjalistów od data science oraz data engineering to najważniejsze tematy konferencji „Big Data Technology Warsaw Summit 2019”.
Obszar Big Data szybko się zmienia. Nie tak dawno temu Hadoop i open source zrewolucjonizowały krajobraz technologii analizy danych. Jednak to był dopiero początek i kolejne zmiany zachodzą coraz szybciej. Dzisiaj obszar wielkich danych i sztucznej inteligencji jest zupełnie inny niż był jeszcze wczoraj. Wyraźnie widać nowe megatrendy, które zmieniają krajobraz Big Data: konteneryzację, chmurę hybrydową i publiczną, a także uczenie maszynowe i sztuczną inteligencję.
Usługi oferowane przez globalnych gigantów są dziś zbudowane z setek mikroserwisów. Przedsiębiorstwa zmagają się z nowymi wyzwaniami, np. z wdrażaniem rozwiązań, które są gotowe do uruchomienia w chmurze, a także płynnego przenoszenia modeli uczenia maszynowego na produkcję przy jednoczesnym zapewnieniu odpowiedniego zarządzania danymi i bezpieczeństwa. Każda firma chce być dziś „napędzana przez dane” i wspierana przez sztuczną inteligencję. Chce także zarabiać na swoich danych.
Pewnie dlatego tegoroczna „Big Data Technology Warsaw” Summit była największą i najbardziej udaną konferencją w całej pięcioletniej historii. W warszawskim hotelu Marriott zgromadziło się blisko 500 uczestników z wielu krajów europejskich, ale także z Ameryki i Azji. Przybyli, żeby poznać najnowsze narzędzia i technologie, a także podzielić się swoimi nowymi pomysłami na wielkie dane. Ponad 60 znakomitych prezenterów, którzy pracują z Big Data na co dzień w największych, najbardziej zaawansowanych w tym obszarze firmach, takich jak: Cloudera, Zalando, Slack, Amazon Web Services, Booking.com czy Twitter. Dzielili się doświadczeniami z zakresu analizy wielkich zbiorów danych, skalowalności, pamięci masowej i wyszukiwania. Uczestnicy konferencji, praktycy zatrudnieni w najlepszych firmach wykorzystujących w pionierski sposób dane, przedstawiali swoje rekomendacje, narzędzia, modele, sukcesy, ale także opowiadali o niepowodzeniach.
Po sesji głównej konferencja podzieliła się na cztery ścieżki techniczne: Architektura, Operacje i Chmura; Inżynieria danych; Sztuczna inteligencja i analiza danych; Streaming i Analiza w czasie rzeczywistym. Obejmowały one najbardziej istotne i aktualne aspekty Big Data, w tym: uczenie głębokie, przetwarzanie strumieniowe w czasie rzeczywistym oraz chmurę. Jedną z głównych atrakcji wydarzenia były sesje roundtable. 27 dyskusji było animowanych i moderowanych przez ekspertów branżowych, którzy starali się wciągać uczestników do wymiany poglądów i doświadczeń na temat konkretnych, najbardziej interesujących ich zagadnień. Uzupełnieniem konferencji była część warsztatowa. W czterech technicznych i zarazem skoncentrowanych na aspekcie praktycznym sesjach wzięło udział 140 uczestników.
Wyraźnie można dostrzec nowe megatrendy, które zmieniają krajobraz Big Data: konteneryzację, chmurę hybrydową i publiczną, a także uczenie maszynowe i sztuczną inteligencję.
Życie w post-Hadoopowym świecie
Najbardziej znaczącymi trendami w obszarze Big Data są dziś technologie open source i chmura obliczeniowa we wszystkich swoich odmianach. Istotne są zwłaszcza poszukiwania lepszych sposobów implementowania uczenia maszynowego i projektów sztucznej inteligencji w chmurze.

Adam Kawa, CEO and Co-founder, GetInData
„Analizowałem największe trendy w przestrzeni open source w ciągu ostatnich lat. 2013 to był rok Hadoopa, a kolejny był najlepszym czasem dla Sparka. W latach 2015 i 2016 ogromną popularnością cieszyła się technologia Kafka. Rok później zainteresowanie przesunęło się w kierunku przetwarzania strumieniowego przy użyciu Flink. Popularne stały się także Beam i Cloud Dataflow. W ub. r. świat Big Data zawojował Kubernetes” – mówił podczas dyskusji panelowej prowadzący debatę Adam Kawa, dyrektor generalny i założyciel firmy GetInData.
Przez wiele lat najważniejsza platformą w obszarze Big Data był Hadoop. Była to fundamentalna technologia, ale z czasem, równocześnie ze wzrostem popularności chmury, jej znaczenie zaczęło się zmniejszać. Podczas konferencji „Big Data Technology Warsaw Summit 2019” wielu prezenterów i uczestników mówiło, że Hadoop umiera. Niektórzy dodawali, że fuzja Cloudera i Hortonworks jest w pewnym sensie tego dowodem: kiedy dwóch największych dostawców łączy się, to znaczy, że biznes musi być trudny.
Czy jednak Hadoop faktycznie jest martwy? Wydaje się, że oryginalna technologia jest dzisiaj przestarzała i staje się zwyczajnie niepotrzebna. Jednak ostateczny wyrok jeszcze nie zapadł. Hadoop jako cały ekosystem wydaje się zdrowy i silny, a produkty, takie jak: YARN, MapReduce, Hive czy Spark, będą używane przez wiele kolejnych lat.

Gergely Devenyi, Director of Engineering, Cloudera
Nowa firma Cloudera próbuje na nowo ukształtować krajobraz Hadoop i Big Data, oferując klientom zunifikowaną, opartą na otwartym kodzie źródłowym, hybrydową usługę chmurową. „Wciąż jesteśmy w 100% zaangażowani w open source. Edycja Unity połączy najlepsze z obu światów CDH i HDP” – powiedział podczas swojego wystąpienia Gergely Devenyi, dyrektor ds. inżynierii w Cloudera. Firma proponuje uczenie maszynowe i analitykę cloud native „od brzegu sieci po sztuczną inteligencję”. Ta nowoczesna architektura danych umożliwia wdrożenia w tradycyjnej infrastrukturze, w wielu chmurach i w chmurze prywatnej, a także działanie w taki sposób, jakby to była pojedyncza usługa.
Przedstawiciel Cloudera był na scenie „Big Data Technology Warsaw Summit 2019” razem z przedstawicielem firmy partnerskiej w Polsce 3Soft. Wspólnie mówili o najważniejszych innowacjach technologicznych, na którymi pracują. Przedstawiali też przykłady wdrożeń, pokazując, jakie znaczenie będzie miała zunifikowana platforma i jak pilna jest to potrzeba.
Istotne znaczenie mają zwłaszcza poszukiwania lepszych sposobów implementowania uczenia maszynowego i projektów sztucznej inteligencji w chmurze.
Kubernetes rośnie w siłę
Nowy świat post-Hadoop został zbudowany na technologii kontenerowej. Podstawowym wyzwaniem jest zwinne wykorzystywanie nowych technologii, a gotowość na wdrożenia w chmurze stała się integralną częścią frameworków analitycznych. Przedsiębiorstwa wykorzystują technologie cloud native, aby transformować swoje organizacje. Rozwiązania te obiecują bowiem możliwość błyskawicznego przechodzenia od pomysłów do produkcji.
Prawdopodobnie najbardziej istotny wniosek płynący z „Big Data Technology Warsaw Summit 2019” dotyczy właśnie Kubernetesa: ta technologia kontenerowa staje się powoli frameworkiem dla przedsiębiorstw do wdrażania infrastruktury programowej. To podejście zaczęło w ciągu ostatnich kilku lat stosować coraz więcej organizacji.
Kubernetes nabrał rozpędu i dojrzał na tyle, by zaspokoić wszystkie istotne potrzeby przedsiębiorstw. Rozwija się niesamowicie szybko. Oferowane korzyści są niezaprzeczalne: technologia jest stabilna, użytkownicy korzystają z niej w publicznej chmurze, w tradycyjnych, lokalnych infrastrukturach, a także w środowiskach hybrydowych. W 2019 r. będzie nadal silne zapotrzebowanie na tę technologię. W ciągu następnych kilku lat Kubernetes może nawet stać się bardziej istotny z biznesowego punktu widzenia niż wirtualizacja.
„Kubernetes pozwala firmom na wybór miejsca, w którym chcą prowadzić swoje obliczenia analityczne. Niezależnie, czy będzie to lokalna infrastruktura czy chmura Google albo jakakolwiek inna chmura. Za pomocą Kubernetesa bardzo łatwo przejść do chmury takiej jak Google, ale również łatwo wyjść z niej” – stwierdził Adam Kawa.
Kubernetes (k8s) to przenośna, rozszerzalna platforma open source do zarządzania obciążeniami i usługami kontenerowymi. Umożliwia tzw. orkiestrację obliczeń, sieci i pamięci masowej, a także pozwala na przenoszenie danych między dostawcami infrastruktury. Google otworzyło źródła tego projektu w 2014 r. Dzisiaj to jest dynamicznie rozwijający się ekosystem oferujący usługi, wsparcie i narzędzia. Społeczność Kubernetes jest niezwykle dynamiczna i zaangażowana. Ludzie i organizacje dzielą się swoimi doświadczeniami oraz wiedzą i każdy stara się mieć wkład w rozwój technologii.

Rob Keevil, Data Analytics Platform Lead, ING
„Kubernetes jest podstawą praktycznie wszystkiego, co robimy. Używamy go jako naszego frameworka do orkiestracji kontenerów. Mam na myśli to, że używamy Kubernetesa we wszystkich typowych use casach. Wykorzystujemy bezstanowe mikroserwisy i przenosimy je na nasz klaster. Monitorujemy ich obciążenie, a także skalujemy je, aby utrzymać nasze usługi w taki sposób, jaki akurat jest nam potrzebny. Wszystko, co robimy, chcemy uruchamiać w kontenerach. Dzięki temu możemy być gotowi na użycie chmury, a zarazem być wobec niej agnostyczni” – mówił Rob Keevil, kierownik ds. platformy danych w ING.

Michał Żyliński, Cloud Customer Engineer, Google
Kubernetes otrzymuje nadal znaczące wsparcie od Google. W ub. r. firma ogłosiła projekt o nazwie Kubeflow, który w przyszłości z pewnością będzie mógł stać się tematem osobnej konferencji. „Chcemy uczynić kontenery bardziej przystępnymi z perspektywy specjalistów i inżynierów od danych. Kubeflow to projekt, w który inwestujemy znaczne środki. Udało nam się pozyskać uwagę także innych przedstawicieli branży. Jestem przekonany, że z perspektywy Google jest to jeden z projektów, które będą w tym roku bardzo szybko się rozwijać” – powiedział Michał Żyliński, inżynier ds. klientów w chmurze w Google.

Andrzej Michałowski, Head of AI Research & Development, Synerise
Zgodził się z tym Andrzej Michałowski, szef AI Research & Development w firmie Synerise. Jego zdaniem w tym roku można spodziewać się wysypu projektów Kubeflow. Wspomniał jednocześnie o innym interesującym projekcie opartym na Kubernetesie: Kubeless. „Firmy, które obawiały się zamknięcia w ekosystemie jednego dostawcy, nie korzystały z AWS Lambda czy Azure Functions. Teraz mogą już z nich korzystać. Rozwiązania Kubernetes i cloud zapewniają przede wszystkim jedną niezwykłą korzyść: wolność. Wolność rozwijania systemów. Swobodę skalowania. Nieograniczone możliwości eksperymentowania. Mój zespół korzysta z Azure Machine Learning Compute, żeby móc eksperymentować z różnymi podejściami, nowymi modelami oraz nowymi pomysłami. Zamiast w kilka dni możemy to zrobić w kilka godzin, lub nawet minut” – powiedział Andrzej Michałowski.
Kubernetes pozwala firmom na wybór miejsca, w którym chcą prowadzić swoje obliczenia analityczne. Niezależnie, czy będzie to lokalna infrastruktura czy chmura Google albo jakakolwiek inna chmura.
Przyszłość w chmurach
Biznes nie zastanawia się już dzisiaj, czy korzystać z chmury. Po prostu jej używa. Oczywiste korzyści przeważyły: można bardzo szybko rozbudować swoje środowisko rozwojowe, można elastycznie, w miarę zmieniających się potrzeb, skalować obciążenia. Widać jasne korzyści techniczne, a z czasem te korzyści stają się coraz bardziej istotne. W chmurze można rozwijać się szybciej niż w infrastrukturze znajdującej się wewnątrz organizacji.

Max Schultze, Data Engineer, Zalando SE
„Wykorzystaj ofertę dostawców usług w chmurze i rób mniej samodzielnie. Podejście serverless to kolejna zmiana paradygmatu, w której skupiasz się bardziej na tym ‘co’ niż na ‘jak’. Nie trzeba już rozumieć każdego kroku wykonywanego przez backend ani martwić się o samodzielne utrzymanie systemu. Wykupienie tych usług daje silne gwarancje ze strony dostawców usług w chmurze, co pozwala na znacznie więcej spokojnie przespanych nocy. Nasz pierwszy całkowicie serverless pipeline trafił na produkcję latem 2018 r. Do dzisiaj nie mieliśmy jeszcze incydentu związanego z infrastrukturą” – powiedział Max Schultze, Data Engineer w Zalando SE.
To oczywiste, że przyszłość należy do chmury. Według Roba Keevila jedyną kwestią budzącą obawy jest to, że obecna sytuacja prawna przemawia przeciwko chmurze. Pojawiły się nowe regulacje w Europie i Stanach Zjednoczonych. Dla wielu firm mogą one oznaczać, że przejście do chmury będzie trudne. Wydaje się, że to będzie poważne wyzwanie w kontekście chmury w 2019 r. i w kolejnych latach.

Fabian Hueske, Software Engineer, Ververica (former data Artisans)
Co ciekawe, nie ma konkurencji między projektami open source i dostawcami chmury. Choć niewątpliwie istnieją pewne wyzwania. „Nie konkurujemy z chmurą. Przeciwnie, Flink jest oferowany jako usługa przez niektórych dostawców cloud. Niemniej w ostatnich miesiącach w społecznościach open source odbywała się dyskusja dotycząca tego, w jakim stopniu dostawcy chmur powinni mieć możliwość korzystania z open source bez angażowania się w rozwój projektu. Dlatego kilka organizacji dodało lub rozszerzyło licencje na swoje projekty” – powiedział Fabian Hueske, Software Engineer w Ververica (dawniej data Artisans).
Jedyną kwestią budzącą obawy jest to, że obecna sytuacja prawna przemawia przeciwko chmurze. Nowe regulacje w Europie i Stanach Zjednoczonych dla wielu firm mogą oznaczać, że przejście do chmury będzie trudne.
Zapotrzebowanie na specjalistów od danych
Firmy muszą stawić czoła dużym wyzwaniom, żeby móc korzystać z najnowocześniejszych narzędzi do analizowania dużych zbiorów danych. Przede wszystkim jednak, aby móc skutecznie wykorzystać dane, potrzebują zespołu specjalistów światowej klasy. A skompletowanie go to niełatwe zadanie. Rekrutowanie talentów, niezależnie od tego, o jakiej części świata mówimy, jest jednym z największych wyzwań. Także dla dostawców z obszaru Big Data i firm programistycznych.
„Zaznaczyłem, skąd pochodzą członkowie naszego zespołu. Zespół światowej klasy to z definicji zespół międzynarodowy. Jest to zarazem zespół mocno osadzony w świecie open source. Nie jesteśmy wyłącznie ekspertami od narzędzi do dużych zbiorów danych i ich wdrażania. Prawie zawsze modyfikujemy oryginalne projekty. I nigdy nie chcemy tworzyć nowych rozgałęzień dla tych narzędzi, ponieważ będzie to oznaczało zamianę jednego wyzwania, mianowicie utrzymania, na inne wyzwanie. Dlatego budujemy elastyczne funkcje. Dlatego wszyscy nasi programiści muszą być zanurzeni w świecie open source” – mówił Rob Keevil.
Zespół musi być również multidyscyplinarny, ponieważ budowa kompleksowej platformy wymaga wielu różnych specjalistów: programistów, administratorów, ekspertów od frontendu i backendu. Czasami potrzeba też więcej „nietypowych” ekspertów, takich jak ludzie od ryzyka niefinansowego czy tzw. ethical hackers.
Budowanie światowej klasy zespołów jest szczególnie trudne dla małych i średnich firm. Konkurowanie o talenty z Google to nie lada wyzwanie. Tymczasem ludzie wybierają Google, aby się przekonać, jak to jest pracować dla giganta technologicznego, który jest pionierem wielu przełomowych technologii. Konkurowanie z Google jest trudne, ale możliwe. Jedną z rzeczy, które mogą zrobić mniejsze firmy, jest przede wszystkim inwestowanie w nowe technologie takie jak Kubernetes. Sprawdzoną strategią jest także angażowanie ludzi w wiele różnych nowych dla nich działań i projektów, aby w ten sposób umożliwić im rozwój kariery. Wszystko to jest szczególnie ważne dla pracowników zaliczanych do nowych pokoleń, takich jak Millennialsi.
Zespół światowej klasy to z definicji zespół międzynarodowy. Jest to zarazem zespół mocno osadzony w świecie open source. Jednocześnie musi być również multidyscyplinarny.
Kategorie: Analityka
Musisz się zalogować aby dodać komentarz.