Biometria behawioralna daje możliwość zapewnienia bezpieczeństwa dzięki analizie, jak użytkownik posługuje się komputerem i jak z niego korzysta, a nie tego, co robi. To sposób na zapewnienie ciągłej weryfikacji uprawnień użytkowników do korzystania z konkretnych zasobów czy usług – mówi Mateusz Chrobok, Chief Executive Officer oraz prezes zarządu w start-upie Digital Fingerprints.
Dużo już powiedziano o zastosowaniach rozwiązań biometrycznych w dziedzinie cyberbezpieczeństwa. Czym biometria behawioralna różni się od tradycyjnych metod biometrycznych, takich jak skanowanie siatkówki oka czy odczytywanie linii papilarnych?
Budowa siatkówki oka czy układ linii papilarnych nie są unikalne w skali globalnej, czyli dla wszystkich ludzi na świecie. W gruncie rzeczy możemy na ich podstawie, jak dla każdej biometrii, zidentyfikować człowieka jedynie z określonym prawdopodobieństwem. Mamy bowiem do czynienia z jednym elementem stanowiącym punkt odniesienia dla podjęcia decyzji.
Trochę inaczej wygląda sytuacja przy zastosowaniu biometrii behawioralnej. W obszarze interakcji użytkownika z komputerem (Human Computer Interaction – HCI) mamy do dyspozycji dużo danych pochodzących z wielu różnych źródeł. Dzięki temu można tworzyć profile zachowań dla każdego użytkownika komputera. Pozwalają one na ciągłą weryfikację użytkowników korzystających z określonego serwisu. Buduje się je z zastosowaniem technik sztucznej inteligencji i uczenia maszynowego, a także przetwarzania strumieniowego.
Testujemy obecnie takie rozwiązanie we współpracy z jednym z polskich banków. Daliśmy mu możliwość ciągłego uwierzytelniania użytkowników bankowości elektronicznej.
Jak duże prawdopodobieństwo identyfikacji konkretnego użytkownika można osiągnąć dzięki tej metodzie?
Każdy klient korzystający z tego rozwiązania będzie miał inne oczekiwania i potrzeby co do dokładności wyników. Każda predykcja zawsze obarczona jest jakimś błędem. Zależy to od wielu czynników, m.in. od danych, jakie są poddawane analizie. Ich zestaw jest ustalany w porozumieniu z partnerem biznesowym – bierzemy pod uwagę zarówno cechy jednostkowe, jak i właściwości o charakterze społecznym. Wspólnie też określane są granice błędu pomiaru dopuszczalne dla klienta, przykładowo, że system może się pomylić nie częściej niż raz na 100 tys. przypadków. Wtedy dopiero uznajemy, że model, który jest zbudowany dla konkretnego użytkownika, jest gotowy do uruchomienia.
Które zachowania przy komputerze są poddawane analizie dla zbudowania profilu użytkownika?
W grę mogą wchodzić różne źródła danych. Można badać szybkość pisania na klawiaturze, siłę nacisku na ekran dotykowy czy na touch pada lub trajektorię ruchów myszki. Do wykorzystania są wszelkie rodzaje sensorów wbudowane lub możliwe do wbudowania w sprzęt komputerowy. Jakość danych zależy od liczby wykorzystanych źródeł, im więcej sensorów składa się na model, tym jest dokładniejszy.
W obszarze interakcji użytkownika z komputerem (Human Computer Interaction – HCI) mamy do dyspozycji dużo danych pochodzących z wielu różnych źródeł. To pozwala tworzyć profile zachowań dla każdego użytkownika komputera.
W jaki sposób system uczy się rozpoznawania wzorców zachowań poszczególnych użytkowników? Jak długo trwa jego trenowanie, by można było zbudować model dla wybranej osoby?
Długość trenowania zależy od ilości danych, co jest pochodną liczby interakcji w czasie. Zależy to więc od intensywności korzystania z serwisu partnera. Gdy na przykład księgowa stale wprowadza dane, to możemy ją rozpoznawać już po jednej sesji. Na rozpoznanie osób, które rzadziej logują się do systemu, potrzeba więcej czasu. Ważna jest też ilość wprowadzanych danych. Im więcej interakcji z systemem, tym więcej danych o użytkowniku komputera, co w konsekwencji pozwala na stworzenie lepszego modelu. Tam gdzie ludzie mniej używają serwisu, potrzebnych jest więcej sesji do wytrenowania systemu. I odwrotnie.
Ile czasu potrzeba na przygotowanie systemu do pracy przy bardzo dużej liczbie użytkowników?
System można skalować. Działa on w tle, każdego użytkownika analizuje oddzielnie. To powoduje, że identyfikacja wzorców trwa bardzo krótko, a modele są gotowe dla każdego użytkownika tak szybko, jak dostarczy wystarczająco dużo danych dla spełnienia wymagań jakościowych.
A co w sytuacji, gdy z jednej maszyny korzysta więcej niż jeden użytkownik?
Przy współdzieleniu danych dostępowych do serwisu też można wykryć konkretnego użytkownika. System rozpozna, kiedy pracuje uprawniona osoba, a kiedy sesja zostaje przejęta przez kogoś innego. Gdy zmieni się osoba korzystające z serwisu, algorytm to rozpozna, bo będzie miał do czynienia z innym wzorcem zachowań. System działa cały czas, funkcjonuje w tle. W sposób ciągły sprawdza, czy z określonym prawdopodobieństwem jest to ta sama osoba czy nie. Prowadzone jest stałe badanie generowanego przez użytkownika strumienia danych.
Długość trenowania systemu zależy od ilości danych, co jest pochodną liczby interakcji w czasie. Im więcej interakcji z systemem, tym więcej danych o użytkowniku komputera, co w konsekwencji pozwala na stworzenie lepszego modelu zachowań.
A gdy użytkownik zmieni swój sposób korzystania z komputera, bo na przykład jest zmęczony i wolniej pisze na klawiaturze?
System szybko adaptuje się do zmian. Zachowanie użytkownika faktycznie może się zmieniać, gdy na przykład skaleczył palec i już inaczej pisze na klawiaturze, albo gdy ma inną klawiaturę i też inaczej wprowadzana niej dane, lub gdy w myszce bateria jest na wyczerpaniu itd. W takiej sytuacji system trzeba szybko przemodelować, nauczyć nowego wzorca zachowań. Adaptacja jest jedną z kluczowych cech, która umożliwia utrzymanie wysokiej jakości predykcji w naszym rozwiązaniu.
Co się dzieje, gdy zostanie zidentyfikowany nieuprawniony użytkownik? Jaka jest wtedy reakcja systemu?
O tym decyduje partner korzystający z systemu, na przykład bank. Może sobie zażyczyć zarówno tego, aby został powiadomiony wyznaczony pracownik, jak i tego, aby sesja została automatycznie przerwana, a dostęp zablokowany. Powiedzmy, że mamy do czynienia z sytuacją, gdy mąż wchodzi na konto bankowe żony. To partner, czyli na przykład bank, decyduje, co ma się wtedy stać – czy ma nastąpić odmowa dostępu czy obserwacja podejmowanych działań. Partner ustala sposób reakcji w konkretnej sytuacji. Nasz system przesyła do partnera informację o tym, jak bardzo konkretna sesja jest podobna do modelu użytkownika w naszym systemie. Decyzja, co z tą informacją zrobić, należy w pełni do partnera.
Kluczowego znaczenia nabiera pytanie o ochronę prywatności i zabezpieczenie danych charakteryzujących zachowania konkretnych osób. Informacje przetwarzane w ramach biometrii behawioralnej mogą zawierać masę cennych informacji o każdym użytkowniku. Jak rozwiązujecie problem ochrony danych osobowych?
Nasze rozwiązanie jest stworzone tak, by było zgodne z RODO. Respektujemy prawo do zapomnienia, umożliwiamy włączenie i wyłączenie systemu dla konkretnych użytkowników. My nie identyfikujemy użytkownika w sensie ustalenia, kim on jest. Może to zrobić jedynie partner, który korzysta z naszego rozwiązania i ma prawo przetwarzać dane osobowe użytkownika, na przykład bank obsługujący swojego klienta. Nasz system nie jest połączony z systemem bankowym w celu wymiany danych osobowych. Naszym zadaniem jest jedynie zweryfikować, czy aktualny użytkownik jest tym, który wcześniej korzystał z danego zasobu partnera.
Nie znamy użytkowników i nie chcemy wiedzieć, kim są, możemy tylko powiedzieć o nich, czy mają prawo korzystać z konkretnej usługi lub zasobów. System ma sprawdzać, czy aktualny użytkownik to rzeczywiście ten, który powinien akurat być. Nie identyfikujemy użytkownika, wychwytujemy jedynie modele zachowań i dostarczamy weryfikację. Nie chcemy wiedzieć, co użytkownik robi, przez co nazywamy nasze rozwiązanie bezkontekstowym.
Nie znamy użytkowników i nie chcemy wiedzieć, kim są, możemy powiedzieć o nich tylko, czy mają prawo korzystać z konkretnej usługi lub zasobów. System ma sprawdzać, czy aktualny użytkownik to rzeczywiście ten, który powinien akurat być. Nie identyfikujemy użytkownika, wychwytujemy jedynie modele zachowań i dostarczamy weryfikację.
Gdyby ktoś jednak chciał użyć Waszego systemu do identyfikacji użytkownika, na przykład służby specjalne albo firmy handlujące danymi osobowymi, to czy jest taka możliwość?
Przypisania modelu zachowań konkretnej osobie nie możemy zrobić. My dajemy narzędzie, które po zalogowaniu się użytkownika stwierdza tylko, że jego zachowanie jest zgodne z modelem określonym dla anonimowej osoby X lub nie jest zgodne. Użytkownik wysyła strumień danych związanych z obsługą komputera i tylko on jest poddawany analizie. Nasz system wykrywa, że z określonym prawdopodobieństwem jest to akurat klient X.
Nie ma punktów wymiany danych osobowych między naszym systemem a systemem partnera korzystającego z naszych usług. My przechowujemy w bazie tylko modele pozwalające na odwzorowanie zachowań użytkownika w trakcie jego korzystania z komputera. Zidentyfikować konkretnego użytkownika może jedynie partner korzystający z naszego rozwiązania.
Dodatkowo stworzyliśmy manifest, w którym mówimy wprost o tym, że celem przetwarzania danych jest wyłącznie dostarczenie rozwiązania bezpieczeństwa.
Na czym polega przewaga rozwiązań z dziedziny biometrii behawioralnej nad tradycyjnymi metodami uwierzytelniania użytkowników systemów informatycznych?
Loginy lub hasła wcześniej czy później mogą wyciec, dostać się w niepowołane ręce bądź zostać złamane. W przypadku interakcji użytkownika z komputerem nie trzeba mieć żadnych dodatkowych rzeczy, o które trzeba specjalnie dbać. Uwierzytelnianie następuje po prostu w trakcie działań użytkownika. Nie jest ograniczone tylko do momentu logowania, lecz odbywa się podczas całej pracy z systemem partnera. Jest więc możliwość zareagowania, gdy sesja zostanie w trakcie przejęta przez kogoś obcego.
Oferujemy ochronę na pewnym poziomie prawdopodobieństwa jak każda biometr az tą różnicą, że nasze rozwiązanie jest zależne od ilości danych. System cały czas się uczy, mając do dyspozycji coraz więcej danych. Wraz ze wzrostem puli danych do analizy poprawia się jakość modeli.
Gdzie są granice optymalizacji modelu? Ile trzeba mieć danych, żeby uznać, że algorytmy gwarantują odpowiednią skuteczność wykrywania wzorców zachowań? Teoretycznie, można myśleć o nieograniczonej ilości danych…
System jest rozwijany tak, by sam identyfikował cechy najlepiej opisujące użytkownika. Nie ma sensu zbierać wszystkich danych dla wszystkich użytkowników. Przy dużej liczbie osób korzystających z komputerów byłoby to po prostu za drogie.
W przypadku interakcji użytkownika z komputerem nie trzeba mieć żadnych dodatkowych rzeczy, o które trzeba specjalnie dbać. Uwierzytelnianie następuje po prostu w trakcie działań użytkownika. Nie jest ograniczone tylko do momentu logowania, lecz odbywa się podczas całej pracy z systemem partnera.
Czy Wasze rozwiązanie opiera się tylko na analizie strumienia danych generowanych przez użytkownika, czy też system ma również zaimplementowane informacje z dziedziny psychologii, socjologii, ekonomii, które porównuje z zachowaniami osoby pracującej na komputerze?
Oczywiście, dajemy systemowi jakieś cechy wyjściowe, na przykład trajektoria myszki, ale w naszym rozwiązaniu podstawową rolę odgrywa statystyka. Bazujemy na sile zbioru danych. Nie chcemy wiedzieć, co robią użytkownicy – z czego korzystają, jakie treści przesyłają, czy dopiero przyszli do pracy, czy też mają akurat przerwę śniadaniową. Informacje charakteryzujące postać użytkownika nie są nam potrzebne i użycie ich uważamy za nieetyczne. Nasze algorytmy opierają się tylko na analizie danych generowanych przez człowieka przy korzystaniu przez niego z komputera.
Idziemy w kierunku automatyzacji działań. Nie jesteśmy w stanie wszystkiego sami wymyślić, ustalić wcześniej, że na przykład trzeba zwracać uwagę na siłę i szybkość naciskania klawiszy, rytm i częstotliwość przerw robionych w pisaniu itd. Nie damy rady szczegółowo z góry określić, co może być ważne dla zachowań konkretnej osoby przy komputerze. Stawiamy na automatyzację, aby system sam znajdował cechy istotne dla określenia modelu działań użytkownika. Mogą to być czasami nawet wskaźniki zupełnie dla nas niezrozumiałe albo takie, o których sami byśmy nigdy nie pomyśleli. Jeśli jednak z analizy wyjdzie, że mogą mieć wpływ na wzorce zachowań, to algorytm automatycznie wykorzysta je do budowania modeli. Jest to nasz sposób na wykorzystanie tak zwanego uczenia głębokiego (deep learning).
W jakich branżach, poza wymienioną już bankowością, biometria behawioralna może znaleźć zastosowanie?
Może być wykorzystywana w najróżniejszych systemach, wszędzie tam, gdzie istnieje potrzeba stałego zabezpieczenia pracy w sieci. Poza bankowością może znaleźć zastosowanie w handlu czy w opiece zdrowotnej.
W bankowości wzrost zainteresowania tą metodą może nastąpić po wejściu w życie w przyszłym roku unijnej dyrektywy PSD2, która nałoży na instytucje finansowe obowiązek stosowania mocnych sposobów autoryzacji transakcji (Strong Customer Authentication). Do dalszego użytku nie będzie dopuszczona na przykład autentykacja przez SMS. To wymusi na sektorze finansowym poszukiwanie nowych, skuteczniejszych metod uwierzytelniania. Biometria behawioralna może być jedną z nich.
Może też być stosowana do walki z oszustwami. Pozwala bowiem na szybkie uwierzytelnianie i szybką reakcję. Odpowiedzi z systemu liczone są zazwyczaj w setkach milisekund. To pozwala między innymi na skuteczne zablokowanie podejrzanej transakcji. Przy dużej skali zagrożeń oszustwami ważne jest wiarygodne uwierzytelnienie i szybka reakcja. Tu sprawdzają się rozwiązania w pełni zautomatyzowane, bo one mogą zadziałać szybko. Człowiek spowalniałby taki system. Konkretne scenariusze zastosowań i wdrożeń będą jednak zależne od potrzeb oraz oczekiwań poszczególnych partnerów i ich użytkowników końcowych.
Rozmawiał Andrzej Gontarz
Mateusz Chrobok będzie prelegentem na konferencji „Advanced Threat Summit. Cyberbezpieczeństwo w dobie automatyzacji i sztucznej inteligencji” (13–14 listopada 2018 r., Warszawa). Więcej informacji o programie na stronie: https://atsummit.pl/.
Kategorie: Analityka, Cyberbezpieczeństwo, Rozwiązania dziedzinowe
Musisz się zalogować aby dodać komentarz.