Studium przypadku dotyczące modelu rozpoznawania twarzy
Zestaw danych wideo anty-spoofingowych dla modeli AI do wykrywania oszustw
Dowiedz się, w jaki sposób Shaip dostarczył 25,000 XNUMX wysokiej jakości zestawów danych wideo chroniących przed podszywaniem się, obejmujących rzeczywiste i odtworzone scenariusze ataków, aby szkolić modele AI pod kątem wykrywania oszustw.
Przegląd projektu
Shaip nawiązał współpracę z wiodącą firmą zajmującą się bezpieczeństwem AI, aby dostarczyć wysokiej jakości, gotowy zestaw danych wideo do ochrony przed podszywaniem się, zaprojektowany w celu ulepszenia szkolenia modeli AI w celu wykrywania oszustw. Zestaw danych obejmował 25,000 XNUMX filmów rejestrujących zarówno rzeczywiste, jak i odtwarzane scenariusze ataków, zapewniając solidne dane szkoleniowe dla modeli ochrony przed podszywaniem się.
Każdy z uczestnicy 12,500 udostępnił dwa filmy – jeden prawdziwy i jeden z powtórki ataku – nagrane w Rozdzielczość 720p lub wyższa z liczbą klatek na sekundę 26 FPS i więcej.
Celem projektu było dostarczenie autentyczne i różnorodne zestawy danych umożliwiłoby to modelom sztucznej inteligencji skuteczne odróżnianie prawdziwych nagrań biometrycznych od sfałszowanych, zmniejszając w ten sposób ryzyko oszustw w systemach uwierzytelniania biometrycznego.
Kluczowe statystyki
25,000 łącznie filmów (12,500 prawdziwe filmy, 12,500 odtworzyć filmy z ataków)
12,500 wyjątkowy
Uczestnicy
5 grup etnicznych
reprezentowane w zestawie danych
Dostawa etapowa: 4 partie 6,250 filmów każdy
Atrybuty metadanych: 12 kluczowe parametry zwiększające użyteczność zbioru danych
Zakres zestawu danych biometrycznych chroniący przed podszywaniem się
Kuratorowanie zbiorów danych: Projekt skupiał się na dostarczaniu wysokiej jakości zestawów danych wideo chroniących przed podszywaniem się, składających się z: prawdziwe i powtórkowe filmy z ataków. Kluczowe aspekty obejmowały:
- uczestnicy 12,500 przyczyniając po dwa filmy każdy (1 prawdziwy, 1 sfałszowany).
- Różnorodność urządzeń rejestrujących aby zwiększyć adaptowalność modelu.
- Zrównoważona reprezentacja etniczna aby zapewnić inkluzywność zbioru danych.
Zbiór metadanych: Do każdego filmu dołączono: 12 atrybutów metadanych w celu zwiększenia użyteczności zbioru danych.
Wyzwania związane ze zbieraniem danych wideo
Równa reprezentacja
Zachowanie zrównoważonego podziału danych pod względem pochodzenia etnicznego przy jednoczesnym pozyskiwaniu wysokiej jakości filmów.
Kontrola jakości
Zadbanie o to, aby każdy uczestnik dostarczył jeden prawdziwy i jeden odtworzony film ataku, aby zachować integralność zbioru danych.
Spójność techniczna
Przestrzeganie ścisłych wytycznych dotyczących liczby klatek na sekundę (≥ 26), rozdzielczości (≥ 720p) i dokładności znacznika czasu (+/- 0.5 ms).
Jak to rozwiązaliśmy
Shaip dostarczył uporządkowany i wysokiej jakości zestaw danych, aby spełnić wymagania projektu. Rozwiązanie obejmowało:
Kuratorowanie zbiorów danych i kontrola jakości
- Filmy 25,000 zebrano w Fazy 4 aby zapewnić stały i ustrukturyzowany przepływ danych, unikając wąskich gardeł.
- Rygorystyczny proces walidacji aby zapewnić zgodność z Dokładność FPS, rozdzielczości i metadanychKażdy film przeszedł wielokrotne kontrole jakości przed ostateczną akceptacją.
- Kompleksowe tagowanie metadanych w 12 atrybuty:
- Identyfikator/nazwa pliku
- Typ ataku (rzeczywisty/powtórkowy)
- Identyfikator osoby
- Rozdzielczość wideo
- Czas trwania wideo
- Pochodzenie etniczne podmiotu
- Płeć podmiotu
- Czy film jest oryginalny czy podrobiony
- Nazwa/model urządzenia
- Osoba mówiąca czy nie
- Znak czasu Czas rozpoczęcia
- Znak czasu Koniec czasu
- Zrównoważony rozkład grup etnicznych: Zestaw danych został starannie wyselekcjonowany, aby zachować zrównoważoną reprezentację etniczną. Dystrybucja obejmuje populację hiszpańską (33%), południowoazjatycką (21%), kaukaską (20%), afrykańską (15%) oraz wschodnioazjatycką i bliskowschodnią (każda obejmująca do 6%).
- Żadnych duplikatów wpisów aby zachować unikalność zbioru danych i zapobiec stronniczości w szkoleniu sztucznej inteligencji.
- Wybór uczestników o zróżnicowanym pochodzeniu etnicznym aby stworzyć zbiór danych odzwierciedlający rzeczywiste różnice w zachowaniach użytkowników, zwiększając tym samym adaptacyjność i uczciwość modelu sztucznej inteligencji.
- Wariacja urządzenia rejestrującego uwzględniono wiele modeli smartfonów, aparatów i warunków oświetleniowych, aby zwiększyć odporność modelu na różne warunki środowiskowe.
Wynik
Wysokiej jakości, zróżnicowany zestaw danych wideo antyspoofingowych dostarczony przez Shaip umożliwił klientowi trenowanie modeli AI, aby dokładnie odróżniały prawdziwe i sfałszowane filmy w różnych scenariuszach uwierzytelniania biometrycznego. Zestaw danych przyczynił się do:
Wykrywanie oszustw
Lepsza wydajność sztucznej inteligencji w wykrywaniu oszukańczych ataków biometrycznych.
Zróżnicowane dane szkoleniowe
Wzmocniono zdolność modelu do rozpoznawania ataków metodą powtórzenia obejmujących różne grupy etniczne, urządzenia i warunki środowiskowe.
Skalowalność
Zbiór danych stanowi podstawę do przyszłych udoskonaleń i rozszerzeń modelu zabezpieczającego przed podszywaniem się.
Zestaw danych Shaipa odegrał kluczową rolę w udoskonaleniu naszych modeli antyspoofingowych opartych na sztucznej inteligencji. Różnorodność, jakość i ustrukturyzowane metadane zapewniły solidną podstawę do poprawy wykrywania oszustw w systemach uwierzytelniania biometrycznego.