Studium przypadku dotyczące modelu rozpoznawania twarzy

Zestaw danych wideo anty-spoofingowych dla modeli AI do wykrywania oszustw

Dowiedz się, w jaki sposób Shaip dostarczył 25,000 XNUMX wysokiej jakości zestawów danych wideo chroniących przed podszywaniem się, obejmujących rzeczywiste i odtworzone scenariusze ataków, aby szkolić modele AI pod kątem wykrywania oszustw.

Zbieranie danych wideo zapobiegające podszywaniu się

Przegląd projektu

Shaip nawiązał współpracę z wiodącą firmą zajmującą się bezpieczeństwem AI, aby dostarczyć wysokiej jakości, gotowy zestaw danych wideo do ochrony przed podszywaniem się, zaprojektowany w celu ulepszenia szkolenia modeli AI w celu wykrywania oszustw. Zestaw danych obejmował 25,000 XNUMX filmów rejestrujących zarówno rzeczywiste, jak i odtwarzane scenariusze ataków, zapewniając solidne dane szkoleniowe dla modeli ochrony przed podszywaniem się.

Każdy z uczestnicy 12,500 udostępnił dwa filmy – jeden prawdziwy i jeden z powtórki ataku – nagrane w Rozdzielczość 720p lub wyższa z liczbą klatek na sekundę 26 FPS i więcej.

Celem projektu było dostarczenie autentyczne i różnorodne zestawy danych umożliwiłoby to modelom sztucznej inteligencji skuteczne odróżnianie prawdziwych nagrań biometrycznych od sfałszowanych, zmniejszając w ten sposób ryzyko oszustw w systemach uwierzytelniania biometrycznego.

Zbieranie danych wideo zapobiegające podszywaniu się

Kluczowe statystyki

25,000 łącznie filmów (12,500 prawdziwe filmy, 12,500 odtworzyć filmy z ataków)

12,500 wyjątkowy
Uczestnicy

5 grup etnicznych
reprezentowane w zestawie danych

Dostawa etapowa: 4 partie 6,250 filmów każdy

Atrybuty metadanych: 12 kluczowe parametry zwiększające użyteczność zbioru danych

Zakres zestawu danych biometrycznych chroniący przed podszywaniem się

Kuratorowanie zbiorów danych: Projekt skupiał się na dostarczaniu wysokiej jakości zestawów danych wideo chroniących przed podszywaniem się, składających się z: prawdziwe i powtórkowe filmy z ataków. Kluczowe aspekty obejmowały:

  • uczestnicy 12,500 przyczyniając po dwa filmy każdy (1 prawdziwy, 1 sfałszowany).
  • Różnorodność urządzeń rejestrujących aby zwiększyć adaptowalność modelu.
  • Zrównoważona reprezentacja etniczna aby zapewnić inkluzywność zbioru danych.

Zbiór metadanych: Do każdego filmu dołączono: 12 atrybutów metadanych w celu zwiększenia użyteczności zbioru danych.

Wyzwania związane ze zbieraniem danych wideo

Równa reprezentacja

Zachowanie zrównoważonego podziału danych pod względem pochodzenia etnicznego przy jednoczesnym pozyskiwaniu wysokiej jakości filmów.

Kontrola jakości

Zadbanie o to, aby każdy uczestnik dostarczył jeden prawdziwy i jeden odtworzony film ataku, aby zachować integralność zbioru danych.

Spójność techniczna

Przestrzeganie ścisłych wytycznych dotyczących liczby klatek na sekundę (≥ 26), rozdzielczości (≥ 720p) i dokładności znacznika czasu (+/- 0.5 ms).

Jak to rozwiązaliśmy

Shaip dostarczył uporządkowany i wysokiej jakości zestaw danych, aby spełnić wymagania projektu. Rozwiązanie obejmowało:

Kuratorowanie zbiorów danych i kontrola jakości

  • Filmy 25,000 zebrano w Fazy ​​4 aby zapewnić stały i ustrukturyzowany przepływ danych, unikając wąskich gardeł.
  • Rygorystyczny proces walidacji aby zapewnić zgodność z Dokładność FPS, rozdzielczości i metadanychKażdy film przeszedł wielokrotne kontrole jakości przed ostateczną akceptacją.
  • Kompleksowe tagowanie metadanych w 12 atrybuty:
  • Identyfikator/nazwa pliku
  • Typ ataku (rzeczywisty/powtórkowy)
  • Identyfikator osoby
  • Rozdzielczość wideo
  • Czas trwania wideo
  • Pochodzenie etniczne podmiotu
  • Płeć podmiotu
  • Czy film jest oryginalny czy podrobiony
  • Nazwa/model urządzenia
  • Osoba mówiąca czy nie
  • Znak czasu Czas rozpoczęcia
  • Znak czasu Koniec czasu
  • Zrównoważony rozkład grup etnicznych: Zestaw danych został starannie wyselekcjonowany, aby zachować zrównoważoną reprezentację etniczną. Dystrybucja obejmuje populację hiszpańską (33%), południowoazjatycką (21%), kaukaską (20%), afrykańską (15%) oraz wschodnioazjatycką i bliskowschodnią (każda obejmująca do 6%).
  • Żadnych duplikatów wpisów aby zachować unikalność zbioru danych i zapobiec stronniczości w szkoleniu sztucznej inteligencji.
  • Wybór uczestników o zróżnicowanym pochodzeniu etnicznym aby stworzyć zbiór danych odzwierciedlający rzeczywiste różnice w zachowaniach użytkowników, zwiększając tym samym adaptacyjność i uczciwość modelu sztucznej inteligencji.
  • Wariacja urządzenia rejestrującego uwzględniono wiele modeli smartfonów, aparatów i warunków oświetleniowych, aby zwiększyć odporność modelu na różne warunki środowiskowe.

Wynik

Wysokiej jakości, zróżnicowany zestaw danych wideo antyspoofingowych dostarczony przez Shaip umożliwił klientowi trenowanie modeli AI, aby dokładnie odróżniały prawdziwe i sfałszowane filmy w różnych scenariuszach uwierzytelniania biometrycznego. Zestaw danych przyczynił się do:

Wykrywanie oszustw

Lepsza wydajność sztucznej inteligencji w wykrywaniu oszukańczych ataków biometrycznych.

Zróżnicowane dane szkoleniowe

Wzmocniono zdolność modelu do rozpoznawania ataków metodą powtórzenia obejmujących różne grupy etniczne, urządzenia i warunki środowiskowe.

Skalowalność

Zbiór danych stanowi podstawę do przyszłych udoskonaleń i rozszerzeń modelu zabezpieczającego przed podszywaniem się.

Zestaw danych Shaipa odegrał kluczową rolę w udoskonaleniu naszych modeli antyspoofingowych opartych na sztucznej inteligencji. Różnorodność, jakość i ustrukturyzowane metadane zapewniły solidną podstawę do poprawy wykrywania oszustw w systemach uwierzytelniania biometrycznego.

Złota pięciogwiazdkowa