Budowanie zbioru danych o obrazach twarzy spoza UE/Wielkiej Brytanii z uwzględnieniem zróżnicowania w postępie wiekowym

Korpus obrazów twarzy rozdzielonych w czasie, obejmujący 1,205 uczestników, ma na celu wzmocnienie rzetelności i solidności modeli przetwarzania obrazu.

Zbiór danych obrazu twarzy z uwzględnieniem zróżnicowania w postępie wiekowym

Przegląd projektu

Globalna firma technologiczna zajmująca się tworzeniem sztucznej inteligencji zorientowanej na twarz w celu zapewnienia bezpieczeństwa, personalizacji i doświadczeń związanych z tożsamością, poszukiwała zbioru danych spoza UE/Wielkiej Brytanii zawierającego zdjęcia wykonane w odstępach czasowych, aby ograniczyć stronniczość i poprawić odporność modelu na zmiany wieku, środowiska i akcesoriów.

Klient nawiązał współpracę z Shaipem, aby zbierać, selekcjonować i weryfikować obszerny korpus zdjęć twarzy, w którym każdy uczestnik dostarczał aktualne i starsze zdjęcia. Celem było zakodowanie naturalnego postępu wieku, przy jednoczesnym egzekwowaniu ścisłego pochodzenia spoza UE/Wielkiej Brytanii oraz osiągnięciu zrównoważonych parytetów płci i wieku.

Zbiór danych obrazu twarzy z uwzględnieniem zróżnicowania w postępie wiekowym

Kluczowe statystyki

Zarejestrowanych

 1,205 (tylko spoza UE/Wielka Brytania, 50/50 płci ±10–15%)

 Mieszanka wiekowa

 40% (10–29), 40% (30–49), 20% (50+) ±10–15% tolerancji

Pokrycie

Azja Południowa/Południowo-Wschodnia, Afryka Północna i Północno-Wschodnia, Singapur, Ameryka Południowa

Oś czasu

Tydzień 19

Wyzwania

Ograniczenie geograficzne

Pozyskiwanie wyłącznie od populacji spoza UE/Wielkiej Brytanii, przy jednoczesnym unikaniu zdjęć przedstawiających podróże z UE/Wielkiej Brytanii.

Zrównoważone kwoty na dużą skalę

W badaniu wzięło udział 1,205 osób, przy zachowaniu ścisłych tolerancji co do płci i wieku.

Dowody rozdzielone w czasie

Zadbaliśmy o to, aby w każdym dokumencie tożsamości znajdowały się zarówno aktualne, jak i archiwalne zdjęcia, dostosowane do przedziałów wiekowych.

Jakość operacyjna

Egzekwowanie minimalnych ograniczeń dotyczących rozmiaru obrazu/twarzy, różnorodności i powielania bez spowalniania przepustowości.

Rozwiązanie

1. Panele krajowe i kontrola pochodzenia

Założyliśmy strąki zaopatrzeniowe na poziomie kraju w regionach docelowych i przeszkolonych partnerów w zakresie zasady pochodzenia (Tylko poza UE/Wielką Brytanią). Zdjęcia zostały sprawdzone pod kątem ryzyka związanego z miejscem podróży przy użyciu wskazówki metadanych (rok, znaczniki lokalizacji) oraz poświadczenia nadawcy, co zmniejsza wyciek danych z UE/Wielkiej Brytanii przed kontrolą jakości. Odzwierciedla to sprawdzoną praktykę firmy Shaip polegającą na wcześniejszym przeprowadzaniu kontroli ryzyka w celu ochrony przepustowości w dół łańcucha dostaw.

2. Projekt rejestrujący postęp wieku

Zamiast „poprosić o 20 obrazów” zaprojektowaliśmy dwutorowy przepływ zgłoszeń który poprowadził uczestników do:

  • Ścieżka A (najnowsza): zdjęcia z ostatnich dwóch lat;
  • Tor B (historyczny): starsze zdjęcia dostosowane do wieku uczestnika w momencie przesyłania (np. przedział 2–10/15/20 lat).

Portal zachęcał użytkowników przykładami (wewnątrz/na zewnątrz, kąty, akcesoria), aby zwiększyć różnorodność bez zbędnych szczegółów.

3. Orkiestracja różnorodności i zabezpieczenia kwot

A panel kwot w czasie rzeczywistym monitorowane zapisy przez płeć, przedział wiekowy i geografia, wstrzymując nabór, gdy warstwa osiągnęła zaplanowane limity. Zapobiegało to późniejszym przeróbkom cyklu i odzwierciedla standardowe podejście Shaipa stratyfikacja zapisów + blokady stosowane we wcześniejszych zestawach danych biometrycznych w celu zachowania zrównoważonej reprezentacji.

4. Jakość procesu (człowiek w pętli + automatyczne kontrole wstępne)

  • Bramy automatyczne: wykrywanie twarzy + progi minimalnego rozmiaru, podstawowe sprawdzanie rozmycia/szumów i klasteryzacja tego samego dnia w celu wczesnego oznaczania potencjalnych duplikatów.
  • Poziomy zapewnienia jakości przez człowieka: recenzenci na poziomie obrazu zweryfikowani wyłączność podmiotowa (tylko główny uczestnik), różnorodność scen/kątów, bez filtrów upiększającychAudytorzy CQA sprawdzają partie przed ich akceptacją. wielowarstwowe zapewnianie jakości odzwierciedla opublikowane przez Shaipa programy dotyczące danych biometrycznych.

5. Zgodność i zgoda

Rekrutacja ≥20 lat z podpisaną zgodą; mniej niż 20 przypadków akceptowanych wyłącznie za zgodą opiekuna. Uchwyciliśmy obecność zgody w metadanych i dostosowaliśmy listy kontrolne recenzentów do kwalifikowalność + zgoda pola, zapewniając możliwość audytu.

6. Metadane i możliwość śledzenia

Dostarczyliśmy metadane na poziomie uczestnika i obrazu (powiązania identyfikacyjne, dane demograficzne, obywatelstwo/miejsce zamieszkania, rok wykonania zdjęcia, data przesłania itp.) oraz ujednolicone nazwy pól w celu uproszczenia etykietowanie i ocena w dół rzeki. Jest to zgodne z najlepszą praktyką Shaipa bogate tagowanie metadanych dla zbiorów danych biometrycznych.

7. Etapowe dostarczanie w celu zmniejszenia ryzyka

An 8-partiowy plan zaczął od Kalibracja 10 uczestników zestaw, a następnie kontrolowane skalowanie. Opinie klientów po pierwszej partii wpłynęły na zmiany w rubryce, a następnie wolumeny zwiększano w przewidywalnych transzach, aby osiągnąć uczestnicy 1,205 za ~19 tygodni.

Zakres projektu

Wymiary Co dostarczyliśmy
Populacja 1,205 uczestników spoza UE/Wielkiej Brytanii, z zachowaniem równowagi płci i wieku.
Treść ≥20 zdjęć na uczestnika: niedawne + historyczne w celu uchwycenia postępu wieku; zróżnicowane sceny, kąty i akcesoria.
Operacje jakości Zautomatyzowane wstępne kontrole + wielowarstwowa kontrola jakości wykonywana przez człowieka (kontrola duplikatów, wyłączność podmiotu, odrzucanie przez filtr).
Zgodność Weryfikacja pochodzenia spoza UE/Wielkiej Brytanii, zarządzanie zgodą i walidacja kwalifikowalności.
Metadane Atrybuty uczestnika + obrazu na potrzeby śledzenia i dalszej oceny uczenia maszynowego.
Dostawa 8 podzielonych na fazy partii, rozpoczynających się kalibracją, a następnie dostawą w stanie ustalonym do celu końcowego.

Wynik

  • Zrównoważony, gotowy do audytu korpus: Kwoty demograficzne zostały osiągnięte w granicach tolerancji; pochodzenie spoza UE/Wielkiej Brytanii jest egzekwowane na wszystkich obrazach w celu zapewnienia zgodności ze standardami szkolenia.
  • Zmienność gotowości modelu: Oddzielone w czasie obrazy, różne środowiska/kąty i pokrycie akcesoriów wspomagają testowanie wytrzymałości i analizę stronniczości.
  • Przewidywalność operacyjna: Pierwsze wdrożenie kalibracji + zabezpieczenia kwotowe ograniczyły konieczność przeróbek i zabezpieczyły harmonogram do osiągnięcia docelowego poziomu 1,205 uczestników.
  • Efektywność w dół rzeki: Bogate metadane i spójna higiena plików skróciły drogę do adnotacji i tworzenia testów porównawczych, zgodnie z podręcznikami Shaipa dotyczącymi zestawów danych biometrycznych.

Shaip przekształcił złożony zbiór danych dotyczących twarzy spoza UE/Wielkiej Brytanii w zrównoważony korpus gotowy do audytu. Ich projekt progresji wiekowej i wielopoziomowa kontrola jakości zapewniły naszemu zespołowi CV czyste, zróżnicowane dane, którym mogliśmy zaufać – bez ryzyka związanego z harmonogramem.

Złota pięciogwiazdkowa