Budowanie zbioru danych o obrazach twarzy spoza UE/Wielkiej Brytanii z uwzględnieniem zróżnicowania w postępie wiekowym
Korpus obrazów twarzy rozdzielonych w czasie, obejmujący 1,205 uczestników, ma na celu wzmocnienie rzetelności i solidności modeli przetwarzania obrazu.
Przegląd projektu
Globalna firma technologiczna zajmująca się tworzeniem sztucznej inteligencji zorientowanej na twarz w celu zapewnienia bezpieczeństwa, personalizacji i doświadczeń związanych z tożsamością, poszukiwała zbioru danych spoza UE/Wielkiej Brytanii zawierającego zdjęcia wykonane w odstępach czasowych, aby ograniczyć stronniczość i poprawić odporność modelu na zmiany wieku, środowiska i akcesoriów.
Klient nawiązał współpracę z Shaipem, aby zbierać, selekcjonować i weryfikować obszerny korpus zdjęć twarzy, w którym każdy uczestnik dostarczał aktualne i starsze zdjęcia. Celem było zakodowanie naturalnego postępu wieku, przy jednoczesnym egzekwowaniu ścisłego pochodzenia spoza UE/Wielkiej Brytanii oraz osiągnięciu zrównoważonych parytetów płci i wieku.
Kluczowe statystyki
Zarejestrowanych
1,205 (tylko spoza UE/Wielka Brytania, 50/50 płci ±10–15%)
Mieszanka wiekowa
40% (10–29), 40% (30–49), 20% (50+) ±10–15% tolerancji
Pokrycie
Azja Południowa/Południowo-Wschodnia, Afryka Północna i Północno-Wschodnia, Singapur, Ameryka Południowa
Oś czasu
Tydzień 19
Wyzwania
Ograniczenie geograficzne
Pozyskiwanie wyłącznie od populacji spoza UE/Wielkiej Brytanii, przy jednoczesnym unikaniu zdjęć przedstawiających podróże z UE/Wielkiej Brytanii.
Zrównoważone kwoty na dużą skalę
W badaniu wzięło udział 1,205 osób, przy zachowaniu ścisłych tolerancji co do płci i wieku.
Dowody rozdzielone w czasie
Zadbaliśmy o to, aby w każdym dokumencie tożsamości znajdowały się zarówno aktualne, jak i archiwalne zdjęcia, dostosowane do przedziałów wiekowych.
Jakość operacyjna
Egzekwowanie minimalnych ograniczeń dotyczących rozmiaru obrazu/twarzy, różnorodności i powielania bez spowalniania przepustowości.
Rozwiązanie
1. Panele krajowe i kontrola pochodzenia
Założyliśmy strąki zaopatrzeniowe na poziomie kraju w regionach docelowych i przeszkolonych partnerów w zakresie zasady pochodzenia (Tylko poza UE/Wielką Brytanią). Zdjęcia zostały sprawdzone pod kątem ryzyka związanego z miejscem podróży przy użyciu wskazówki metadanych (rok, znaczniki lokalizacji) oraz poświadczenia nadawcy, co zmniejsza wyciek danych z UE/Wielkiej Brytanii przed kontrolą jakości. Odzwierciedla to sprawdzoną praktykę firmy Shaip polegającą na wcześniejszym przeprowadzaniu kontroli ryzyka w celu ochrony przepustowości w dół łańcucha dostaw.
2. Projekt rejestrujący postęp wieku
Zamiast „poprosić o 20 obrazów” zaprojektowaliśmy dwutorowy przepływ zgłoszeń który poprowadził uczestników do:
- Ścieżka A (najnowsza): zdjęcia z ostatnich dwóch lat;
- Tor B (historyczny): starsze zdjęcia dostosowane do wieku uczestnika w momencie przesyłania (np. przedział 2–10/15/20 lat).
Portal zachęcał użytkowników przykładami (wewnątrz/na zewnątrz, kąty, akcesoria), aby zwiększyć różnorodność bez zbędnych szczegółów.
3. Orkiestracja różnorodności i zabezpieczenia kwot
A panel kwot w czasie rzeczywistym monitorowane zapisy przez płeć, przedział wiekowy i geografia, wstrzymując nabór, gdy warstwa osiągnęła zaplanowane limity. Zapobiegało to późniejszym przeróbkom cyklu i odzwierciedla standardowe podejście Shaipa stratyfikacja zapisów + blokady stosowane we wcześniejszych zestawach danych biometrycznych w celu zachowania zrównoważonej reprezentacji.
4. Jakość procesu (człowiek w pętli + automatyczne kontrole wstępne)
- Bramy automatyczne: wykrywanie twarzy + progi minimalnego rozmiaru, podstawowe sprawdzanie rozmycia/szumów i klasteryzacja tego samego dnia w celu wczesnego oznaczania potencjalnych duplikatów.
- Poziomy zapewnienia jakości przez człowieka: recenzenci na poziomie obrazu zweryfikowani wyłączność podmiotowa (tylko główny uczestnik), różnorodność scen/kątów, bez filtrów upiększającychAudytorzy CQA sprawdzają partie przed ich akceptacją. wielowarstwowe zapewnianie jakości odzwierciedla opublikowane przez Shaipa programy dotyczące danych biometrycznych.
5. Zgodność i zgoda
Rekrutacja ≥20 lat z podpisaną zgodą; mniej niż 20 przypadków akceptowanych wyłącznie za zgodą opiekuna. Uchwyciliśmy obecność zgody w metadanych i dostosowaliśmy listy kontrolne recenzentów do kwalifikowalność + zgoda pola, zapewniając możliwość audytu.
6. Metadane i możliwość śledzenia
Dostarczyliśmy metadane na poziomie uczestnika i obrazu (powiązania identyfikacyjne, dane demograficzne, obywatelstwo/miejsce zamieszkania, rok wykonania zdjęcia, data przesłania itp.) oraz ujednolicone nazwy pól w celu uproszczenia etykietowanie i ocena w dół rzeki. Jest to zgodne z najlepszą praktyką Shaipa bogate tagowanie metadanych dla zbiorów danych biometrycznych.
7. Etapowe dostarczanie w celu zmniejszenia ryzyka
An 8-partiowy plan zaczął od Kalibracja 10 uczestników zestaw, a następnie kontrolowane skalowanie. Opinie klientów po pierwszej partii wpłynęły na zmiany w rubryce, a następnie wolumeny zwiększano w przewidywalnych transzach, aby osiągnąć uczestnicy 1,205 za ~19 tygodni.
Zakres projektu
| Wymiary | Co dostarczyliśmy |
|---|---|
| Populacja | 1,205 uczestników spoza UE/Wielkiej Brytanii, z zachowaniem równowagi płci i wieku. |
| Treść | ≥20 zdjęć na uczestnika: niedawne + historyczne w celu uchwycenia postępu wieku; zróżnicowane sceny, kąty i akcesoria. |
| Operacje jakości | Zautomatyzowane wstępne kontrole + wielowarstwowa kontrola jakości wykonywana przez człowieka (kontrola duplikatów, wyłączność podmiotu, odrzucanie przez filtr). |
| Zgodność | Weryfikacja pochodzenia spoza UE/Wielkiej Brytanii, zarządzanie zgodą i walidacja kwalifikowalności. |
| Metadane | Atrybuty uczestnika + obrazu na potrzeby śledzenia i dalszej oceny uczenia maszynowego. |
| Dostawa | 8 podzielonych na fazy partii, rozpoczynających się kalibracją, a następnie dostawą w stanie ustalonym do celu końcowego. |
Wynik
- Zrównoważony, gotowy do audytu korpus: Kwoty demograficzne zostały osiągnięte w granicach tolerancji; pochodzenie spoza UE/Wielkiej Brytanii jest egzekwowane na wszystkich obrazach w celu zapewnienia zgodności ze standardami szkolenia.
- Zmienność gotowości modelu: Oddzielone w czasie obrazy, różne środowiska/kąty i pokrycie akcesoriów wspomagają testowanie wytrzymałości i analizę stronniczości.
- Przewidywalność operacyjna: Pierwsze wdrożenie kalibracji + zabezpieczenia kwotowe ograniczyły konieczność przeróbek i zabezpieczyły harmonogram do osiągnięcia docelowego poziomu 1,205 uczestników.
- Efektywność w dół rzeki: Bogate metadane i spójna higiena plików skróciły drogę do adnotacji i tworzenia testów porównawczych, zgodnie z podręcznikami Shaipa dotyczącymi zestawów danych biometrycznych.
Shaip przekształcił złożony zbiór danych dotyczących twarzy spoza UE/Wielkiej Brytanii w zrównoważony korpus gotowy do audytu. Ich projekt progresji wiekowej i wielopoziomowa kontrola jakości zapewniły naszemu zespołowi CV czyste, zróżnicowane dane, którym mogliśmy zaufać – bez ryzyka związanego z harmonogramem.