Adnotacja punktu kluczowego ludzkiego ciała
Shaip opatrzył adnotacjami 150 000 klatek danych obrazu i wideo za pomocą 36-punktowego schematu całego ciała, łącząc charakterystyczne punkty twarzy (głowa, oczy, uszy, nos, broda) ze stawami szkieletowymi (ramiona, łokcie, nadgarstki, biodra, kolana, kostki) — w celu zwiększenia wydajności szacowania pozy, analizy ruchu, śledzenia kondycji fizycznej i sztucznej inteligencji związanej z ruchem w służbie zdrowia.
Przegląd projektu
Gdy szacowanie pozycji i ruchy człowieka oparte na sztucznej inteligencji wchodzą w fazę wdrożenia produkcyjnego, klient potrzebował skalowalnej struktury adnotacji umożliwiającej oznaczenie 150 000 klatek danych obrazu i wideo anatomicznie precyzyjnym pokryciem kluczowych punktów całego ciała w różnych warunkach rzeczywistych.
Shaip zbudował kompleksowy proces adnotacji obejmujący rozmieszczanie punktów kluczowych, obsługę pozycji wielokątowych, zarządzanie okluzją i strukturalną kontrolę jakości — obsługujący dostarczanie 36-punktowego schematu ciała i generujący gotowe do użycia w modelu zestawy danych o stałej, codziennej przepustowości.
Status klucza
Ramki z adnotacjami
150,000
Punkty kluczowe / Treść
36
Dzienna przepustowość
Ramki 30
Platforma
CVAT
Wyzwania
- Skalowanie z kontrolowanych przykładowych przepływów pracy do Ramki 150,000 adnotacji całego szkieletu
- Utrzymywanie precyzja anatomiczna w różnych pozach, pod różnymi kątami i przy różnych warunkach oświetleniowych
- Prowadzenie częściowa okluzja i nakładających się tematów bez uszczerbku dla dokładności punktów kluczowych
- Koordynowanie punkt orientacyjny twarzy + szkielet ciała umieszczenie na pojedynczym schemacie 36-punktowym
- Utrzymanie 30 klatek dziennie na adnotatora benchmark przepustowości całego zespołu
Rozwiązanie
Strategia adnotacji
Shaip zaprojektował 36-punktowy schemat ciała, obejmujący pełne ujęcie anatomiczne – punkty orientacyjne twarzy (głowa, oczy, uszy, nos, broda) w połączeniu ze stawami szkieletowymi w obrębie barków, ramion, tułowia, bioder i nóg. Platforma CVAT została skonfigurowana zgodnie z tym schematem i wdrożona w całym zespole, aby zapewnić spójne etykietowanie.
Pozycja i różnorodność
Zbiór danych celowo obejmował zróżnicowane tematy w różnych pozach, kątach widzenia, warunkach oświetleniowych i rodzajach ubrań. Adnotatorzy stosowali się do wytycznych dotyczących konkretnych póz, aby obsługiwać pozycje stojące, siedzące, kucające, leżące i dynamiczne z tym samym poziomem precyzji punktów kluczowych.
Reguły okluzji i przypadków brzegowych
Postępowanie z częściowymi przesłonięciami – punktami kluczowymi ukrytymi za ubraniem, częściami ciała zasłoniętymi przez inne kończyny oraz obiektami częściowo poza kadrem – podlegało ścisłym zasadom. Ukryte punkty orientacyjne oznaczono flagami widoczności, a nie przybliżono, co pozwoliło zachować integralność zbioru danych dla dalszych modeli szacowania pozycji.
Benchmark przepustowości i produktywności
Zespół utrzymywał 30 zatwierdzonych, opatrzonych adnotacjami ramek na osobę adnotującą dziennie przez 8.5-godzinną zmianę. Ten punkt odniesienia został skalibrowany pod kątem docelowych wartości dokładności, aby zapewnić, że przepustowość nie wpłynie negatywnie na jakość.
Przepływ pracy zapewnienia jakości
Każda adnotowana klatka przeszła ustrukturyzowaną kontrolę jakości (QA), obejmującą dokładność rozmieszczenia punktów kluczowych, poprawność flag widoczności oraz spójność ze schematem 36 punktów. Odrzucone klatki zostały zwrócone do korekty wraz z informacją zwrotną na poziomie adnotatora, co pozwoliło na ciągłe doskonalenie.
Zakres projektu
| Typ zbioru danych | objętość | Kluczowe punkty | Platforma | Wydajność | Oś czasu |
|---|---|---|---|---|---|
| Szkielet ciała ludzkiego + adnotacja punktu kluczowego | Ramki 150,000 | 36 na jedną postać ludzką | CVAT | 30 klatek/dzień/adnotator | Wielomiesięczny |
Wyniki
- Założona skalowalna struktura adnotacji 36-punktów kluczowych gotowy na szkolenie produkcyjne w zakresie szacowania pozycji
- znormalizowane umiejscowienie anatomicznych punktów orientacyjnych w obrębie twarzy i szkieletu
- Utrzymany Przepustowość adnotatora 30 klatek dziennie bez kompromisów w zakresie precyzji
- Dostarczono zróżnicowany, wielowarunkowy zestaw danych obejmujące pozy, oświetlenie, kąty i rodzaje ubrań
- Włączono klienta szacowanie pozycji, analiza ruchu, śledzenie sprawności i sztuczna inteligencja w zakresie ruchu w opiece zdrowotnej mapa drogowa
Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymaganie dotyczące adnotacji punktów kluczowych obejmujące 150 000 klatek w ustrukturyzowany proces gotowy do produkcji — taki, który jest w stanie obsługiwać sztuczną inteligencję określającą postawę człowieka, śledzenie sprawności fizycznej, diagnostykę ruchu i aplikacje związane z ruchem w służbie zdrowia z zachowaniem spójnej precyzji i skali.
Shaip dostarczył nasz szkielet adnotacji punktów kluczowych z precyzją, jakiej potrzebowały nasze modele szacowania pozycji. Ich 36-punktowe wykonanie schematu, obsługa okluzji i stała dzienna przepustowość przełożyły się bezpośrednio na lepszą wydajność modelu.
— Dyrektor, Inżynieria widzenia komputerowego