Adnotacja punktu kluczowego ludzkiego ciała

Shaip opatrzył adnotacjami 150 000 klatek danych obrazu i wideo za pomocą 36-punktowego schematu całego ciała, łącząc charakterystyczne punkty twarzy (głowa, oczy, uszy, nos, broda) ze stawami szkieletowymi (ramiona, łokcie, nadgarstki, biodra, kolana, kostki) — w celu zwiększenia wydajności szacowania pozy, analizy ruchu, śledzenia kondycji fizycznej i sztucznej inteligencji związanej z ruchem w służbie zdrowia.

Adnotacja punktu kluczowego ciała człowieka

Przegląd projektu

Gdy szacowanie pozycji i ruchy człowieka oparte na sztucznej inteligencji wchodzą w fazę wdrożenia produkcyjnego, klient potrzebował skalowalnej struktury adnotacji umożliwiającej oznaczenie 150 000 klatek danych obrazu i wideo anatomicznie precyzyjnym pokryciem kluczowych punktów całego ciała w różnych warunkach rzeczywistych.

Shaip zbudował kompleksowy proces adnotacji obejmujący rozmieszczanie punktów kluczowych, obsługę pozycji wielokątowych, zarządzanie okluzją i strukturalną kontrolę jakości — obsługujący dostarczanie 36-punktowego schematu ciała i generujący gotowe do użycia w modelu zestawy danych o stałej, codziennej przepustowości.

Status klucza

Ramki z adnotacjami

150,000

Punkty kluczowe / Treść

36

Dzienna przepustowość

Ramki 30

Platforma

CVAT

Wyzwania

  • Skalowanie z kontrolowanych przykładowych przepływów pracy do Ramki 150,000 adnotacji całego szkieletu
  • Utrzymywanie precyzja anatomiczna w różnych pozach, pod różnymi kątami i przy różnych warunkach oświetleniowych
  • Prowadzenie częściowa okluzja i nakładających się tematów bez uszczerbku dla dokładności punktów kluczowych
  • Koordynowanie punkt orientacyjny twarzy + szkielet ciała umieszczenie na pojedynczym schemacie 36-punktowym
  • Utrzymanie 30 klatek dziennie na adnotatora benchmark przepustowości całego zespołu

Rozwiązanie

Strategia adnotacji

Shaip zaprojektował 36-punktowy schemat ciała, obejmujący pełne ujęcie anatomiczne – punkty orientacyjne twarzy (głowa, oczy, uszy, nos, broda) w połączeniu ze stawami szkieletowymi w obrębie barków, ramion, tułowia, bioder i nóg. Platforma CVAT została skonfigurowana zgodnie z tym schematem i wdrożona w całym zespole, aby zapewnić spójne etykietowanie.

Pozycja i różnorodność

Zbiór danych celowo obejmował zróżnicowane tematy w różnych pozach, kątach widzenia, warunkach oświetleniowych i rodzajach ubrań. Adnotatorzy stosowali się do wytycznych dotyczących konkretnych póz, aby obsługiwać pozycje stojące, siedzące, kucające, leżące i dynamiczne z tym samym poziomem precyzji punktów kluczowych.

Reguły okluzji i przypadków brzegowych

Postępowanie z częściowymi przesłonięciami – punktami kluczowymi ukrytymi za ubraniem, częściami ciała zasłoniętymi przez inne kończyny oraz obiektami częściowo poza kadrem – podlegało ścisłym zasadom. Ukryte punkty orientacyjne oznaczono flagami widoczności, a nie przybliżono, co pozwoliło zachować integralność zbioru danych dla dalszych modeli szacowania pozycji.

Benchmark przepustowości i produktywności

Zespół utrzymywał 30 zatwierdzonych, opatrzonych adnotacjami ramek na osobę adnotującą dziennie przez 8.5-godzinną zmianę. Ten punkt odniesienia został skalibrowany pod kątem docelowych wartości dokładności, aby zapewnić, że przepustowość nie wpłynie negatywnie na jakość.

Przepływ pracy zapewnienia jakości

Każda adnotowana klatka przeszła ustrukturyzowaną kontrolę jakości (QA), obejmującą dokładność rozmieszczenia punktów kluczowych, poprawność flag widoczności oraz spójność ze schematem 36 punktów. Odrzucone klatki zostały zwrócone do korekty wraz z informacją zwrotną na poziomie adnotatora, co pozwoliło na ciągłe doskonalenie.

Zakres projektu

Typ zbioru danych objętość Kluczowe punkty Platforma Wydajność Oś czasu
Szkielet ciała ludzkiego + adnotacja punktu kluczowego Ramki 150,000 36 na jedną postać ludzką CVAT 30 klatek/dzień/adnotator Wielomiesięczny

Wyniki

  • Założona skalowalna struktura adnotacji 36-punktów kluczowych gotowy na szkolenie produkcyjne w zakresie szacowania pozycji
  • znormalizowane umiejscowienie anatomicznych punktów orientacyjnych w obrębie twarzy i szkieletu
  • Utrzymany Przepustowość adnotatora 30 klatek dziennie bez kompromisów w zakresie precyzji
  • Dostarczono zróżnicowany, wielowarunkowy zestaw danych obejmujące pozy, oświetlenie, kąty i rodzaje ubrań
  • Włączono klienta szacowanie pozycji, analiza ruchu, śledzenie sprawności i sztuczna inteligencja w zakresie ruchu w opiece zdrowotnej mapa drogowa

Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymaganie dotyczące adnotacji punktów kluczowych obejmujące 150 000 klatek w ustrukturyzowany proces gotowy do produkcji — taki, który jest w stanie obsługiwać sztuczną inteligencję określającą postawę człowieka, śledzenie sprawności fizycznej, diagnostykę ruchu i aplikacje związane z ruchem w służbie zdrowia z zachowaniem spójnej precyzji i skali.

Ikona cytatu

Shaip dostarczył nasz szkielet adnotacji punktów kluczowych z precyzją, jakiej potrzebowały nasze modele szacowania pozycji. Ich 36-punktowe wykonanie schematu, obsługa okluzji i stała dzienna przepustowość przełożyły się bezpośrednio na lepszą wydajność modelu.

— Dyrektor, Inżynieria widzenia komputerowego

★ ★ ★ ★ ★
Ikona cytatu