Skalowanie fizycznej sztucznej inteligencji i robotyki humanoidalnej dzięki 10 tys. godzinom danych dotyczących ruchu symulowanego i rzeczywistego
W jaki sposób Shaip dostarczył 10 000 godzin egocentrycznych danych przechwytywania ruchu VR 4,000 uczestnikom, 100 zadaniom i ponad 5 rzeczywistym środowiskom — stworzonych jako produkcyjny strumień danych szkoleniowych fizycznej sztucznej inteligencji dla humanoidalnych robotów przechodzących od symulacji do rzeczywistości.
Przegląd projektu
Wraz z wdrażaniem sztucznej inteligencji fizycznej i robotyki humanoidalnej w świecie rzeczywistym klient potrzebował skalowalnej struktury umożliwiającej zbieranie 10 000 godzin danych dotyczących ruchu VR opartego na zadaniach w różnych środowiskach, z zachowaniem spójnej kalibracji, realizacji i kontroli jakości.
Shaip zbudował kompleksowy proces operacji na danych obejmujący konfigurację sceny, mapowanie kodów QR, śledzenie pięciu czujników, próby uczestników, moderowane przechwytywanie i przepływy pracy przeglądu w celu obsługi 100 zdefiniowanych przez klienta zadań i dostarczania gotowych do użycia w modelu zestawów danych sztucznej inteligencji na dużą skalę.
Kluczowe statystyki
Zarejestrowanych
~ 4,000
Objętość danych
10 000 ważnych godzin
Zasięg środowiska
Biuro, dom, fabryka, kawiarnia, magazyn itp.
Oś czasu
1 Miesiąc
Wyzwania
- Skalowanie gromadzenia danych o ruchu z kontrolowanych przepływów pracy w stylu pilotażowym do 10 000 godzin, wielośrodowiskowy program.
- Utrzymywanie stała dokładność śledzenia w różnych rzeczywistych scenach i konfiguracjach uczestników.
- Zapewnienie, że każda sesja spełnia rygorystyczne wymagania Kontrola wersji/APK, konfiguracja współdzielonej sieci, nagrywanie ekranu i parowanie czujników.
- Zarządzający 100 zadań zdefiniowanych przez klienta w kategoriach takich jak poruszanie się, manipulowanie obiektami, interakcje domowe, interakcje biurowe i wieloetapowe fizyczne przepływy pracy — każdy z nich wymagał prawidłowej konfiguracji sceny, rozmieszczenia obiektów, gotowości uczestników i walidacji prowadzonej przez moderatora.
- Konwersja surowych sesji na wyjścia gotowe do modelu poprzez powtarzalne procesy kontroli jakości, obsługi ponownych prób i przesyłania materiałów do przeglądu.
Rozwiązanie
Strategia zbierania
Shaip zaprojektował skalowalną strukturę gromadzenia danych dla 10 000 ważnych godzin danych ruchu VR, dostarczanych w partiach opartych na kamieniach milowych. Na podstawie współczynnika planowania źródeł 3–5 uczestników na 10 ważnych godzin, pełny program skaluje się do szacowanego 3,000–5,000 uczestnikówZ ~4,000 uczestników używany jako punkt środkowy planowania.
Zarządzanie środowiskiem i sceną
Każda lokalizacja nagrania była traktowana jako ustrukturyzowana scena. Shaip dokumentował otoczenie za pomocą szerokokątnych zdjęć pomieszczenia, konfigurował sceny w systemie administracyjnym, koordynował ocenę klientów i eksportował pliki PDF scen do fizycznego rozmieszczenia. Mapowanie scen z wykorzystaniem kodów QR zapewniło niezawodne powiązanie każdego rzeczywistego środowiska z odpowiednim kontekstem nagrania.
Gotowość urządzeń i aplikacji
Shaip ujednolicił gotowość techniczną, zapewniając połączenie zestawu VR i urządzenia monitorującego z tą samą siecią, kontrolując proces instalacji i aktualizacji APK oraz umożliwiając moderatorowi nagrywanie ekranu za pomocą przeglądarki, aby był on widoczny przez całą sesję.
Śledzenie ruchu i kalibracja
Przed każdą sesją sparowano i zweryfikowano wszystkie pięć trackerów ruchu. Kalibracja była obowiązkowa dla każdego uczestnika, obejmująca sprawdzenie ustawienia awatara, regulację podłogi i niestandardowe ustawienie granic, aby zapewnić dokładne rejestrowanie ruchu całego ciała w rejestrowanej przestrzeni aktywności.
Wykonywanie i moderacja zadań
Uczestnicy zostali poprowadzeni przez proces przygotowania do konkretnych zadań i prób przed nagraniem. Moderatorzy obserwowali nagranie za pomocą screencastu, weryfikowali dokładność wykonania zadania i klarowność ruchu, a następnie przeszli do nagrywania na żywo dopiero wtedy, gdy zachowanie czujników i ruchy uczestników spełniły oczekiwania jakościowe. Rozpoczęcie i zatrzymanie nagrania odbywało się za pomocą zdefiniowanego schematu gestów.
Zapewnienie jakości i gotowe do użycia modele wyników
Po nagraniu sesje zostały przesłane do historii w celu weryfikacji. Shaip sprawdził klarowność ruchu, poprawność zadań, wyrównanie sceny i dokładność czujników, anulując lub ponownie rejestrując bezużyteczne nagrania w razie potrzeby. Stworzyło to bardziej niezawodną ścieżkę do gotowych do adnotacji, zweryfikowanych przez QA i gotowych do modelowania zestawów danych do szkoleń z zakresu sztucznej inteligencji i robotyki.
Zakres projektu
| Typ zbioru danych | Zarejestrowanych | Głośność nagrywania | Środowiska | Objętość zadań | Konfiguracja przechwytywania | Oś czasu |
|---|---|---|---|---|---|---|
| Egocentryczny przechwytywanie ruchu VR | ~ 4,000 | 10 000 ważnych godzin | Biuro, dom, kawiarnia, fabryka, magazyn i inne środowiska świata rzeczywistego | 100 zadań zdefiniowanych przez klienta | Zestaw słuchawkowy VR + 5 trackerów ruchu | 1 Miesiąc |
Wynik
- Utworzono skalowalną strukturę operacji danych dla 10 000 godzin danych dotyczących treningu fizycznej sztucznej inteligencji
- znormalizowane zarządzanie sceną, mapowanie oparte na kodach QR i kalibracja pięciu czujników w środowiskach rozproszonych
- Poprawiona spójność kolekcji dzięki moderowana próba, przegląd screencastów w czasie rzeczywistym i kontrola jakości na poziomie sesji
- Użytkownicy aplikacji Smart Spaces z Google Wallet mogą korzystać z bezdotykowego dostępu mobilnego z każdym czytnikiem HID® Signo™ z NFC. wyniki sprawdzone pod kątem zadań i gotowe do adnotacji do dalszego rozwoju ucieleśnionej sztucznej inteligencji, symulacji i modeli robotyki
- Wzmocniono klienta kanał danych symulacyjnych do rzeczywistych z wysokiej jakości egocentrycznym przechwytywaniem ruchu
z różnych środowisk świata rzeczywistego
Ogólnie rzecz biorąc, Shaip pomógł przekształcić złożone wymagania dotyczące przechwytywania VR w ustrukturyzowany, gotowy do produkcji kanał danych — taki, który jest w stanie obsłużyć Sztuczna inteligencja fizyczna, inteligencja ucieleśniona i robotyka humanoidalna inicjatywy charakteryzujące się większą spójnością, możliwością śledzenia i skalą.
Shaip pomógł nam zbudować szkielet operacji danych dla naszej mapy drogowej Physical AI. Ich zespół wprowadził strukturę do wielośrodowiskowego przechwytywania ruchu, zarządzania uczestnikami, konfiguracji scen, kalibracji i kontroli jakości – umożliwiając nam generowanie gotowych do użycia w modelach zestawów danych, które wspierają uczenie się symulacji w rzeczywistości dla ucieleśnionej sztucznej inteligencji i robotyki humanoidalnej.
– Wiceprezes ds. infrastruktury danych i symulacji