Adnotacja obiektów sceny wewnętrznej dla robotyki usługowej i sztucznej inteligencji wcielonej — studium przypadku
W jaki sposób Shaip dostarczył kompleksową adnotację do scen wewnątrz pomieszczeń dla czołowej firmy zajmującej się innowacjami w dziedzinie robotyki — wykrywając i oznaczając każdy obiekt w pomieszczeniach za pomocą tagowania relacji przestrzennych — stworzoną jako zbiór danych klasy produkcyjnej na potrzeby sztucznej inteligencji percepcji i nawigacji robotów w domach, biurach, magazynach i placówkach opieki zdrowotnej.
Przegląd projektu
Wraz z wdrażaniem robotyki w realnym świecie, w domach, biurach, magazynach i szpitalach, klient potrzebował kompleksowego systemu adnotacji, który byłby w stanie oznaczyć każdy widoczny obiekt w gęsto zapełnionych scenach wewnątrz pomieszczeń — z bogactwem atrybutów wystarczającym do realizacji zadań związanych z interakcją robotów.
Shaip zbudował kompleksowy proces adnotacji obejmujący segmentację prostokątów ograniczających i wielokątów, gęste uwzględnianie obiektów, tagowanie relacji przestrzennych i obsługę powierzchni odbijających — generując gotowe do użycia zestawy danych na potrzeby percepcji robotów, nawigacji i interakcji człowieka ze środowiskiem.
Kluczowe statystyki
Obiekty / Obraz
100s
Kategorie
Gęsty
Metody
Pole + Wielokąt
Warstwy atrybutów
4
Wyzwania
- Adnotacje każdy widoczny obiekt w gęsto zagraconych obrazach pomieszczeń — setki na klatkę
- Wybór właściwej metody — segmentacja pola ograniczającego a segmentacja wielokąta — na podstawie złożoności obiektu
- Włącznie z małe przedmioty takie jak przełączniki, wtyczki i elementy dekoracyjne, które są niezbędne do interakcji robota
- Prowadzenie powierzchnie odblaskowe (lustra, szklane stoły) bez adnotacji typu ghost
- Tagging relacje przestrzenne i stany obiektów dla robotycznej sztucznej inteligencji uwzględniającej kontekst
Rozwiązanie
Kompleksowe włączanie obiektów
Każdy widoczny obiekt na obrazie każdego pokoju został indywidualnie opisany w szerokiej gamie kategorii — meble (krzesła, stoły, sofy, łóżka, półki), sprzęt AGD (telewizory, lodówki, kuchenki mikrofalowe, lampy), przedmioty osobiste (torby, książki, butelki, ubrania), elementy konstrukcyjne (drzwi, okna, ściany, podłogi) i małe przedmioty (piloty, kubki, talerze, klawiatury, przełączniki, wtyczki).
Wybór metody na obiekt
Obiekty zostały precyzyjnie oznaczone za pomocą prostokątów ograniczających lub segmentacji wielokątnej, w zależności od kształtu i złożoności obiektu. Prostokąty zastosowano do regularnych obiektów prostokątnych; wielokąty uchwyciły kształty organiczne i ściśle upakowane obiekty, w których prostokąty nadmiernie się nakładały. Ta metoda selekcji dla każdego obiektu zapewniła wyraźne granice nawet w zaśmieconych scenach.
Tagowanie relacji przestrzennych
Każdy obiekt z adnotacjami został wzbogacony o atrybuty obejmujące stan obiektu (otwarty lub zamknięty w przypadku drzwi i szuflad), znaczniki relacji przestrzennych wskazujące bliskość i położenie względem innych obiektów, status okluzji oraz stan obiektu. Ta warstwa inteligencji przestrzennej umożliwia systemom sztucznej inteligencji robotycznej zrozumienie kontekstu, a nie tylko wykrywanie obiektów.
Małe obiekty i interakcja – zasięg krytyczny
Adnotatorzy przestrzegali ścisłych zasad dotyczących dołączania, aby oznaczyć każdy widoczny obiekt, niezależnie od rozmiaru – w tym małe elementy, takie jak przełączniki, wtyczki i elementy dekoracyjne, które są kluczowe dla interakcji robota z innymi elementami. Elementy te często decydują o tym, czy robot może wykonać swoje zadanie, więc nie można było ich deprecjonować.
Obsługa powierzchni odblaskowych
Powierzchnie odbijające światło, takie jak lustra i szklane stoły, wymagały specjalnego traktowania, aby uniknąć powielania lub tworzenia niejasnych adnotacji. Szczegółowe wytyczne regulowały, czy odbite obiekty miały być oznaczane oddzielnie, ignorowane, czy oznaczane flagą – dzięki czemu modele niższego rzędu nie uczyły się na podstawie etykiet zawierających artefakty.
Zakres projektu
| Typ zbioru danych | Pokrycie | Metody | Kategorie | Atrybuty | Specjalne traktowanie |
|---|---|---|---|---|---|
| Adnotacja obiektu sceny wewnętrznej | Każdy widoczny obiekt | Pole + wielokąt | Meble, sprzęt AGD, przedmioty osobiste, konstrukcyjne, drobne | 4 warstwy (stan, przestrzenna, okluzja, stan) | Zasady dotyczące powierzchni odbijających |
Wyniki
- Utworzono potok adnotacji o dużej gęstości obiektów do postrzegania robotów w pomieszczeniach
- znormalizowane wybór metody na obiekt między polami ograniczającymi a segmentacją wielokątów
- Dostarczany tagowanie relacji przestrzennych włączanie robotycznej sztucznej inteligencji uwzględniającej kontekst
- Zaimplementowane obsługa powierzchni odblaskowych aby zapobiec powstawaniu adnotacji typu ghost
- Włączono klienta dom, magazyn, sklep detaliczny i placówka opieki zdrowotnej wdrażanie sztucznej inteligencji w robotyce
Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymagania dotyczące adnotacji wewnątrz pomieszczeń, obejmujące dużą liczbę obiektów, w ustrukturyzowany proces gotowy do produkcji — taki, który obsługuje nawigację robotyczną, automatyzację typu pick-and-place, inteligentne monitorowanie środowiska oraz interakcję człowiek-robot w różnorodnych środowiskach wewnętrznych.
Shaip opatrzył pokoje adnotacjami, które widzą nasze roboty – każdy obiekt, każdą relację, każdy drobny element, który ma znaczenie. Ich uwaga skupiona na przełącznikach, wtyczkach i powierzchniach odblaskowych sprawiła, że nasz model percepcji nie pomylił się z elementami, które większość zbiorów danych ignoruje.
— wiceprezes ds. percepcji robotów