Adnotacja obiektów sceny wewnętrznej dla robotyki usługowej i sztucznej inteligencji wcielonej — studium przypadku

W jaki sposób Shaip dostarczył kompleksową adnotację do scen wewnątrz pomieszczeń dla czołowej firmy zajmującej się innowacjami w dziedzinie robotyki — wykrywając i oznaczając każdy obiekt w pomieszczeniach za pomocą tagowania relacji przestrzennych — stworzoną jako zbiór danych klasy produkcyjnej na potrzeby sztucznej inteligencji percepcji i nawigacji robotów w domach, biurach, magazynach i placówkach opieki zdrowotnej.

Adnotacja obiektów scen wewnętrznych dla robotyki

Przegląd projektu

Wraz z wdrażaniem robotyki w realnym świecie, w domach, biurach, magazynach i szpitalach, klient potrzebował kompleksowego systemu adnotacji, który byłby w stanie oznaczyć każdy widoczny obiekt w gęsto zapełnionych scenach wewnątrz pomieszczeń — z bogactwem atrybutów wystarczającym do realizacji zadań związanych z interakcją robotów.

Shaip zbudował kompleksowy proces adnotacji obejmujący segmentację prostokątów ograniczających i wielokątów, gęste uwzględnianie obiektów, tagowanie relacji przestrzennych i obsługę powierzchni odbijających — generując gotowe do użycia zestawy danych na potrzeby percepcji robotów, nawigacji i interakcji człowieka ze środowiskiem.

Kluczowe statystyki

Obiekty / Obraz

100s

Kategorie

Gęsty

Metody

Pole + Wielokąt

Warstwy atrybutów

4

Wyzwania

  • Adnotacje każdy widoczny obiekt w gęsto zagraconych obrazach pomieszczeń — setki na klatkę
  • Wybór właściwej metody — segmentacja pola ograniczającego a segmentacja wielokąta — na podstawie złożoności obiektu
  • Włącznie z małe przedmioty takie jak przełączniki, wtyczki i elementy dekoracyjne, które są niezbędne do interakcji robota
  • Prowadzenie powierzchnie odblaskowe (lustra, szklane stoły) bez adnotacji typu ghost
  • Tagging relacje przestrzenne i stany obiektów dla robotycznej sztucznej inteligencji uwzględniającej kontekst

Rozwiązanie

Kompleksowe włączanie obiektów

Każdy widoczny obiekt na obrazie każdego pokoju został indywidualnie opisany w szerokiej gamie kategorii — meble (krzesła, stoły, sofy, łóżka, półki), sprzęt AGD (telewizory, lodówki, kuchenki mikrofalowe, lampy), przedmioty osobiste (torby, książki, butelki, ubrania), elementy konstrukcyjne (drzwi, okna, ściany, podłogi) i małe przedmioty (piloty, kubki, talerze, klawiatury, przełączniki, wtyczki).

Wybór metody na obiekt

Obiekty zostały precyzyjnie oznaczone za pomocą prostokątów ograniczających lub segmentacji wielokątnej, w zależności od kształtu i złożoności obiektu. Prostokąty zastosowano do regularnych obiektów prostokątnych; wielokąty uchwyciły kształty organiczne i ściśle upakowane obiekty, w których prostokąty nadmiernie się nakładały. Ta metoda selekcji dla każdego obiektu zapewniła wyraźne granice nawet w zaśmieconych scenach.

Tagowanie relacji przestrzennych

Każdy obiekt z adnotacjami został wzbogacony o atrybuty obejmujące stan obiektu (otwarty lub zamknięty w przypadku drzwi i szuflad), znaczniki relacji przestrzennych wskazujące bliskość i położenie względem innych obiektów, status okluzji oraz stan obiektu. Ta warstwa inteligencji przestrzennej umożliwia systemom sztucznej inteligencji robotycznej zrozumienie kontekstu, a nie tylko wykrywanie obiektów.

Małe obiekty i interakcja – zasięg krytyczny

Adnotatorzy przestrzegali ścisłych zasad dotyczących dołączania, aby oznaczyć każdy widoczny obiekt, niezależnie od rozmiaru – w tym małe elementy, takie jak przełączniki, wtyczki i elementy dekoracyjne, które są kluczowe dla interakcji robota z innymi elementami. Elementy te często decydują o tym, czy robot może wykonać swoje zadanie, więc nie można było ich deprecjonować.

Obsługa powierzchni odblaskowych

Powierzchnie odbijające światło, takie jak lustra i szklane stoły, wymagały specjalnego traktowania, aby uniknąć powielania lub tworzenia niejasnych adnotacji. Szczegółowe wytyczne regulowały, czy odbite obiekty miały być oznaczane oddzielnie, ignorowane, czy oznaczane flagą – dzięki czemu modele niższego rzędu nie uczyły się na podstawie etykiet zawierających artefakty.

Zakres projektu

Typ zbioru danych Pokrycie Metody Kategorie Atrybuty Specjalne traktowanie
Adnotacja obiektu sceny wewnętrznej Każdy widoczny obiekt Pole + wielokąt Meble, sprzęt AGD, przedmioty osobiste, konstrukcyjne, drobne 4 warstwy (stan, przestrzenna, okluzja, stan) Zasady dotyczące powierzchni odbijających

Wyniki

  • Utworzono potok adnotacji o dużej gęstości obiektów do postrzegania robotów w pomieszczeniach
  • znormalizowane wybór metody na obiekt między polami ograniczającymi a segmentacją wielokątów
  • Dostarczany tagowanie relacji przestrzennych włączanie robotycznej sztucznej inteligencji uwzględniającej kontekst
  • Zaimplementowane obsługa powierzchni odblaskowych aby zapobiec powstawaniu adnotacji typu ghost
  • Włączono klienta dom, magazyn, sklep detaliczny i placówka opieki zdrowotnej wdrażanie sztucznej inteligencji w robotyce

Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymagania dotyczące adnotacji wewnątrz pomieszczeń, obejmujące dużą liczbę obiektów, w ustrukturyzowany proces gotowy do produkcji — taki, który obsługuje nawigację robotyczną, automatyzację typu pick-and-place, inteligentne monitorowanie środowiska oraz interakcję człowiek-robot w różnorodnych środowiskach wewnętrznych.

Ikona cytatu

Shaip opatrzył pokoje adnotacjami, które widzą nasze roboty – każdy obiekt, każdą relację, każdy drobny element, który ma znaczenie. Ich uwaga skupiona na przełącznikach, wtyczkach i powierzchniach odblaskowych sprawiła, że ​​nasz model percepcji nie pomylił się z elementami, które większość zbiorów danych ignoruje.

— wiceprezes ds. percepcji robotów

★ ★ ★ ★ ★
Ikona cytatu