Pełna segmentacja semantyczna sceny

W jaki sposób Shaip zrealizował segmentację semantyczną na poziomie pikseli w całych scenach ulicznych — oznaczając każdy obiekt i powierzchnię, od dróg i nieba po oznakowanie drogowe i drobne słupki — tworząc zestaw danych klasy produkcyjnej na potrzeby autonomicznej jazdy, inteligentnych miast i sztucznej inteligencji środowiskowej.

Pełna segmentacja semantyczna sceny

Przegląd projektu

Ponieważ rozumienie sceny staje się podstawą autonomicznej jazdy, inteligentnego planowania miast i monitorowania środowiska za pomocą sztucznej inteligencji, klient potrzebował kompleksowego rozwiązania segmentacyjnego, które potrafiłoby oznaczyć każdy piksel na obrazie — a nie tylko pola ograniczające lub główne obiekty.

Shaip zbudował kompleksowy system adnotacji na poziomie pikseli, obejmujący narzędzia wielokątów i masek semantycznych, kompleksowe pokrycie klas, obsługę granic z dokładnością do krawędzi oraz dwuwarstwową kontrolę jakości — generując gotowe do modelowania zestawy danych na potrzeby pełnoekranowego zrozumienia sztucznej inteligencji.

Kluczowe statystyki

Dokładność pikseli

99%

Poziomy zapewnienia jakości

2-Tier

Pokrycie

Każdy piksel

Zestaw klasowy

Wszechstronny

Wyzwania

  • Etykietowania każdy piksel na obrazku — nie jest dozwolony żaden obszar bez etykiety
  • Rysunek kalkowy nieregularne granice koron roślinności, powierzchni wody i pęknięć na drogach
  • Charakterystyczny oznakowania dróg z nawierzchni dróg w stanie zużycia lub wyblaknięcia
  • Rozsadzający niebo z mgły lub tła zachmurzone z precyzją
  • Utrzymywanie czyste granice klasowe na przejściach z drogi na chodnik, z roślinności na glebę, z wody na grunt

Rozwiązanie

Kompleksowy zestaw klas

Adnotacja obejmowała pełen zestaw kategorii scen — nawierzchnie dróg, niebo, roślinność, glebę i teren, zbiorniki wodne, słupy i oznakowanie, oznakowanie drogowe (linie pasów ruchu, strzałki, przejścia dla pieszych), pojazdy (samochody osobowe, ciężarówki, autobusy, motocykle, rowery) oraz budynki i konstrukcje stworzone przez człowieka. Każdy piksel został przypisany do jednej ze zdefiniowanych klas.

Narzędzia do tworzenia wielokątów i masek semantycznych

Adnotatorzy korzystali ze specjalistycznych narzędzi wielokątnych i pędzli masek semantycznych, aby obsługiwać zakrzywione, nieregularne i gęsto upakowane granice obiektów z dokładnością co do piksela. Wybór narzędzi był dopasowany do złożoności kształtu obiektu — maski dla kształtów organicznych, takich jak roślinność, a wielokąty dla obiektów o określonej strukturze, takich jak pojazdy.

Wytyczne dotyczące precyzji krawędzi

Przestrzegano ścisłych definicji klas i wytycznych dotyczących precyzji krawędzi, aby zapewnić wyraźne granice między sąsiednimi klasami, szczególnie w strefach przejściowych, takich jak granica droga-chodnik, roślinność-gleba i woda-grunt. Ta precyzja sprawia, że ​​modele wykrywania przeszkód i obszarów przejezdnych w dolnym biegu rzeki są niezawodne.

Obsługa drobnych struktur

Drobne struktury, takie jak słupy, znaki drogowe i drogowskazy, zajmują zaledwie kilka pikseli na obrazach szerokokątnych, ale są kluczowe dla dalszej sztucznej inteligencji. Adnotatorzy postępowali zgodnie ze specjalnymi wytycznymi, aby uchwycić te drobne szczegóły bez utraty dokładności szerszego zakresu obrazu.

Dwustopniowa kontrola jakości i 99% dokładność pikseli

Każdy segmentowany obraz przeszedł rygorystyczny, dwuetapowy proces kontroli jakości (QA), obejmujący międzyinstancyjne kontrole spójności, weryfikację precyzji krawędzi i walidację granic klas. Przed dostarczeniem każdy zestaw danych był zabezpieczony bramką o minimalnej dokładności na poziomie pikseli wynoszącej 99%.

Zakres projektu

Typ zbioru danych Pokrycie Narzędzia adnotacyjne Zestaw klasowy QA Dokładność
Pełna segmentacja semantyczna sceny Każdy piksel oznaczony Wielokąty + maski semantyczne Kompleksowe zajęcia sceniczne 2-stopniowa kontrola jakości 99% na poziomie pikseli

Wyniki

  • Założona proces zrozumienia sceny na poziomie pikseli dla AV i sztucznej inteligencji w miastach
  • znormalizowane kompleksowe pokrycie zajęć z każdym pikselem oznaczonym
  • Dostarczany czyste przejścia granic klas w strefach złożonych
  • Utrzymany Dokładność na poziomie 99% pikseli poprzez dwustopniowe zapewnianie jakości
  • Włączono klienta obszar dostępny dla pojazdów, planowanie urbanistyczne, monitorowanie środowiska i śledzenie budowy AI

Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymaganie dotyczące zrozumienia sceny na poziomie pikseli w ustrukturyzowany, gotowy do produkcji proces segmentacji — taki, który obsługuje autonomiczną jazdę, analizę inteligentnych miast, monitorowanie środowiska i postęp prac na placu budowy za pomocą sztucznej inteligencji, z precyzją etykietowania całej sceny.

Ikona cytatu

Shaip pomógł nam przekształcić subiektywną jakość dźwięku w mierzalny program poprawy. Ich system oceny dał nam jasne sygnały, co poprawić, gdzie poprawić i jak zbliżyć się do etapu produkcji z pewnością siebie.

— Lider produktu AI Speech

★ ★ ★ ★ ★
Ikona cytatu