Pełna segmentacja semantyczna sceny
W jaki sposób Shaip zrealizował segmentację semantyczną na poziomie pikseli w całych scenach ulicznych — oznaczając każdy obiekt i powierzchnię, od dróg i nieba po oznakowanie drogowe i drobne słupki — tworząc zestaw danych klasy produkcyjnej na potrzeby autonomicznej jazdy, inteligentnych miast i sztucznej inteligencji środowiskowej.
Przegląd projektu
Ponieważ rozumienie sceny staje się podstawą autonomicznej jazdy, inteligentnego planowania miast i monitorowania środowiska za pomocą sztucznej inteligencji, klient potrzebował kompleksowego rozwiązania segmentacyjnego, które potrafiłoby oznaczyć każdy piksel na obrazie — a nie tylko pola ograniczające lub główne obiekty.
Shaip zbudował kompleksowy system adnotacji na poziomie pikseli, obejmujący narzędzia wielokątów i masek semantycznych, kompleksowe pokrycie klas, obsługę granic z dokładnością do krawędzi oraz dwuwarstwową kontrolę jakości — generując gotowe do modelowania zestawy danych na potrzeby pełnoekranowego zrozumienia sztucznej inteligencji.
Kluczowe statystyki
Dokładność pikseli
99%
Poziomy zapewnienia jakości
2-Tier
Pokrycie
Każdy piksel
Zestaw klasowy
Wszechstronny
Wyzwania
- Etykietowania każdy piksel na obrazku — nie jest dozwolony żaden obszar bez etykiety
- Rysunek kalkowy nieregularne granice koron roślinności, powierzchni wody i pęknięć na drogach
- Charakterystyczny oznakowania dróg z nawierzchni dróg w stanie zużycia lub wyblaknięcia
- Rozsadzający niebo z mgły lub tła zachmurzone z precyzją
- Utrzymywanie czyste granice klasowe na przejściach z drogi na chodnik, z roślinności na glebę, z wody na grunt
Rozwiązanie
Kompleksowy zestaw klas
Adnotacja obejmowała pełen zestaw kategorii scen — nawierzchnie dróg, niebo, roślinność, glebę i teren, zbiorniki wodne, słupy i oznakowanie, oznakowanie drogowe (linie pasów ruchu, strzałki, przejścia dla pieszych), pojazdy (samochody osobowe, ciężarówki, autobusy, motocykle, rowery) oraz budynki i konstrukcje stworzone przez człowieka. Każdy piksel został przypisany do jednej ze zdefiniowanych klas.
Narzędzia do tworzenia wielokątów i masek semantycznych
Adnotatorzy korzystali ze specjalistycznych narzędzi wielokątnych i pędzli masek semantycznych, aby obsługiwać zakrzywione, nieregularne i gęsto upakowane granice obiektów z dokładnością co do piksela. Wybór narzędzi był dopasowany do złożoności kształtu obiektu — maski dla kształtów organicznych, takich jak roślinność, a wielokąty dla obiektów o określonej strukturze, takich jak pojazdy.
Wytyczne dotyczące precyzji krawędzi
Przestrzegano ścisłych definicji klas i wytycznych dotyczących precyzji krawędzi, aby zapewnić wyraźne granice między sąsiednimi klasami, szczególnie w strefach przejściowych, takich jak granica droga-chodnik, roślinność-gleba i woda-grunt. Ta precyzja sprawia, że modele wykrywania przeszkód i obszarów przejezdnych w dolnym biegu rzeki są niezawodne.
Obsługa drobnych struktur
Drobne struktury, takie jak słupy, znaki drogowe i drogowskazy, zajmują zaledwie kilka pikseli na obrazach szerokokątnych, ale są kluczowe dla dalszej sztucznej inteligencji. Adnotatorzy postępowali zgodnie ze specjalnymi wytycznymi, aby uchwycić te drobne szczegóły bez utraty dokładności szerszego zakresu obrazu.
Dwustopniowa kontrola jakości i 99% dokładność pikseli
Każdy segmentowany obraz przeszedł rygorystyczny, dwuetapowy proces kontroli jakości (QA), obejmujący międzyinstancyjne kontrole spójności, weryfikację precyzji krawędzi i walidację granic klas. Przed dostarczeniem każdy zestaw danych był zabezpieczony bramką o minimalnej dokładności na poziomie pikseli wynoszącej 99%.
Zakres projektu
| Typ zbioru danych | Pokrycie | Narzędzia adnotacyjne | Zestaw klasowy | QA | Dokładność |
|---|---|---|---|---|---|
| Pełna segmentacja semantyczna sceny | Każdy piksel oznaczony | Wielokąty + maski semantyczne | Kompleksowe zajęcia sceniczne | 2-stopniowa kontrola jakości | 99% na poziomie pikseli |
Wyniki
- Założona proces zrozumienia sceny na poziomie pikseli dla AV i sztucznej inteligencji w miastach
- znormalizowane kompleksowe pokrycie zajęć z każdym pikselem oznaczonym
- Dostarczany czyste przejścia granic klas w strefach złożonych
- Utrzymany Dokładność na poziomie 99% pikseli poprzez dwustopniowe zapewnianie jakości
- Włączono klienta obszar dostępny dla pojazdów, planowanie urbanistyczne, monitorowanie środowiska i śledzenie budowy AI
Ogólnie rzecz biorąc, Shaip pomógł przekształcić wymaganie dotyczące zrozumienia sceny na poziomie pikseli w ustrukturyzowany, gotowy do produkcji proces segmentacji — taki, który obsługuje autonomiczną jazdę, analizę inteligentnych miast, monitorowanie środowiska i postęp prac na placu budowy za pomocą sztucznej inteligencji, z precyzją etykietowania całej sceny.
Shaip pomógł nam przekształcić subiektywną jakość dźwięku w mierzalny program poprawy. Ich system oceny dał nam jasne sygnały, co poprawić, gdzie poprawić i jak zbliżyć się do etapu produkcji z pewnością siebie.
— Lider produktu AI Speech