Wizja AI

Wizja AI: Jak szkolić, aby osiągać wysokiej jakości rezultaty w realnym świecie

Vision AI wychodzi z wersji demonstracyjnych i trafia do produkcji. Jest wykorzystywana do inspekcji produktów, monitorowania środowisk, wspierania procesów bezpieczeństwa i pomagania systemom w zrozumieniu tego, co dzieje się na obrazach i strumieniach wideo. Wraz ze wzrostem liczby wdrożeń rosną również koszty nieudanego szkolenia. Model, który dobrze sprawdza się w czystym zestawie testowym, może nadal nie działać poprawnie w rzeczywistości, gdy zmienia się oświetlenie, obiekty nakładają się na siebie lub środowisko zmienia się w czasie.

Dlatego wydajne programy sztucznej inteligencji oparte na wizji zazwyczaj wyglądają mniej jak jednorazowe trenowanie modeli, a bardziej jak dyscyplina operacyjna. Łączą one w sobie zaawansowane gromadzenie danych, jasne reguły adnotacji, wiedzę specjalistyczną, syntetyczne rozszerzenie tam, gdzie jest to potrzebne, oraz ciągły monitoring po uruchomieniu. Celem nie jest tylko większa dokładność na papierze. Chodzi o niezawodną wydajność, gdy sytuacja staje się chaotyczna.

Dlaczego jakość szkolenia jest ważniejsza niż nowość modelu

Wiele zespołów zaczyna od skupienia się na architekturze. To ma znaczenie, ale w przypadku sztucznej inteligencji wizyjnej jakość danych często decyduje o tym, czy projekt trafi do produkcji. Jeśli obrazy są niespójnie oznaczone, kategorie defektów są niejasne lub brakuje przypadków brzegowych, model uczy się niewyraźnej wersji rzeczywistości.

Prostą analogią jest nauczenie kogoś sędziowania sportu, korzystając wyłącznie z klipów z najważniejszymi momentami. Ktoś może rozpoznać oczywiste zagrania, ale będzie miał problemy z nietypowymi kątami, częściowym widokiem i decyzjami sędziów granicznych. Vision AI zachowuje się podobnie. Potrzebuje czegoś więcej niż idealnych przykładów. Potrzebuje również trudnych przypadków.

Zacznij od danych, a nie od pulpitu nawigacyjnego

Przed rozpoczęciem treningu należy zdefiniować, co model ma widzieć i co uznaje się za sukces. Oznacza to podjęcie decyzji, czy zadaniem jest wykrywanie obiektów, klasyfikacja, segmentacja, śledzenie, wykrywanie anomalii, czy zrozumienie sceny. Oznacza to również wczesne uzgodnienie definicji etykiet.

Na przykład, jeśli system ma sygnalizować zagrożenia na linii produkcyjnej, co dokładnie kwalifikuje się jako zagrożenie? Czy częściowe zasłanianie nadal podlega etykietowaniu? Czy odblaski stanowią negatywny przykład, czy przypadek szczególny? Te szczegóły kształtują zbiór danych na długo przed uformowaniem modelu.

To jest miejsce, gdzie usługi lubią zbieranie danych, adnotacja danych, wsparcie danych szkoleniowych dla wizji komputerowej nabierają strategicznego znaczenia. Solidne przepływy pracy w górę strumienia pomagają zespołom standaryzować formaty obrazów, gromadzić szerszy zakres informacji i redukować niejednoznaczności, zanim rozprzestrzenią się w procesie.

Dlaczego ogólne oznakowanie rzadko jest wystarczające

Etykietowanie ogólneOgólne adnotacje są przydatne w przypadku prostych zadań, ale wartościowa sztuczna inteligencja wizyjna często zależy od kontekstu. Ekspert ds. produkcji może wychwycić subtelne wzorce defektów, które dla przeciętnego recenzenta wydają się normalne. Specjalista ds. bezpieczeństwa może odróżnić zwykły ruch od istotnego zagrożenia. Recenzent medyczny może stwierdzić, dlaczego jeden wzorzec obrazowania ma znaczenie, a inny nie.

Ta różnica jest najwyraźniej widoczna w przypadkach brzegowych. Najpoważniejsze błędy w sztucznej inteligencji opartej na wizji często pojawiają się w niejednoznacznych, nietypowych lub ryzykownych scenariuszach. Dlatego etykietowanie uwzględniające domenę ma tak duże znaczenie, gdy zespoły przechodzą od prototypów do produkcji.

Dane syntetyczne pomagają, ale tylko wtedy, gdy są używane celowo

Syntetyczne obrazy i wideo mogą okazać się pomocne, gdy dane ze świata rzeczywistego są rzadkie, niebezpieczne, drogie lub trudno je pozyskać. Są szczególnie przydatne w przypadku nietypowych defektów, ryzykownych scenariuszy i niedoreprezentowanych warunków. Jednak syntetyczne dane to nie magia. Jeśli są zbyt precyzyjne lub zbyt wąskie, model może okazać się skuteczny w symulowanej rzeczywistości, ale słaby w rzeczywistości rzeczywistej.

Najlepszym sposobem wykorzystania danych syntetycznych jest zazwyczaj celowe rozszerzenie. Wypełnia ono luki, zwiększa zmienność i przygotowuje model na zdarzenia, które nie występują wystarczająco często w rzeczywistych nagraniach.

Trenuj kontekst sceny, a nie tylko obecność obiektu

Dojrzały system sztucznej inteligencji wizyjnej robi więcej niż tylko wykrywanie obiektów w pikselach. Interpretuje to, co się dzieje, w kontekście. Zatłoczony korytarz może być normalny o jednej godzinie, a o innej sygnałem zagrożenia. Zatrzymany pojazd może być nieszkodliwy w jednym miejscu, a krytyczny w innym. Usterka może mieć znaczenie tylko w połączeniu z konkretną lokalizacją, wzorcem ruchu lub stanem operacyjnym.

Dlatego też wysokiej jakości systemy coraz częściej opierają się na bogatszych strategiach etykietowania i oceny, zamiast opierać się na jednym, wąskim wskaźniku wydajności.

Krótka historia: kiedy model wydawał się dokładny, dopóki nie nadszedł czas nocnej zmiany

Wyobraź sobie sprzedawcę detalicznego wdrażającego sztuczną inteligencję wizyjną do identyfikacji ryzyka wycieków i zablokowanych alejek. Podczas testów pilotażowych wyniki wyglądają obiecująco. Nagrania z dnia są wyraźne, etykiety uporządkowane, a model wychwytuje najbardziej oczywiste problemy.

Potem zaczyna się nocna zmiana. Oświetlenie jest słabsze. Odbicia na podłodze ulegają zmianie. Wózki czyszczące częściowo blokują widok kamery. Personel porusza się inaczej. Nagle system pomija realne zagrożenia i pomija nieszkodliwe czynności.

Oryginalny model był niekompletny, a jedynie niekompletny. Dane treningowe odzwierciedlały jedną wersję środowiska, a nie jego pełne środowisko. Po dodaniu przez zespół nagrań nocnych, adnotacji dotyczących przypadków skrajnych oraz opinii recenzentów od operatorów sklepów, wydajność uległa poprawie, ponieważ model w końcu uczył się na podstawie warunków, w jakich faktycznie będzie się znajdował.

Ramy decyzyjne: kiedy dodać więcej danych, więcej ekspertów czy więcej informacji zwrotnych

Praktycznym sposobem na udoskonalenie sztucznej inteligencji w zakresie widzenia jest zadanie sobie czterech pytań:

  1. Jakie rodzaje pomyłek mają największe znaczenie?
    Wyniki fałszywie ujemne mają różne znaczenie w kontekście bezpieczeństwa, opieki zdrowotnej, handlu detalicznego i produkcji.
  2. Które schorzenia są niedoreprezentowane?
    Zwróć uwagę na zmienność oświetlenia, rozmycie ruchu, przesłonięcie, zmiany pór roku, zmiany kąta kamery i rzadkie zdarzenia.
  3. Gdzie ludzki osąd zmienia etykietę?
    To właśnie za to eksperci w danej dziedzinie zarabiają na swoje utrzymanie.
  4. Co będziesz monitorować po uruchomieniu?
    Dokładność to za mało. Zespoły powinny monitorować wskaźniki chybień, dryft, opóźnienia i wydajność w zmieniających się warunkach rzeczywistych.

Jak wyglądają dobre operacje sztucznej inteligencji

Dobra wizja AINajskuteczniejsze programy szkoleniowe zazwyczaj mają kilka wspólnych nawyków. Standaryzują dane przed etykietowaniem. Tworzą wytyczne adnotacji z przykładami i regułami wyjątków. Dodają kontrole jakości (QA) zamiast zakładać, że wszystkie etykiety są równie wiarygodne. Wykorzystują dane syntetyczne do wypełniania istotnych luk, a nie do zastępowania rzeczywistości. Tworzą również pętle sprzężenia zwrotnego po wdrożeniu, aby operatorzy mogli sygnalizować błędy i przekazywać te informacje do ponownego szkolenia.

Dlatego też wiele zespołów traktuje projekty wizyjne jako ciągłe operacje na danych, a nie izolowane eksperymenty modelowe. Solidna infrastruktura do trenowania danych, ich przeglądu i cykli odświeżania ułatwia utrzymanie użyteczności modeli w zmieniającym się świecie.

Wniosek

Wysoka jakość wyników w dziedzinie sztucznej inteligencji opartej na wizji nie wynika wyłącznie ze skali. Wynika ona z lepszej oceny tego, co zbierać, jak to oznaczać, gdzie korzystać z pomocy ekspertów, kiedy symulować przypadki brzegowe i jak mierzyć wydajność po wdrożeniu.

Innymi słowy, trening sztucznej inteligencji opartej na wizji nie przypomina tankowania. Bardziej przypomina trenowanie drużyny w zmieniających się warunkach gry. Najlepsze systemy są trenowane na realistycznych przykładach, poddawane trudnym scenariuszom i stale udoskonalane po wejściu na boisko.

Vision AI to wykorzystanie modeli AI do interpretowania obrazów i wideo, obejmujące takie zadania, jak wykrywanie, klasyfikacja, segmentacja, śledzenie i rozumienie sceny.

Do najczęstszych przyczyn zalicza się słabe pokrycie przypadków brzegowych, niespójne etykiety, niedopasowanie domen, zmiany oświetlenia, przesłonięcie i brak monitorowania po wdrożeniu.

Tak, zwłaszcza w przypadku rzadkich lub ryzykownych scenariuszy, jednak najlepiej sprawdza się jako ukierunkowane rozszerzenie, a nie pełne zastąpienie rzeczywistych danych ewaluacyjnych.

Mają one największe znaczenie, gdy etykiety wymagają oceny dziedziny, takiej jak wady, zagrożenia dla bezpieczeństwa, ustalenia medyczne lub subtelny kontekst, który może zostać przeoczony przez ogólnych recenzentów.

Zespoły powinny monitorować wskaźniki błędów, dryft, opóźnienia i wydajność w zmieniających się warunkach, takich jak oświetlenie, pozycja kamery i natężenie ruchu.

Udoskonal proces gromadzenia danych: zbierz nowe przykłady ze świata rzeczywistego, udoskonal zasady adnotacji, uwzględnij opinie recenzentów i przeprowadź ponowne szkolenie pod kątem zaobserwowanych trybów awarii.

Podobał Ci się ten artykuł? Obserwuj Shaipa na LinkedIn, aby być na bieżąco.

Podziel społecznej