10 sierpnia 2021 r.

Subtelności danych szkoleniowych AI i dlaczego wykonają lub zepsują Twój projekt

Wszyscy rozumiemy, że wydajność modułu sztucznej inteligencji (AI) zależy całkowicie od jakości zbiorów danych dostarczonych w fazie szkolenia. Jednak są one zwykle omawiane na poziomie powierzchownym. Większość zasobów online określa, dlaczego akwizycja danych wysokiej jakości jest niezbędna dla etapów treningu danych AI, ale istnieje luka w wiedzy, która odróżnia jakość od niewystarczających danych.

Gdy zagłębisz się głębiej w zbiory danych, zauważysz mnóstwo zawiłości i subtelności, które często są pomijane. Postanowiliśmy rzucić światło na te mniej wypowiadane tematy. Po przeczytaniu tego artykułu będziesz mieć jasne pojęcie o niektórych błędach, które popełniasz podczas zbierania danych, oraz o sposobach optymalizacji jakości danych treningowych AI.

Zacznijmy.

Anatomia projektu AI

Dla niewtajemniczonych projekt AI lub ML (uczenie maszynowe) jest bardzo systematyczny. Jest liniowy i ma solidny przepływ pracy.

Aby dać ci przykład, oto jak to wygląda w ogólnym sensie:

Dowód koncepcji
Walidacja modelu i scoring modelu
Rozwój algorytmu
Przygotowanie danych treningowych AI
Wdrożenie modelu
Trening algorytmów
Optymalizacja po wdrożeniu

Statystyki pokazują, że blisko 78% wszystkich projektów AI zatrzymało się w tym czy innym momencie przed przejściem do etapu wdrażania. Chociaż z jednej strony istnieją poważne luki, błędy logiczne lub problemy związane z zarządzaniem projektami, istnieją również subtelne błędy i pomyłki, które powodują masowe awarie projektów. W tym poście zamierzamy zbadać niektóre z najczęstszych subtelności.

Stronniczość danych

Stronniczość danych to dobrowolne lub mimowolne wprowadzenie czynników lub elementów, które niekorzystnie przechylają wyniki w kierunku określonych wyników lub wbrew określonym wynikom. Niestety stronniczość jest dręczącym problemem w przestrzeni szkoleniowej AI.

Jeśli wydaje się to skomplikowane, zrozum, że systemy AI nie mają własnego umysłu. Tak więc abstrakcyjne koncepcje, takie jak etyka, moralność i inne, nie istnieją. Są one tak inteligentne i funkcjonalne, jak logiczne, matematyczne i statystyczne koncepcje użyte w ich projektowaniu. Tak więc, kiedy ludzie rozwiną te trzy, oczywiście będą w nim pewne uprzedzenia i faworyzowanie.

Bias to koncepcja, która nie jest bezpośrednio związana z AI, ale ze wszystkim, co ją otacza. Oznacza to, że wynika bardziej z interwencji człowieka i może zostać wprowadzony w dowolnym momencie. Może to być sytuacja, gdy problem jest rozwiązywany w celu uzyskania prawdopodobnych rozwiązań, gdy ma miejsce gromadzenie danych lub gdy dane są przygotowywane i wprowadzane do modułu AI.

Czy możemy całkowicie wyeliminować stronniczość?

Eliminacja stronniczości jest skomplikowana. Osobista preferencja nie jest całkowicie czarno-biała. Żyje w szarej strefie i dlatego też jest subiektywna. W przypadku stronniczości trudno jest wskazać jakikolwiek holistyczną uczciwość. Poza tym uprzedzenie jest również trudne do zauważenia lub zidentyfikowania, właśnie wtedy, gdy umysł mimowolnie skłania się ku określonym przekonaniom, stereotypom lub praktykom.

Dlatego eksperci AI przygotowują swoje moduły, biorąc pod uwagę potencjalne błędy i eliminując je poprzez warunki i konteksty. Jeśli zostanie to zrobione poprawnie, przekrzywienie wyników można ograniczyć do absolutnego minimum.

Omówmy dzisiaj Twoje wymagania dotyczące danych szkoleniowych AI.

Jakość danych

Jakość danych jest bardzo ogólna, ale gdy zajrzysz głębiej, znajdziesz kilka zróżnicowanych warstw. Jakość danych może składać się z następujących elementów:

Brak dostępności szacunkowej ilości danych
Brak odpowiednich i kontekstowych danych
Brak najnowszych lub zaktualizowanych danych
Obfitość danych, które nie nadają się do użytku
Brak wymaganego typu danych – na przykład tekst zamiast obrazów i audio zamiast wideo i nie tylko
stronniczość
Klauzule ograniczające interoperacyjność danych
Źle opatrzone adnotacjami dane
Niewłaściwa klasyfikacja danych

Prawie 96% specjalistów AI boryka się z problemami z jakością danych, co skutkuje dodatkowymi godzinami optymalizacji jakości, aby maszyny mogły skutecznie dostarczać optymalne wyniki.

Dane nieustrukturyzowane

Analitycy danych i eksperci AI pracują więcej na danych nieustrukturyzowanych niż na ich kompletnych odpowiednikach. W rezultacie znaczna ilość czasu spędzana jest na nadawaniu sensu nieustrukturyzowanym danym i kompilowaniu ich do formatu zrozumiałego dla maszyn.

Dane nieustrukturyzowane to wszelkie informacje, które nie są zgodne z określonym formatem, modelem lub strukturą. Jest zdezorganizowany i przypadkowy. Danymi nieustrukturyzowanymi mogą być wideo, audio, obrazy, obrazy z tekstem, ankiety, raporty, prezentacje, notatki lub inne formy informacji. Najistotniejsze spostrzeżenia z nieustrukturyzowanych zbiorów danych muszą zostać zidentyfikowane i ręcznie opatrzone adnotacjami przez specjalistę. Podczas pracy z danymi nieustrukturyzowanymi masz dwie możliwości:

Spędzasz więcej czasu na czyszczeniu danych
Zaakceptuj przekrzywione wyniki

Brak MŚP do przypisywania wiarygodnych danych

Ze wszystkich czynników, które omówiliśmy dzisiaj, wiarygodna adnotacja danych jest jedyną subtelnością, nad którą mamy znaczną kontrolę. Adnotacje do danych to kluczowa faza rozwoju sztucznej inteligencji, która dyktuje im, czego i jak powinni się uczyć. Źle lub nieprawidłowo opatrzone adnotacjami dane mogą całkowicie zniekształcić wyniki. Jednocześnie precyzyjnie opisane dane mogą sprawić, że Twoje systemy będą wiarygodne i funkcjonalne.

Dlatego adnotacje do danych powinny być wykonywane przez MŚP i weteranów, którzy mają wiedzę w tej dziedzinie. Na przykład dane dotyczące opieki zdrowotnej powinny być opatrzone adnotacjami przez specjalistów, którzy mają doświadczenie w pracy z danymi z tego sektora. Tak więc, gdy model zostanie wdrożony w sytuacji ratującej życie, działa zgodnie z oczekiwaniami. To samo dotyczy produktów w branży nieruchomości, fintech eCommerce i innych niszowych przestrzeniach.

Owijanie w górę

Wszystkie te czynniki wskazują w jednym kierunku – nie jest wskazane, aby zapuszczać się w rozwój AI jako samodzielna jednostka. Zamiast tego jest to proces oparty na współpracy, w którym potrzebujesz ekspertów ze wszystkich dziedzin, którzy spotkają się, aby wprowadzić to jedno idealne rozwiązanie.

Dlatego zalecamy skontaktowanie się z dane kolekcja i adnotacja ekspertów, takich jak Shaip, aby Twoje produkty i rozwiązania były bardziej funkcjonalne. Jesteśmy świadomi subtelności związanych z rozwojem AI i mamy świadome protokoły i kontrole jakości, aby je natychmiast wyeliminować.

Get in Kontakt z nami, aby dowiedzieć się, w jaki sposób nasza wiedza może pomóc w rozwoju produktu AI.

Podziel społecznej

Porozmawiaj z ekspertem

Imię*
Nazwisko*
E-mail*
Telefon*
O nas*
Państwo*
Państwo
Komentarze*
Rejestrując się, zgadzam się z Shaip Polityka prywatności i Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.
CAPTCHA

Pobierz bezpłatną książkę

Może Ci się spodobać

Subtelności danych szkoleniowych AI i dlaczego wykonają lub zepsują Twój projekt

Anatomia projektu AI

Stronniczość danych

Czy możemy całkowicie wyeliminować stronniczość?

Jakość danych

Dane nieustrukturyzowane

Brak MŚP do przypisywania wiarygodnych danych

Owijanie w górę

Podziel społecznej

Porozmawiaj z ekspertem

3 czynniki, które należy wziąć pod uwagę przy opracowywaniu efektywnego budżetu na dane treningowe AI

Odkrywanie, kiedy, dlaczego i jak zbierać dane dla wizji komputerowej

3 proste sposoby pozyskiwania danych szkoleniowych dla modeli AI/ML

Usługi danych AI

Specjalne

Przemysłowe

Produkty

O nas

Zasoby

Skontaktuj się z nami