Klucz do przezwyciężenia przeszkód w rozwoju sztucznej inteligencji

Bardziej wiarygodne dane

Intro
Klucz do pokonania przeszkód AI?
Wyzwanie niespójnej jakości danych
Poruszanie się po złożonych wymaganiach dotyczących zgodności
Pokonywanie przeszkód w rozwoju AI
Porozmawiajmy

Wprowadzenie

Sztuczna inteligencja zaczęła pobudzać wyobraźnię, gdy Blaszany Człowiek z „Czarnoksiężnika z Krainy Oz” trafił na srebrny ekran w 1939 roku i od tego czasu zyskała tylko mocniejszy przyczółek w duchu czasu. Jednak w praktyce produkty sztucznej inteligencji przeszły regularne cykle wzrostów i spadków, które do tej pory utrudniały najbardziej wpływowe adopcje.

Podczas boomu inżynierowie i badacze poczynili ogromne postępy, ale kiedy ich aspiracje nieuchronnie przewyższają możliwości obliczeniowe dostępne w tamtym czasie, nastąpił okres uśpienia. Na szczęście wykładniczy wzrost mocy obliczeniowej przepowiedziany przez Prawo Moore'a z 1965 roku w większości okazał się trafny, a znaczenie tego wzrostu jest trudne do przecenienia.

Przeczytaj e-book: klucz do przezwyciężenia przeszkód w rozwoju sztucznej inteligencji lub pobierz wersję PDF eBooka.

Spis treści

Wprowadzenie

Klucz do pokonania przeszkód AI?

Wyzwanie niespójnej jakości danych

Poruszanie się po złożonych wymaganiach dotyczących zgodności

Pokonywanie przeszkód w rozwoju AI

Porozmawiajmy

Klucz do pokonania przeszkód w rozwoju sztucznej inteligencji: bardziej wiarygodne dane

Dzisiaj przeciętny człowiek ma w kieszeni miliony razy więcej mocy obliczeniowej niż NASA musiała wylądować na Księżycu w 1969 roku. To samo wszechobecne urządzenie, które dogodnie demonstruje obfitość mocy obliczeniowej, spełnia również inny warunek złotego wieku AI: obfitość danych. Według spostrzeżeń Information Overload Research Group 90% danych na świecie powstało w ciągu ostatnich dwóch lat. Teraz, gdy wykładniczy wzrost mocy obliczeniowej w końcu zbiegł się z równie błyskawicznym wzrostem generowania danych, innowacje w zakresie danych AI eksplodują tak bardzo, że niektórzy eksperci sądzą, że zapoczątkują czwartą rewolucję przemysłową.

Dane National Venture Capital Association wskazują, że sektor AI odnotował rekordowe inwestycje w wysokości 6.9 miliarda dolarów w pierwszym kwartale 2020 roku. Nietrudno dostrzec potencjał narzędzi AI, ponieważ jest on już wykorzystywany wokół nas. Niektóre z bardziej widocznych przypadków użycia produktów AI to silniki rekomendacji naszych ulubionych aplikacji, takich jak Spotify i Netflix. Chociaż fajnie jest odkryć nowego artystę do posłuchania lub nowy program telewizyjny do obejrzenia, te wdrożenia są raczej niską stawką. Inne algorytmy oceniają wyniki testów — częściowo określające, gdzie studenci są przyjmowani na studia — a jeszcze inne przesiewają życiorysy kandydatów, decydując, którzy kandydaci dostaną konkretną pracę. Niektóre narzędzia sztucznej inteligencji mogą mieć nawet konsekwencje dla życia lub śmierci, takie jak model sztucznej inteligencji, który bada raka piersi (który przewyższa lekarzy).

Pomimo stałego wzrostu zarówno w rzeczywistych przykładach rozwoju sztucznej inteligencji, jak i liczby start-upów rywalizujących o stworzenie nowej generacji narzędzi transformacyjnych, wyzwania związane z efektywnym rozwojem i wdrażaniem wciąż pozostają. . W szczególności dane wyjściowe AI są tak dokładne, jak pozwalają na to dane wejściowe, co oznacza, że jakość jest najważniejsza.

Wyzwanie niespójnej jakości danych w rozwiązaniach AI

Według Social Media Today, każdego dnia generowanych jest niesamowita ilość danych: 2.5 tryliona bajtów. Ale to nie znaczy, że wszystko jest warte trenowania twojego algorytmu. Niektóre dane są niekompletne, inne niskiej jakości, a inne są po prostu niedokładne, więc użycie którejkolwiek z tych błędnych informacji spowoduje te same cechy z (drogich) innowacji danych AI. Według badań Gartnera około 85% projektów AI stworzonych do 2022 r. przyniesie niedokładne wyniki z powodu nieobiektywnych lub niedokładnych danych. Chociaż możesz łatwo pominąć rekomendację utworu, która nie odpowiada Twoim upodobaniom, inne niedokładne algorytmy wiążą się ze znacznymi kosztami finansowymi i reputacyjnymi.

W 2018 r. Amazon zaczął korzystać z narzędzia rekrutacyjnego opartego na sztucznej inteligencji, które jest produkowane od 2014 r., i które miało silne i niewątpliwe uprzedzenia wobec kobiet. Okazuje się, że modele komputerowe, na których opiera się narzędzie, zostały przeszkolone na podstawie życiorysów przesyłanych do firmy przez ponad dekadę. Ponieważ większość osób ubiegających się o technologie to mężczyźni (i nadal są, być może dzięki tej technologii), algorytm zdecydował o ukaraniu życiorysów z uwzględnieniem „kobiecych” w dowolnym miejscu — na przykład kapitana kobiecej piłki nożnej lub kobiecej grupy biznesowej. Postanowił nawet ukarać kandydatki dwóch kobiecych kolegiów. Amazon twierdzi, że narzędzie nigdy nie było wykorzystywane jako jedyne kryterium oceny potencjalnych kandydatów, jednak rekruterzy szukali nowych pracowników, patrząc na silnik rekomendacji.

Narzędzie rekrutacyjne Amazon zostało ostatecznie zlikwidowane po latach pracy, ale lekcja trwa, podkreślając znaczenie jakości danych podczas uczenia algorytmów i narzędzi sztucznej inteligencji. Jak wyglądają dane „wysokiej jakości”? Krótko mówiąc, sprawdza te pięć pól:

1. Istotne

Aby dane mogły zostać uznane za wysokiej jakości, muszą wnieść coś wartościowego do procesu podejmowania decyzji. Czy istnieje korelacja między statusem kandydata do pracy jako mistrza stanu w skoku o tyczce a jego wynikami w pracy? To możliwe, ale wydaje się bardzo mało prawdopodobne. Odsiewając dane, które nie są istotne, algorytm może skupić się na sortowaniu informacji, które faktycznie wpływają na wyniki.

2. Dokładny

Dane, których używasz, muszą dokładnie odzwierciedlać pomysły, które testujesz. Jeśli nie, to nie jest tego warte. Na przykład Amazon wyszkolił swój algorytm zatrudniania na podstawie życiorysów kandydatów z 10 lat, ale nie jest jasne, czy firma najpierw potwierdziła informacje podane w tych życiorysach. Badania przeprowadzone przez firmę sprawdzającą referencje Checkster pokazują, że 78% kandydatów kłamie lub rozważałoby kłamstwo przy podaniu o pracę. Jeśli algorytm podejmuje decyzje o rekomendacjach, korzystając na przykład z GPA kandydata, dobrze jest najpierw potwierdzić autentyczność tych liczb. Ten proces wymagałby czasu i pieniędzy, ale niewątpliwie poprawiłby również dokładność twoich wyników.

3. Prawidłowo zorganizowane i opatrzone adnotacjami

W przypadku modelu zatrudniania opartego na życiorysach adnotacja jest stosunkowo łatwa. W pewnym sensie życiorys jest wstępnie opatrzony adnotacjami, chociaż bez wątpienia byłyby wyjątki. Większość kandydatów wymienia swoje doświadczenie zawodowe pod nagłówkiem „Doświadczenie”, a odpowiednie umiejętności pod nagłówkiem „Umiejętności”. Jednak w innych sytuacjach, takich jak badania przesiewowe w kierunku raka, dane będą znacznie bardziej zróżnicowane. Informacje mogą mieć formę obrazowania medycznego, wyników fizycznego badania przesiewowego, a nawet rozmowy między lekarzem a pacjentem na temat historii zdrowia rodziny i przypadków raka, wśród innych form danych. Aby te informacje przyczyniły się do dokładnego algorytmu wykrywania, muszą być starannie uporządkowane i opatrzone adnotacjami, aby zapewnić, że model AI nauczy się dokonywać dokładnych prognoz na podstawie właściwych wniosków.

4. Aktualne

Amazon próbował stworzyć narzędzie, które pozwoliłoby zaoszczędzić czas i pieniądze, odtwarzając te same decyzje o zatrudnieniu, które ludzie podejmują w znacznie krótszym czasie. Aby zalecenia były jak najdokładniejsze, dane musiałyby być aktualizowane. Gdyby firma raz wykazywała preferencje dla kandydatów z umiejętnością naprawy maszyn do pisania, te historyczne osoby prawdopodobnie nie miałyby większego wpływu na przydatność dzisiejszych kandydatów do pracy na jakąkolwiek rolę. W rezultacie rozsądnie byłoby je usunąć.

5. Odpowiednio zróżnicowana

Inżynierowie Amazona postanowili wytrenować algorytm z pulą kandydatów, którzy byli w przeważającej mierze płci męskiej. Ta decyzja była krytycznym błędem, a nie mniej rażącym jest fakt, że były to życiorysy, które firma miała wówczas do dyspozycji. Inżynierowie Amazon mogli współpracować z cenionymi organizacjami o podobnych wolnych stanowisk, które otrzymały więcej kobiet ubiegających się o pracę, aby nadrobić brak, lub mogło to mieć sztucznie zmniejszyć liczbę życiorysów mężczyzn, aby dopasować liczbę kobiet i przeszkolonych i kierował algorytmem z dokładniejszą reprezentacją populacji. Chodzi o to, że dane różnorodność jest kluczowa i jeśli nie podejmie się wspólnych wysiłków w celu wyeliminowania stronniczości w danych wejściowych, stronnicze wyniki będą: dominujące.

Oczywiście wysokiej jakości dane nie pojawiają się znikąd. Zamiast tego musi być starannie nadzorowany, mając na uwadze zamierzone wyniki. W dziedzinie sztucznej inteligencji często mówi się, że „śmieci wchodzące oznaczają śmieci wyrzucane”. To stwierdzenie jest prawdziwe, ale nieco umniejsza znaczenie jakości. Sztuczna inteligencja może przetwarzać niewiarygodne ilości informacji i przekształcać je we wszystko, od giełdowych ofert, przez rekomendacje rekrutacyjne, po diagnozy medyczne. Ta zdolność znacznie przewyższa możliwości ludzi, co oznacza również, że zwiększa wyniki. Jeden stronniczy rekruter mógł przeoczyć tylko tyle kobiet, ale stronniczy rekruter AI może przeoczyć je wszystkie. W tym sensie „śmieci wchodzące” nie oznaczają tylko „wyrzucanych” śmieci — oznacza to, że niewielka ilość danych „śmieci” może przekształcić się w całe wysypisko śmieci.

Poruszanie się po złożonych wymaganiach dotyczących zgodności

Jakby znalezienie danych wysokiej jakości nie było wystarczająco trudne, niektóre branże, które mogą najwięcej zyskać na innowacjach dotyczących danych AI, są również najbardziej uregulowane. Opieka zdrowotna jest prawdopodobnie najlepszym przykładem i chociaż ankieta przeprowadzona przez HIT Infrastructure wykazała, że 91% osób z branży uważa, że technologia może poprawić dostęp do opieki, optymizm jest łagodzony przez fakt, że 75% postrzega ją jako zagrożenie dla bezpieczeństwa i prywatności pacjentów — a nie tylko pacjenci są zagrożeni.

Ogólne przepisy uchwalone w ustawie o przenośności i odpowiedzialności w ubezpieczeniach zdrowotnych przecinają się obecnie z różnymi lokalnymi przeszkodami w zakresie zgodności danych, takimi jak europejskie ogólne rozporządzenie o ochronie danych, kalifornijska ustawa o ochronie prywatności konsumentów w Stanach Zjednoczonych i ustawa o ochronie danych osobowych w Singapurze. Do tych lokalnych przepisów dołączy wiele innych, a ponieważ telezdrowie staje się bardziej znaczącym źródłem danych dotyczących opieki zdrowotnej, prawdopodobne jest, że przepisy jeszcze mocniej uchwycą dane pacjentów w trakcie przesyłu. Na . W rezultacie bezpieczna i zgodna platforma chmurowa Shaip okaże się jeszcze bardziej wartościowym sposobem gromadzenia i uzyskiwania dostępu do danych medycznych w celu szkolenia produktów AI.

Informacje umożliwiające identyfikację osoby mogą stanowić poważne zagrożenie dla rozwoju sztucznej inteligencji, ale nawet całkowicie zgodna implementacja jest zagrożona, jeśli nie może dostarczyć dokładnych wyników, które pochodzą tylko z różnych danych treningowych. Badanie opublikowane w 2020 r. w Journal of the American Medical Association wykazało, że algorytmy uczenia maszynowego w medycynie są najczęściej szkolone na podstawie danych od pacjentów z Kalifornii, Nowego Jorku i Massachusetts. Biorąc pod uwagę, że ci pacjenci stanowią mniej niż jedną piątą populacji Stanów Zjednoczonych, nie mówiąc już o reszcie świata, trudno sobie wyobrazić, jak te modele mogłyby dawać wyniki poza stronniczymi.

Zdając sobie sprawę z trudności w zabezpieczeniu zgodnych, zróżnicowanych geograficznie informacji, Shaip oferuje licencjonowane dane dotyczące opieki zdrowotnej z wielu różnych regionów, specjalnie wyselekcjonowane w celu skonstruowania dokładnych algorytmów. Dane te mają postać tekstu, takiego jak dokumentacja medyczna lub informacje o roszczeniach, medyczne obrazowanie diagnostyczne, takie jak tomografia komputerowa, dźwięk, taki jak notatki mówione od lekarzy lub rozmowy między lekarzami a pacjentami, a nawet wideo z wyników MRI. Jest również całkowicie zdeidentyfikowany i zanonimizowany, chroniąc Twoją organizację zarówno przed etycznymi, jak i finansowymi konsekwencjami, które mogą wynikać z naruszenia którejkolwiek z rosnącej liczby przepisów regulujących dane o pochodzeniu zarówno krajowym, jak i międzynarodowym.

Pokonywanie przeszkód w rozwoju AI

Wysiłki w zakresie rozwoju sztucznej inteligencji obejmują znaczne przeszkody bez względu na branżę, w której działają, a proces przejścia od wykonalnego pomysłu do udanego produktu jest najeżony trudnościami. Pomiędzy wyzwaniami związanymi z pozyskaniem właściwych danych a potrzebą ich anonimizacji w celu zapewnienia zgodności ze wszystkimi odpowiednimi przepisami, można odnieść wrażenie, że faktycznie skonstruowanie i przeszkolenie algorytmu jest łatwą częścią.

Aby zapewnić swojej organizacji wszelkie korzyści niezbędne do zaprojektowania przełomowego rozwoju sztucznej inteligencji, warto rozważyć współpracę z firmą taką jak Shaip. Chetan Parikh i Vatsal Ghiya założyli firmę Shaip, aby pomagać firmom w opracowywaniu rozwiązań, które mogą przekształcić opiekę zdrowotną w Stanach Zjednoczonych. Po ponad 16 latach działalności nasza firma rozrosła się do ponad 600 członków zespołu i współpracowaliśmy z setkami klientów, aby przekuć ciekawe pomysły w rozwiązania AI.

Dzięki naszym pracownikom, procesom i platformie działającej dla Twojej organizacji, możesz natychmiast odblokować następujące cztery korzyści i katapultować swój projekt do pomyślnego zakończenia:

1. Zdolność do wyzwolenia analityków danych

Nie ma wątpliwości, że proces rozwoju sztucznej inteligencji wymaga znacznej inwestycji czasu, ale zawsze możesz zoptymalizować funkcje, na których wykonywanie Twój zespół spędza najwięcej czasu. Zatrudniłeś swoich naukowców zajmujących się danymi, ponieważ są oni ekspertami w opracowywaniu zaawansowanych algorytmów i modeli uczenia maszynowego, ale badania konsekwentnie pokazują, że ci pracownicy faktycznie spędzają 80% swojego czasu na poszukiwaniu, czyszczeniu i porządkowaniu danych, które będą napędzać projekt. Ponad trzy czwarte (76%) naukowców zajmujących się danymi twierdzi, że te przyziemne procesy gromadzenia danych są również ich najmniej ulubioną częścią pracy, ale potrzeba wysokiej jakości danych pozostawia tylko 20% ich czasu na faktyczny rozwój, co jest najciekawsza i stymulująca intelektualnie praca dla wielu naukowców zajmujących się danymi. Pozyskując dane za pośrednictwem zewnętrznego dostawcy, takiego jak Shaip, firma może pozwolić swoim drogim i utalentowanym inżynierom danych na outsourcing ich pracy jako dozorców danych i zamiast tego spędzać czas na tych częściach rozwiązań AI, w których mogą one wytworzyć największą wartość.

2. Zdolność do osiągania lepszych wyników outcome

Wielu liderów rozwoju sztucznej inteligencji decyduje się na wykorzystanie danych open source lub crowdsourcingowych, aby zmniejszyć wydatki, ale ta decyzja prawie zawsze kończy się kosztami wyższymi w dłuższej perspektywie. Tego typu dane są łatwo dostępne, ale nie mogą dorównać jakością starannie dobranym zestawom danych. Zwłaszcza dane pochodzące z crowdsourcingu są pełne błędów, pominięć i nieścisłości i chociaż te problemy można czasem rozwiązać w trakcie procesu rozwoju pod czujnym okiem inżynierów, wymagają one dodatkowych iteracji, które nie byłyby konieczne, gdybyś zaczynał od wyższych -jakość danych od początku.

Poleganie na danych o otwartym kodzie źródłowym to kolejny popularny skrót, który wiąże się z własnym zestawem pułapek. Brak zróżnicowania jest jednym z największych problemów, ponieważ algorytm wytrenowany przy użyciu danych open source jest łatwiej replikowany niż ten zbudowany na licencjonowanych zestawach danych. Idąc tą drogą, zapraszasz konkurencję ze strony innych uczestników rynku, którzy w każdej chwili mogą obniżyć Twoje ceny i zdobyć udział w rynku. Kiedy polegasz na firmie Shaip, uzyskujesz dostęp do najwyższej jakości danych zebranych przez wprawnych, zarządzanych pracowników, a my możemy udzielić Ci wyłącznej licencji na niestandardowy zestaw danych, który uniemożliwi konkurentom łatwe odtworzenie Twojej ciężko wywalczonej własności intelektualnej.

3. Dostęp do doświadczonych profesjonalistów

Nawet jeśli Twój wewnętrzny skład obejmuje wykwalifikowanych inżynierów i utalentowanych naukowców zajmujących się danymi, Twoje narzędzia AI mogą korzystać z mądrości, która pochodzi tylko z doświadczenia. Nasi eksperci merytoryczni przewodzili licznym wdrożeniom sztucznej inteligencji w swoich dziedzinach i nauczyli się po drodze cennych lekcji, a ich jedynym celem jest pomoc w osiągnięciu Twoich. .

Dzięki ekspertom dziedzinowym, którzy identyfikują, organizują, kategoryzują i oznaczają dane dla Ciebie, wiesz, że informacje wykorzystywane do trenowania Twojego algorytmu mogą przynieść najlepsze możliwe wyniki. Przeprowadzamy również regularne kontrole jakości, aby upewnić się, że dane spełniają najwyższe standardy i będą działać zgodnie z przeznaczeniem nie tylko w laboratorium, ale także w rzeczywistych sytuacjach.

4. Przyspieszona oś czasu rozwoju

Rozwój sztucznej inteligencji nie następuje z dnia na dzień, ale może to nastąpić szybciej, gdy współpracujesz z Shaipem. Własne gromadzenie danych i adnotacje tworzą istotne wąskie gardło operacyjne, które wstrzymuje resztę procesu rozwoju. Współpraca z Shaip zapewnia natychmiastowy dostęp do naszej ogromnej biblioteki gotowych do użycia danych, a nasi eksperci będą w stanie pozyskać wszelkie dodatkowe informacje, których potrzebujesz, dzięki naszej głębokiej wiedzy branżowej i globalnej sieci. Bez obciążenia związanego z sourcingiem i adnotacjami Twój zespół może od razu przystąpić do rzeczywistego rozwoju, a nasz model szkoleniowy może pomóc w identyfikacji wczesnych niedokładności w celu zmniejszenia liczby iteracji niezbędnych do osiągnięcia celów dotyczących dokładności.

Jeśli nie jesteś gotowy, aby zlecić na zewnątrz wszystkie aspekty zarządzania danymi, Shaip oferuje również platformę opartą na chmurze, która pomaga zespołom w bardziej wydajnym tworzeniu, zmienianiu i komentowaniu różnych typów danych, w tym obsłudze obrazów, wideo, tekstu i dźwięku . ShaipCloud zawiera szereg intuicyjnych narzędzi do walidacji i przepływu pracy, takich jak opatentowane rozwiązanie do śledzenia i monitorowania obciążeń, narzędzie do transkrypcji do transkrypcji złożonych i trudnych nagrań audio oraz komponent kontroli jakości zapewniający bezkompromisową jakość. A co najważniejsze, jest skalowalny, więc może się rozwijać wraz ze wzrostem różnych wymagań projektu.

Era innowacji AI dopiero się zaczyna, a w nadchodzących latach zobaczymy niesamowite postępy i innowacje, które mają potencjał, aby przekształcić całe branże, a nawet zmienić społeczeństwo jako całość. . W Shaip chcemy wykorzystać naszą wiedzę specjalistyczną, aby służyć jako siła transformacyjna, pomagając najbardziej rewolucyjnym firmom na świecie wykorzystać moc rozwiązań AI do osiągnięcia ambitnych celów.

Mamy duże doświadczenie w zastosowaniach opieki zdrowotnej i konwersacyjnej sztucznej inteligencji, ale posiadamy również umiejętności niezbędne do trenowania modeli dla niemal każdego rodzaju aplikacji. Aby uzyskać więcej informacji o tym, jak Shaip może pomóc w przeprowadzeniu Twojego projektu od pomysłu do realizacji, przejrzyj wiele zasobów dostępnych na naszej stronie internetowej lub skontaktuj się z nami już dziś.

Porozmawiajmy

Imię*
Nazwisko*
E-mail*
Telefon*
O nas*
Państwo*
Państwo
Komentarze*
Rejestrując się, zgadzam się z Shaip Polityka prywatności i Regulamin i wyrazić zgodę na otrzymywanie komunikacji marketingowej B2B od Shaip.
CAPTCHA