W naszych wysiłkach na rzecz tworzenia solidnych i bezstronnych rozwiązań AI istotne jest, abyśmy skupili się na szkoleniu modeli na bezstronnym, dynamicznym i reprezentatywnym asortymencie danych. Nasz proces gromadzenia danych jest niezwykle ważny w opracowywaniu wiarygodnych rozwiązań AI. W tym zakresie zbieranie Dane szkoleniowe AI za pośrednictwem pracowników tłumu staje się krytycznym aspektem strategii gromadzenia danych.
W tym artykule przyjrzyjmy się roli pracowników społecznościowych i ich wpływowi na rozwój sztucznej inteligencji algorytmy uczenia się i ML oraz potrzeby i korzyści, jakie przynosi całemu procesowi.
Dlaczego pracownicy społecznościowi są potrzebni do tworzenia modeli AI?
Jako ludzie generujemy tony danych, ale tylko ułamek tych wygenerowanych i zebranych danych ma wartość. Ze względu na brak standardów analizy porównawczej danych większość zebranych danych jest albo stronnicza, pełna problemów z jakością, albo niereprezentatywna dla środowiska. Od coraz więcej uczenie maszynowe i opracowywane są modele głębokiego uczenia się, które rozwijają się na ogromnych ilościach danych, coraz bardziej odczuwalna jest potrzeba lepszych, nowszych i zróżnicowanych zestawów danych.
W tym miejscu do gry wchodzą pracownicy masowi.
Crowd-sourcing danych to budowanie zbioru danych z udziałem dużych grup ludzi. Pracownicy z tłumu wprowadzają ludzką inteligencję do sztucznej inteligencji.
Platformy crowdsourcingowe zlecaj gromadzenie danych i dodawanie adnotacji dużej i zróżnicowanej grupie ludzi. Crowdsourcing umożliwia firmom dostęp do ogromnej, dynamicznej, opłacalnej i skalowalnej siły roboczej.
Najpopularniejsza platforma crowdsourcingowa – Amazon Mechanical Turk, była w stanie pozyskać 11 tysięcy dialogów międzyludzkich w ciągu 15 godzin i opłaciła się pracownikom $0.35 za każdy udany dialog. Za tak skromną kwotę angażuje się pracowników z tłumu, co rzuca światło na znaczenie budowania etycznych standardów pozyskiwania danych.
Teoretycznie brzmi to jak sprytny plan, ale nie jest to łatwa strategia do wykonania. Anonimowość pracowników społecznościowych doprowadziła do problemów z niskimi płacami, lekceważeniem praw pracowniczych i niską jakością pracy, które mają wpływ na wydajność modelu AI.
Korzyści z posiadania pracowników społecznościowych do pozyskiwania danych
Angażując zróżnicowaną grupę pracowników społecznościowych, twórcy rozwiązań opartych na sztucznej inteligencji mogą rozdzielać mikrozadania i gromadzić różnorodne i rozległe obserwacje szybko i stosunkowo niskim kosztem.
Niektóre z najważniejszych korzyści płynących z zatrudniania pracowników społecznościowych do projektów AI to:
Szybszy czas na rynek: Według badań Cognilytica prawie 80% of sztuczna inteligencja czas projektu jest poświęcany na działania związane z gromadzeniem danych, takie jak czyszczenie danych, etykietowanie i ich agregowanie. Tylko 20% czasu poświęca się na rozwój i szkolenia. Tradycyjne bariery w generowaniu danych są eliminowane, ponieważ w krótkim czasie można zrekrutować dużą liczbę współpracowników.
Ekonomiczne rozwiązanie: Gromadzenie danych pochodzących z tłumu zmniejsza czas i energię poświęcaną na szkolenie, rekrutację i wprowadzanie ich na pokład. Eliminuje to koszty, czas i zasoby wymagane, ponieważ siła robocza jest zatrudniona na zasadzie płatności za zadanie.
Zwiększa różnorodność w zbiorze danych: Różnorodność danych ma kluczowe znaczenie dla całego szkolenia w zakresie rozwiązań AI. Aby model generował obiektywne wyniki, musi być szkolony na zróżnicowanym zbiorze danych. Dzięki crowdsourcingowi danych możliwe jest generowanie różnorodnych (geograficznych, językowych, dialektów) zestawów danych przy niewielkim wysiłku i kosztach.
Zwiększa skalowalność: Rekrutując niezawodnych pracowników społecznościowych, możesz to zapewnić wysokiej jakości gromadzenie danych, które można skalować w zależności od potrzeb projektu.
In-house vs. crowdsourcing – kto wygrywa?
Dane wewnętrzne | Dane pochodzące z crowdsourcingu |
---|---|
Można zagwarantować dokładność i spójność danych. | Jakość, dokładność i spójność danych można utrzymać, jeśli zaangażowane zostaną niezawodne platformy crowdsourcingowe ze standardowymi środkami kontroli jakości |
Wewnętrzne pozyskiwanie danych nie zawsze jest praktyczną decyzją, ponieważ wewnętrzny zespół może nie sprostać wymaganiom projektu. | Różnorodność danych może być zapewniona, ponieważ możliwa jest rekrutacja heterogenicznej grupy pracowników społecznościowych w oparciu o potrzeby projektu. |
Kosztowna rekrutacja i szkolenie pracowników na potrzeby projektu. | Ekonomiczne rozwiązanie do zbieranie danych ponieważ możliwe jest rekrutowanie, szkolenie i wdrażanie pracowników przy mniejszych nakładach inwestycyjnych. |
Czas wprowadzenia produktu na rynek jest długi, ponieważ wewnętrzne gromadzenie danych zajmuje dużo czasu. | Czas wprowadzenia na rynek jest znacznie krótszy, ponieważ wiele wkładów przychodzi szybko. |
Niewielka grupa wewnętrznych współpracowników i znawców | Duża i zróżnicowana grupa współpracowników i etykiety danych |
Poufność danych jest bardzo wysoka dzięki wewnętrznemu zespołowi. | Poufność danych jest trudna do utrzymania podczas pracy z dużymi pracownikami na całym świecie. |
Łatwiejsze śledzenie, szkolenie i ocena osób zbierających dane | Trudne do śledzenia i szkolenia zbieraczy danych. |
Wypełnienie luki między pracownikami crowdsourcingu a wnioskodawcą.
Istnieje pilna potrzeba wypełnienia luki między pracownikami społecznościowymi a wnioskodawcami, nie tylko w sferze płac.
Występuje rażący brak informacji ze strony wnioskodawcy, ponieważ pracownicy otrzymują tylko informacje dotyczące konkretnego zadania. Na przykład, chociaż pracownicy otrzymują mikrozadania, takie jak nagrywanie dialogów w ich rodzimym dialekcie, rzadko otrzymują kontekst. Nie mają wymaganych informacji, dlaczego robią to, co robią i jak najlepiej to robić. Ten brak informacji wpływa na tzw jakość pracy crowdsourcingowej.
Dla człowieka posiadanie całego kontekstu zapewnia jasność i cel jego pracy.
Dodaj do tego inny wymiar NDA – umowy o zachowaniu poufności, które ograniczają ilość informacji dostarczanych pracownikowi społecznościowemu. Z punktu widzenia pracowników społecznościowych to wycofanie informacji świadczy o braku zaufania i zmniejszeniu znaczenia ich pracy.
Kiedy patrzy się na tę samą sytuację z drugiego końca spektrum, brak jest przejrzystości od strony pracownika. Wnioskodawca nie w pełni rozumie pracownika, któremu zlecono wykonanie pracy. Niektóre projekty mogą wymagać określonego typu pracownika; jednak w większości projektów występuje niejednoznaczność. The podstawowa prawda czy może to skomplikować ocenę, informacje zwrotne i szkolenie w dalszej części.
Aby przeciwdziałać tym trudnościom, ważna jest współpraca z ekspertami w zakresie gromadzenia danych, którzy mają doświadczenie w dostarczaniu różnorodnych, wyselekcjonowanych i dobrze reprezentowanych danych od szerokiego grona współpracowników.
Wybór firmy Shaip jako dostawcy danych może przynieść wiele korzyści. Stawiamy na różnorodność i reprezentatywne rozkłady danych. Nasz doświadczony i oddany personel rozumie komplikacje każdego projektu i opracowuje zestawy danych, które mogą błyskawicznie trenować solidne rozwiązania oparte na sztucznej inteligencji.
[Przeczytaj także: Przewodnik dla początkujących po danych szkoleniowych AI: definicja, przykład, zbiory danych]