Pracownicy tłumu do zbierania danych

Crowd Workers do zbierania danych – nieodzowna część etycznej sztucznej inteligencji

W naszych wysiłkach na rzecz tworzenia solidnych i bezstronnych rozwiązań AI istotne jest, abyśmy skupili się na szkoleniu modeli na bezstronnym, dynamicznym i reprezentatywnym asortymencie danych. Nasz proces gromadzenia danych jest niezwykle ważny w opracowywaniu wiarygodnych rozwiązań AI. W tym zakresie zbieranie Dane szkoleniowe AI za pośrednictwem pracowników tłumu staje się krytycznym aspektem strategii gromadzenia danych.

W tym artykule przyjrzyjmy się roli pracowników społecznościowych i ich wpływowi na rozwój sztucznej inteligencji algorytmy uczenia się i ML oraz potrzeby i korzyści, jakie przynosi całemu procesowi. 

Dlaczego pracownicy społecznościowi są potrzebni do tworzenia modeli AI?

Jako ludzie generujemy tony danych, ale tylko ułamek tych wygenerowanych i zebranych danych ma wartość. Ze względu na brak standardów analizy porównawczej danych większość zebranych danych jest albo stronnicza, pełna problemów z jakością, albo niereprezentatywna dla środowiska. Od coraz więcej uczenie maszynowe i opracowywane są modele głębokiego uczenia się, które rozwijają się na ogromnych ilościach danych, coraz bardziej odczuwalna jest potrzeba lepszych, nowszych i zróżnicowanych zestawów danych.

W tym miejscu do gry wchodzą pracownicy masowi.

Crowd-sourcing danych to budowanie zbioru danych z udziałem dużych grup ludzi. Pracownicy z tłumu wprowadzają ludzką inteligencję do sztucznej inteligencji.

Platformy crowdsourcingowe zlecaj gromadzenie danych i dodawanie adnotacji dużej i zróżnicowanej grupie ludzi. Crowdsourcing umożliwia firmom dostęp do ogromnej, dynamicznej, opłacalnej i skalowalnej siły roboczej.

Najpopularniejsza platforma crowdsourcingowa – Amazon Mechanical Turk, była w stanie pozyskać 11 tysięcy dialogów międzyludzkich w ciągu 15 godzin i opłaciła się pracownikom $0.35 za każdy udany dialog. Za tak skromną kwotę angażuje się pracowników z tłumu, co rzuca światło na znaczenie budowania etycznych standardów pozyskiwania danych.

Teoretycznie brzmi to jak sprytny plan, ale nie jest to łatwa strategia do wykonania. Anonimowość pracowników społecznościowych doprowadziła do problemów z niskimi płacami, lekceważeniem praw pracowniczych i niską jakością pracy, które mają wpływ na wydajność modelu AI. 

Korzyści z posiadania pracowników społecznościowych do pozyskiwania danych

Angażując zróżnicowaną grupę pracowników społecznościowych, twórcy rozwiązań opartych na sztucznej inteligencji mogą rozdzielać mikrozadania i gromadzić różnorodne i rozległe obserwacje szybko i stosunkowo niskim kosztem.

Niektóre z najważniejszych korzyści płynących z zatrudniania pracowników społecznościowych do projektów AI to:

Data collection benefits through crowd workers

Szybszy czas na rynek: Według badań Cognilytica prawie 80% of sztuczna inteligencja czas projektu jest poświęcany na działania związane z gromadzeniem danych, takie jak czyszczenie danych, etykietowanie i ich agregowanie. Tylko 20% czasu poświęca się na rozwój i szkolenia. Tradycyjne bariery w generowaniu danych są eliminowane, ponieważ w krótkim czasie można zrekrutować dużą liczbę współpracowników. 

Ekonomiczne rozwiązanie: Gromadzenie danych pochodzących z tłumu zmniejsza czas i energię poświęcaną na szkolenie, rekrutację i wprowadzanie ich na pokład. Eliminuje to koszty, czas i zasoby wymagane, ponieważ siła robocza jest zatrudniona na zasadzie płatności za zadanie. 

Zwiększa różnorodność w zbiorze danych: Różnorodność danych ma kluczowe znaczenie dla całego szkolenia w zakresie rozwiązań AI. Aby model generował obiektywne wyniki, musi być szkolony na zróżnicowanym zbiorze danych. Dzięki crowdsourcingowi danych możliwe jest generowanie różnorodnych (geograficznych, językowych, dialektów) zestawów danych przy niewielkim wysiłku i kosztach.

Zwiększa skalowalność: Rekrutując niezawodnych pracowników społecznościowych, możesz to zapewnić wysokiej jakości gromadzenie danych, które można skalować w zależności od potrzeb projektu.

In-house vs. crowdsourcing – kto wygrywa?

Dane wewnętrzneDane pochodzące z crowdsourcingu
Można zagwarantować dokładność i spójność danych.Jakość, dokładność i spójność danych można utrzymać, jeśli zaangażowane zostaną niezawodne platformy crowdsourcingowe ze standardowymi środkami kontroli jakości
Wewnętrzne pozyskiwanie danych nie zawsze jest praktyczną decyzją, ponieważ wewnętrzny zespół może nie sprostać wymaganiom projektu.Różnorodność danych może być zapewniona, ponieważ możliwa jest rekrutacja heterogenicznej grupy pracowników społecznościowych w oparciu o potrzeby projektu.
Kosztowna rekrutacja i szkolenie pracowników na potrzeby projektu.Ekonomiczne rozwiązanie do zbieranie danych ponieważ możliwe jest rekrutowanie, szkolenie i wdrażanie pracowników przy mniejszych nakładach inwestycyjnych.
Czas wprowadzenia produktu na rynek jest długi, ponieważ wewnętrzne gromadzenie danych zajmuje dużo czasu.Czas wprowadzenia na rynek jest znacznie krótszy, ponieważ wiele wkładów przychodzi szybko.
Niewielka grupa wewnętrznych współpracowników i znawcówDuża i zróżnicowana grupa współpracowników i etykiety danych
Poufność danych jest bardzo wysoka dzięki wewnętrznemu zespołowi.Poufność danych jest trudna do utrzymania podczas pracy z dużymi pracownikami na całym świecie.
Łatwiejsze śledzenie, szkolenie i ocena osób zbierających daneTrudne do śledzenia i szkolenia zbieraczy danych.

Wypełnienie luki między pracownikami crowdsourcingu a wnioskodawcą.

Bridging the gap between crowdsource workers and requestor Istnieje pilna potrzeba wypełnienia luki między pracownikami społecznościowymi a wnioskodawcami, nie tylko w sferze płac.

Występuje rażący brak informacji ze strony wnioskodawcy, ponieważ pracownicy otrzymują tylko informacje dotyczące konkretnego zadania. Na przykład, chociaż pracownicy otrzymują mikrozadania, takie jak nagrywanie dialogów w ich rodzimym dialekcie, rzadko otrzymują kontekst. Nie mają wymaganych informacji, dlaczego robią to, co robią i jak najlepiej to robić. Ten brak informacji wpływa na tzw jakość pracy crowdsourcingowej.

Dla człowieka posiadanie całego kontekstu zapewnia jasność i cel jego pracy.

Dodaj do tego inny wymiar NDA – umowy o zachowaniu poufności, które ograniczają ilość informacji dostarczanych pracownikowi społecznościowemu. Z punktu widzenia pracowników społecznościowych to wycofanie informacji świadczy o braku zaufania i zmniejszeniu znaczenia ich pracy.

Kiedy patrzy się na tę samą sytuację z drugiego końca spektrum, brak jest przejrzystości od strony pracownika. Wnioskodawca nie w pełni rozumie pracownika, któremu zlecono wykonanie pracy. Niektóre projekty mogą wymagać określonego typu pracownika; jednak w większości projektów występuje niejednoznaczność. The podstawowa prawda czy może to skomplikować ocenę, informacje zwrotne i szkolenie w dalszej części.

Aby przeciwdziałać tym trudnościom, ważna jest współpraca z ekspertami w zakresie gromadzenia danych, którzy mają doświadczenie w dostarczaniu różnorodnych, wyselekcjonowanych i dobrze reprezentowanych danych od szerokiego grona współpracowników.

Wybór firmy Shaip jako dostawcy danych może przynieść wiele korzyści. Stawiamy na różnorodność i reprezentatywne rozkłady danych. Nasz doświadczony i oddany personel rozumie komplikacje każdego projektu i opracowuje zestawy danych, które mogą błyskawicznie trenować solidne rozwiązania oparte na sztucznej inteligencji.

[Przeczytaj także: Przewodnik dla początkujących po danych szkoleniowych AI: definicja, przykład, zbiory danych]

Podziel społecznej